1. 数据分析网首页
  2. 人物观点

百度张琪:大数据时代的数据仓储

乔丹为耐克代言说的是Just do IT而不是Just do DT

摘要:2016年5月13日,第七届中国数据库技术大会(DTCC 2016)大数据应用及实践在北京国际会议中心拉开帷幕。对于应时代变化而出的专场,也不出所料的人群爆满,百度高级产品经理张琪对于大数据时代的数据存储的演讲也推翻了笔者对于技术人士的传统印象。黑衬衫,黑长裤外加一副黑眼镜,普通的装扮在缜密的思维以及风趣的演讲中却又显得不平凡。

百度张琪:大数据时代的数据仓储

百度高级产品经理张琪

乔丹为耐克代言说的是Just do IT而不是Just do DT

在科学方法提出之前,人们获得知识的渠道更多的是靠口口相传,伟大的亚里士多德曾经在他的书里写道,男人的牙齿要比女人多三颗,因为他的老师是这么教他的,但是最关键的是亚里士多德结过两次婚,他只要找他的妻子张嘴数一下牙齿,就可以得以论证,可惜结过两次婚他也没有想到去验证,所以现在非常强调科学方法,有了科学方法才能验证一个理论是否科学与否,能够获得最终的洞察力。

在科学方法中最重要的是数据分析,要开发一套能够检测的理论,收集一批数据来验证,推翻或者提高或者改良假设,这样就能找到真的洞察力。根据维基百科来说也是简单的三步,第一步是收集数据,第二步是加工处理数据,第三步是分析数据找到洞察力。这个时代的IT是获得真正的洞察力。正如乔丹当时为耐克代言说的是Just do IT,而不是Just do DT,所以要搞清楚最终要获得的是洞察力,而处理数据信息只是方法而已。

OLTP vs OLAP

做个简单的对比,OLTP放的是日常事务的处理,比如说在ATM机上,存取钱,这时一个小的CRUD的操作比较多,而OLAP最多的是分析,更多的是关于复杂的查询。在访问模式上,OLTP更多的是对简单小事务、操作少量数据,因为增删改大多数时候是一行的数据,而OLAP是复杂聚合查询、操作大量数据。对于数据类型,OLTP更多的是最新状态的切片,而OLAP是查询到整个状态。对于数据规模来说,OLTP的规模是GB的规模,而OLAP的规模是TB、PB的规模。

百度张琪:大数据时代的数据仓储

应时代两大变化:大数据and云计算

用一个名人说的,格罗姆.地狱咆哮中格罗马什说的时代变了。时代变了,大数据来了。在大数据中有两点是我们看到的非常多的,数据量大和数据多样性。正如百度做的开放云,也和很多企业合作过,像传统的规整的结构化数据是少量的,而更大量的是互联网的数据,社交的数据,用户日志,行为这样的数据多样性非常多。

时代的第二个变化就是云计算,现在云计算渗入到各行各业,不管对它喜欢与否,抵抗或者是抵触还是有倾向性,云计算都是实实在在发生的,并且是个不可逆的趋势。现在很多企业还在做私有云。云计算带来很多好处,很多是关于托管服务。百度在运营开源产品,并且很多商业产品都是和开源产品接口是兼容的,但是在运维这些产品时,都会碰到各种各样的坑,或者是想雇佣一个有这种开源能力的人。所以托管服务这种形态还是有它自己的优势的,它的好处就在于比如现在要建一个Hadoop集群,在云端,一键部署,大概两分钟就可以建一个Hadoop集群,可以做一个按时发布和按时购买。

技术细节

Hadoop核心技术:

百度张琪:大数据时代的数据仓储

数据仓库Palo:

百度张琪:大数据时代的数据仓储

来源:IT168

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

分享本页
返回顶部