魏凯:大数据的价值探索与实践

近日,第十届中国IDC产业年度大典(IDCC2015)在北京国家会议中心召开。数据中心联盟大数据工作组组长魏凯出席IDCC2015大会并在大数据应用与安全技术论坛发表主题为《大数据的价值探索与实践》的精彩演讲。

3417eb9bbd59180850ab62

数据中心联盟大数据工作组组长魏凯

以下为魏凯演讲实录:

大家好,我是信息通信研究院的魏凯,我同时在数据中心联盟大数据工作组工作,今天题目是大数据应用与安全,跟大家探讨三部分,一是我们对大数据产业技术发展的概览,大家做安全的同时对大数据有主要的了解,分享一下我们的主要观点。二是我们院做政策支撑的时候了解到的信息,国家现在在做大数据的国家战略,工信部大数据产业的十三五规划的最新进展和政策考虑,有些与安全有关。三是数据中心联盟和我们院做的与大数据有关的工作,看看大家有没有结合点。

第一,不管是国内还是国外,大数据这个产业有谁在玩,有三个环节,第一个环节是数据资源,大数据如果没有数据的话是无米之炊的事情。怎么来拥有和获取这些数据,我待会儿会详细地说每个环节有什么问题。第二个环节,有了数据以后怎么用很好的很便宜的系统把它存下来,分布式的集群把它管起来,用先进的算法把它挖掘出来。第三个环节是应用和服务的环节,我们从产值的分布来看是依次在增加,前两个环节对国内做了一个统计,统计大数据的产值有多大,前两个环节全球200亿美元,中国100亿人民币,如果把第三个环节算上非常大,很多咨询机构和政府智库都在评估大数据对国家带来的经济效益有多大,大概是GDP的2%,那是非常大的。中国GDP如果乘以2%是非常大的量。大数据整个产业有很强的外部效应。

我详细说一下每个环节存在什么问题。第一个环节是数据,我们跟很多做大数据的公司,包括应用部门、技术提供部门都在讨论,数据是极度不均衡的,需要数据的人拿不到数据非常着急,结构性短缺问题非常严重,其实每个企业的数据都在暴增,书到用时方恨少,数据也是一样的,有这样一个现象就是结构性短缺。结构性短缺有两个不正常的状态,两个极端,一个极端是很多希望拿到数据的,比如银行希望拿到客户的数据对数据进行精准的分析,做征信的评估,但很难从各个渠道获取很全的数据。要数据的人拿不到,数据死锁在政府部门,死锁在数据拥有的企业手里。另外是无序的,黑市上的数据交易非常多,个人信息的泄露经常发生。我们觉得是两个极端现象,是不正常的现象,应该是中间状态,像水龙头一样,需要的时候开,不需要的时候关掉,这应该是有序流动的状态,这是一个理想状态,但现在做不到。

企业获取数据非常困难,不光是小企业,大企业也一样,这里列举了几种,一些大银行、大企业获取数据都有什么招术。有七八种招术,跟别人合作,自己建平台,建电商平台,获取政府开放的数据。跟企业合作成本是非常高的,你想买数据,有数据的人是很犹豫的,担心产权纠纷。等数据开放是等不起的,国家在纲要里提了2018年要建一个大数据的统一开放平台,阻力非常大。数据的获取非常成问题。交易所是非常好的途径,各地每个月都会成立一个大数据交易所,地方政府领导非常热衷于交易所的成立,现在运行在制度真空的条件下非常令人担忧,里面有很多问题,特别是权力、责任、利益的分割,在数据交易的事情里没有清晰地讨论清楚,基本是建立在沙滩盖楼的状态,很多理论上的问题没有解决,比如产权的界定很模糊。这是我们看到的数据的问题。

大数据技术,2000年左右到现在技术更替非常快,特别是底层技术没几年就会来一轮新的变化,我们认为大概经历了三个阶段,九十年代很多企业做数据分析都是用原来的数据库,这种情况下成本非常高,2000年左右,谷歌等大的互联网公司发明了新技术,用Hadoop,用非关系型数据库做数据分析,解放了很多限制,一下子把工程师的思路打开了,可以放松一致性的要求,让我的吞吐量变得非常高,成本下降非常快,这是NoSQL的兴起。2010年以后,在互联网公司的教育下,传统企业认识到大数据的平台对他是有价值的,对他在未来是有战略性的事情。对传统公司、传统行业来说,大数据的门槛非常高,因为他们没有Hadoop的程序员,没有NoSQL的程序员,应用还是跑在SQL上,没有办法迁移到JAVA平台说,应用起来惯性非常强。2010年以后讨论最多的就是怎么给Hadoop加上SQL接口,让分布式的平台能兼容以前的使用习惯,甚至让应用无感知地运营在Hadoop上,这是第三个阶段的轮回,放弃了Hadoop。现在更热的是把Hadoop当做数据库来用,不管企业级软件还是应用开发很重要的方向。

产业里的第三个环节是应用,我们看到的情况是互联网很热,因为互联网这些技术、模式、理念都来源于互联网,天然是很热的。互联网+是互联网这些公司把新的技术往其他行业推的一个过程,其他行业还是处于非常早期的阶段、摸索的阶段、证明大数据价值的阶段,我还没有看到很多很成熟的案例出来,互联网是一个领先的状态。第二个热的是政府,很多政府搞招商引资,搞园区建设,政府有很强的冲动去做大数据产业,特别是经济落后的地方,很多地方觉得这是弯道超车的机会。

行业应用到底怎么样?行业应用是大数据产业的中间环节,只有各个行业应用得好,大数据整个产业才能起来。行业应用现在还处于小学一年级的阶段,运营商、银行他们仅仅是大规模商用的系统,主要是把历史账单归拢起来。以前银行查个历史账单要等一周的时间,提个申请,他给你弄个指示。现在实时可以查开户以来的历史账单。做到这一点很不容易,他要把历史上的磁盘上存的弄到Hadoop做查询,这是第一步,有了这一步后面做很多事情就方便了,但仍然是在这个过程中,未来的蓝图是给用户画像,传统行业刚刚开始,因为数据的问题。他的精准营销、风险管控,两个维度,一个维度需要更多的外部数据跟内部数据耦合,另外一个维度是更高级的分析技术和平台支持,两个维度同时进步才能产生更高级进步的价值,这是我们对于行业应用的认识。

刚才说了产业的观察,说一下我们对于政策的展望。2015年国家出台了与信息技术有关的国务院顶层文件是最多的,与大数据直接有关的是两个,运用大数据加强市场主体服务和监管的文件,这主要是对内的政府怎么做信用评级、做市场监管。第二是纲领性文件,怎么全局地促进大数据的发展。纲领性文件里的主要内容都有哪些?大的是一个目标,现在政府部门的领导认识到中国是一个数据大国,不是数据强国,这个文件主要的核心意思是怎么把中国变成数据强国。

有三方面内容,一是要推动政府数据的开放和共享,两个层面,一个是对外开放,另一个是政府之间的共享。第二是怎么做大做强产业,不要十年后再喊去IOE,大数据里不能再没有自己的位置。第三是安全。

前面我简单回顾了产业和政策的情况。第三部分是我们的团队做什么。中国信息通信研究院是工信部下属的事业单位,是政府政策支撑的部门,我们参与了很多重要的大数据相关文件制定,不光是大数据,第50个国务院文件里我们院起草了四个,这是对上的。我们在数据中心联盟下做产业急需的事情,有几方面跟大数据有关,一是我们跟厂商、用户单位一起制定大数据相关产品的规范、评测的方法,希望通过这个手段提高我们国内大数据产品的水平。二是合规地推动数据的跨行业、跨部门的流动,在做一些尝试,后面会陆续发布很多成果在数据交易和流通方面。另外是人才培训。

今天主要讲一下我们在产品标准方面的情况。2015年年初到年末我们做了两个标准,一个是大数据平台的基准测试,技术要求和评测方法,这个标准主要内容是我们把大数据整个产品体系分成三个层次,第一个层次是基础平台类的产品,第二个层次是数据管理平台,数据治理、数据管理、数据资源的统一视图,第三是最上层的BI工具及其他可视化工具,现在开展标准化的工作在底下的基础平台方面。我们经过很多大量的调研,从几方面提出来,一是可用性,产品应该有很高的可用性。二是架构的兼容,应该跟传统的应用架构互操作。三是很高的性价比,很好的线性水平扩展,这是非常重要的特性。

安全性,主要是数据加密、权限管理、数据安全保护。易用性,企业运维的成本非常高,大家要很简易地部署。灾备和应用连续性的要求。这是我们产品标准定义方面的情况。2015年5月、7月组织第一轮测试,大家看到这几个厂商的名字是比较大牌的,参与了我们这个测试,也创造了很多第一,首次在统一的平台上做商业产品的测试。我们第二轮测试正在报名,如果你有大数据产品和服务的话,欢迎和我们联系,一块参与到标准和评测的活动中来,这个评测活动会持续到3月份完成,4月份会在高端的大会上公开发布评测结果。欢迎大家跟我们一块来推动。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
上一篇 2016-01-18 23:27
下一篇 2016-01-20 23:35

相关文章

关注我们
关注我们
分享本页
返回顶部