1. 数据分析网首页
  2. 人物观点

MOOC线下交流会:聊聊“大数据”的那些事儿

今天,不管你从事哪个行业,一定都知道大数据这个概念。但是,大数据究竟是什么计算机等相关行业的从业人员和学习者该何在这里抢占先机

作为大数据研究的权威机构,微软亚洲研究院及时推出了MOOC课程《微软亚洲研究院大数据系列讲座》,由洪小文、宋睿华、谢幸、郑宇、张洪宇、刘世霞六位业界专家主讲。这套讲座原本只对清华大学研究生开放,在广大师生的要求下,微软亚洲研究院将其制作成MOOC,对全社会开放。自2015年10月以来,课程分别在中国大学MOOC(爱课程)、学堂在线和好大学在线(CNMOOC)上线。截至2016年1月,已有4万学习者注册学习。

这门课程既整体概括了大数据的研究现状及未来发展趋势,也具体探讨了大数据技术在互联网搜索、社会计算、城市计算、软件分析、数据可视化等领域的应用。这既是一门高屋建瓴的大数据导论课程,又是一门深刻具体的大数据技术实践课程。

为了让学习者们与教师进行进一步的交流,微软亚洲研究院委托MOOC学院和中国大学MOOC邀请组织学习者们于1月8日来研究院参观。课程负责人刘康平将这次活动称为“O2O式MOOC交流会”。

微软全球资深副总裁、微软亚洲研究院院长洪小文首先对课程主题“大数据”作了整体介绍,以微软的产品为实例,深入浅出地讲解大数据、云计算、人工智能、机器学习等学科的应用。在新的大数据时代背景下,洪院长还介绍了数据科学中新的算法、思维、创意,以及新的数据科学所带来的变化:就业市场下催生了诸如数据科学家、数据分析师这类新型职业;在学术界也产生了新的数据科学研究中心;新的研究和产品之间的距离越来越近。洪院长强调,现今无论何种职业,数据分析的概念和思维会越来越重要。

很多学习者都关心这样一个问题:怎么样才能成功申请微软亚洲研究院实习生岗位洪院长表示,他们所看重的素质主要包括良好的逻辑思维、解决问题的能力以及扎实的数学和编程基础,同时认真的学习态度和优秀的学习能力也很重要。

MOOC线下交流会:聊聊“大数据”的那些事儿

微软全球资深副总裁、微软亚洲研究院院长洪小文博士

本次交流会共吸引了来自全国各地120余位修读了大数据线上课程和对大数据感兴趣的同学来到现场,但错过了活动的同学们不要伤心,以下是我们精心整理的Q&A环节问答干货,接好咯~

Q:“大数据”研究的基础便是数据,那究竟该如何获取海量数据呢

微软亚洲研究院主管研究员 郑宇:

以我们做的城市计算领域的研究为例,我们的数据主要来自于三个渠道:首先是微软自有数据,比如bing地图的一些API接口,可以获取街道地图方面的数据;其次是公开数据,比如政府公开发布的气象、空气质量等有关数据;第三则是行业合作提供的数据,但前提是你要先利用前两种数据做出一定的成果和模型,再去和行业谈合作,这样才有可能拿到你所需要的行业数据。

Q:数据获取渠道虽多,但研究中是否会遇到“数据不够”的问题呢

微软亚洲研究院主管研究员 郑宇:

我认为现在的大数据研究并不存在“数据不够”的问题,恰恰相反是”数据太多”。人们常常抱怨数据不够,很大程度上是因为做大数据研究的观念还停留在过去,其实假如你要研究领域A的问题,不是一定要用A的数据,可以用领域B或者C的数据。举例来看,比如做纽约市噪音污染的问题,我们第一个想法就是用声音传感器去测噪音的分贝,但这个数据很难获得。但是通过纽约市民311投诉电话中关于噪音投诉的数据,你就可以根据哪个区域收到的投诉电话最多、投诉理由是什么,推出城市中噪音源类型和噪音污染强度的分布。此外还可以利用社交媒体的数据,这样就可以很好的解决对于城市噪音的研究。

Q:一个刚刚踏入大数据研究领域的同学该如何努力,才能成为一名优秀的数据科学家

微软亚洲研究院主管研究员 郑宇:

一个优秀的数据科学家需要站在云平台上看问题、想数据、关联模型、把模型有机的组合起来,部署在平台上不停的运作,产生鲜活的知识,最终服务于行业。

Q:如今大数据研究在互联网搜索中扮演了重要角色,那么未来研究会向什么样的方向前进呢

微软亚洲研究院主管研究员 宋睿华:

我认为未来互联网搜索中的大数据研究会有两大趋势:

首先是以搜索为工具,索引大数据,挖掘新知识。现在搜索既然可以把海量的数据索引起来,那么就可以从这些数据中挖掘中一些有用的知识。比如我们给出一个“手表”的关键词,我们从搜索结果的列表里发现一些知识,比如有一个list是关于手表品牌的,而且是以品牌的影响力排序的;把搜索作为工具,在大数据时代,无论是哪个领域的数据,都可以把它们索引起来,然后从大数据中挖掘出新知识。

其次是大数据时代的“大语料”优化传统信息检索。其实互联网搜索是“信息检索”中最简单的一个领域,因为互联网上同样的信息有很多份,同时会有很有辅助信息(网站品牌、网站访问量),这样的话搜索本身就变得简单了,因此大家会觉得搜索的效果还不错,输入的关键词不用那么精确也可以得到很好的结果。但是当你的搜索范围不是那么广的时候,并不在互联网这种范围的时候,比如你之前在朋友圈看到某文章,某天要搜索的时候,已经记不清内容了,这时候你的查询词和文章的词可能并不匹配,但是意义是一样的,这时候传统的搜索的局限性就凸显出来。因此大数据时代,可以利用“大语料”让这些“意义相似但长相不同的”词联系起来,优化传统的信息搜索,缩短查询词和文本词之间的gap。

Q:正如很多人的担忧那样,大数据的发展是否会对用户隐私造成侵犯呢

微软亚洲研究院主管研究员 宋睿华:

一方面,大数据研究确实会有侵犯隐私的风险,比如很多人在网购时候其实是不希望别人知道自己买了什么的,因此购物网站往往都有“匿名购买”的选项;但另一方面,大数据中对于个人信息的采集可以为用户提供更好的定制服务,比如在线购物的“推荐算法”,就是基于其他用户的购买记录数据形成的,这又恰恰方便了人们的网购;因此,对于个人信息的采用需要把握好其中的尺度,在不侵犯人隐私的前提下为用户提供更好的服务。

Q:随着大量数据的产生,“垃圾数据”的产生无法避免,我们该如何区分大数据时代的“垃圾数据”和“有用数据”

微软亚洲研究院资深研究员 谢幸:

在我看来,“垃圾数据”和“有用数据”是相对而言的。对于数据拥有者来说,很多数据看起来真的没什么用途,存储起来只是浪费硬盘空间而已;但对于需要这些数据来做研究做产品的人来说,这些数据是非常有用的。比如之前我们做的关于”出租车“的数据,这些出租车的数据在数据拥有者那边是定期删除的,因为这个数据在他们看来真的没什么用,但是对于我们研究来说,这些数据可以拿来做很多东西,比如城市规划、交通管理、用户出行规律挖掘和地点推荐等等。

同时,正是因为数据拥有方和数据需求方在数据有用与否上的不同理解,给大数据研究带来一些麻烦。当你真正需要一个数据的时候,这个数据可能已经被人删减过了,那些删减的部分虽然看似没什么用,但对大数据研究来说却仍然是非常有价值的。

Q:作为一名大数据方向的研究员,又该如何选择和确定自己的研究方向

微软亚洲研究院资深研究员 谢幸:

就我自身而言,我的研究方向也经历过几次变换。我在学校的时候做的是做随机算法方面的研究,进入微软亚洲研究院后一开始做过一些多媒体内容分析,后来做了一些关于位置数据的分析,现在又做城市计算方面的研究。我觉得选择自己的研究方向主要有两点:第一,你自己对这个方向是否感兴趣;第二,你所做研究的应用是否重要是否真正对社会有用。

Q:对于希望进入大数据研究领域的同学们有什么样的建议

微软亚洲研究院主管研究员 刘世霞:

我认为扎实的数学基础和良好的逻辑思维会让你受益终身。以我本人为例,我本科是学计算数学的,我非常受益于我曾接受过的数学专业训练。正如洪小文院长所说,微软亚洲研究院招技术实习生主要有三条标准:逻辑思维好、编程好、态度好。良好的数学基础会给你带来非常清晰和强大的逻辑思维能力,无论是研究、开发、管理还是其他事情,你都可以很好的胜任。如今社会竞争更加激烈、学生的就业压力更大,可能很多学生更看重结果而不是过程,但我还是建议大家把数学基础打好。一个数学基础好的程序员,编写出的程序在逻辑性、可用性上都要比其他人胜出一筹。

图灵奖得主、清华大学教授姚期智院士:“这门课程涵盖了互联网搜索、城市计算、社会计算、软件分析、可视化等大数据研究中的热门和前沿领域,课程设计兼具前所未有的广度和深度,我真诚地推荐所有对大数据研究感兴趣的同学去学习这门课程。This will absolutely change your life!”

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

分享本页
返回顶部