数据科学极简史(二)

数据科学极简史(二)

2002 年 4 月,数据科学期刊(Data Science Journal)创刊,旨在发表「科学与技术领域的数据与数据库管理」方面的论文。「此期刊涵盖对于数据系统的描述,及其在互联网上的发布、应用和法律问题。」此期刊由国际科学理事会(International Council for Science )旗下的数据科学技术委员会(Data for Science and Technology)出版。

2003 年 1 月,期刊数据科学(Journal of Data Science)创刊:「我们用‘数据科学’指代与数据有关的一切业务:收集、分析、建模……但最重要的部分是它的应用——所有形式的应用。本刊着眼于广义上的统计方法应用…期刊数据科学为所有数据工作者提供一个展示看法、交流思想的平台。」

2005 年 5 月,Thomas H. Davenport、Don Cohen、 Al Jacobson 共同发表了《分析的较量》( Competing on Analytics ),这是一份巴布森学院工作知识研究中心的报告。报告描述「一种基于对分析、数据、基于事实决策的新型竞争的发展…企业开始应用统计量化方法和预测模型,而不再是传统手段,作为竞争的主要部分。」这项研究晚些时候由 Davenport 发表在《哈佛经济评论》( 2006 年 1 月),之后被扩展成《分析的较量:胜利的新科学》一书( 2007 年 3 月)。

2005 年 9 月,美国国家科学委员会出版了《长存的数码数据收集:使 21 世纪的研究与教育成为可能》( Long-lived Digital Data Collections: Enabling Research and Education in the 21stCentury )。此报告的一则推荐语写道:「NSF(美国国家科学基金会)与收集的管理者与广义团体合作。 NSF 应该行动起来,让数据科学家的职业道路发展、成熟,保证研究机构包含一定数量的高质量数据科学家。」这份报告将「数据科学家」定义为「信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数码数据收集的成功管理至关重要。」

2007 年上海的复旦大学成立了数据科学研究中心( Research Center for Dataology and Data Science)。2009 年此中心的两位学者朱扬勇和熊赟出版了《数据学与数据科学概论》( Introduction to Dataology and Data Science ),这篇文章中他们声称「与自然科学和社会科学不同,数据学与数据科学以数码世界的数据作为研究对象。这是一门新的科学。」这家中心还举办数据科学国际研讨会。

2008 年 7 月,Jisc 出版了一项旨在「盘点与推荐对数据科学家的角色与职业发展,以及相关的数据处理技术在学术界的供应」的研究的最终报告。这份题为《数据科学家与管理者的技能、角色、职业结构:对现有实践与未来需求的评估》的报告( The Skills, Role & Career Structure of Data Scientists & Curators: Assessment of Current Practice & Future Needs ),把数据科学家定义为「在研究实施之处工作-或是在数据中心团队,与数据的创造者紧密合作-可能会进行创造性探寻与分析使他人能使用数码数据工作,以及数据库技术开发的人士。」

2009 年 1 月,《为了科学与社会驾驭数码数据的力量》( Harnessing the Power of Digital Data for Science and Society )出版。这份报告由数码数据跨机构工作组( Interagency Working Group on Digital Data )提交给美国国家科技理事会的科学委员会( The Committee on Science of the National Science and Technology Council)。报告称「国家需要识别与推广擅长在复杂动态的挑战中进行数据保存、维持获取、再利用、变更用途的新学科与技术人才。许多学科见证着一类新型数据科学与管理专家的崛起,他们擅长电脑、信息、数据科学领域以及另外某种科学领域。这些人是科学事业在现在与未来获取成功的关键。然而这些人的贡献通常未被认可,他们的职业路径也有限。」

2009 年 1 月,谷歌的首席经济学家HalVarian 告诉《麦肯锡季报》( Mc Kinsey Quarterly):「我一直说未来十年最性感的工作是统计学家。人们以为我在开玩笑,但谁会料到电脑工程师成了 1990 年代最性感的工作呢?驾驭数据的能力-能够理解它,处理它,从中提取价值,可视化,进行沟通-这将是未来几十年非常重要的技能。因为现在我们有免费的无处不在的数据。所以,所需的稀缺要素是理解数据并从中提取价值的能力…我真的认为这些能力-接触、理解、传达来自数据分析的洞察-会是及其重要的。管理者需要能够独立接触和理解数据。」

2009年 3 月 Kirk D. Borne 和其他天体物理学家向 Astro 2010 Decadal Survey 提交了一份题为《天文学教育的改革:大众的数据科学》( The Revolution in Astronomy Education: Data Science for the Masses )的文章。文章中说:「训练下一代从数据中得到明智的结论对科学、社区、项目、机构、商业、经济的成功都是不可或缺的。对于专家(科学家)和非专业技术人员(其他所有人:大众,教育者,学生,劳动力)都是这样。专家比较学习和应用新的数据科学研究技巧以增进我们对宇宙的理解。非专业技术人员作为 21 世界的劳动力需要基础的信息技能,加之从日益被数据占领的世界中终身学习的技能。」

2009 年 5 月,Mike Driscol 在《数据极客的三种性感技能》( The Three Sexy Skills of Data Geeks )中写道:「…生活在数据时代之下,那些能够建模、合并、视觉传达数据的人——请叫我们统计学家或数据极客——是抢手货。」Driscol 后来又在 2010 年 8 月发表了《成功数据科学家的七个秘密》( The Seven Secrets of Successful Data Scientists )。

2009 年Nathan Yau 在《数据科学家的崛起》( Rise of the Data Scientist )中写道:「我们都曾读到过,谷歌的首席经济学家 Hal Varian 在 1 月坦言未来十年最性感的工作会是统计学家。我显然完全同意这个看法。见鬼,我想说得再绝对一点。它现在就已经是最性感的工作了,无论肉体或精神层面。不过,如果你继续读 Varian 的访谈,你会发现他所谓的统计学家实际是泛指一类人,他们从大型数据集中提取信息,然后为不是数据专家的人们呈现一些可用的东西…(Ben) Fry 提倡一个把许多分散领域专业知识的技能和人才汇集在一起的全新领域… (包含计算机科学,数学,统计学,数据挖掘,图形设计,数据可视化和人机交互)。在 Flowing Data 网站强调可视化的两年之后,领域间的合作看起来变得更常见,但更重要的是,计算信息设计逐步逼近现实。我们看到数据科学家——能完成全部这些工作的人——从人群中脱颖而出。」

2009 年 6 月,Troy Sadkowsky 在 LinkedIn 上创建了数据科学群组(data scientists group),跟他的网站 datasceintists.com 配套(之后变成data scientists.net)。

2010 年 2 月,KennethCukier 为《经济学人》写了特别报道《数据,到处都是数据》( Data, Data Everywhere ):「…一种新的职业出现了,数据科学家,他们结合了软件程序员、统计学家和讲述者/艺术家的技能,从数据的群山中挖掘金块。」

2010 年 6 月,Mike Loukides 在《数据科学是什么?》( What is Data Science )中写道:「数据科学家把创业实践、增量建立数据产品的意愿、探索的能力、迭代获取解决的能力相结合。他们本质是跨学科的。他们可以触碰同一个问题的所有方面,从最初的数据收集和调整到做出结论。他们能超出常规思考,提出解决问题的新方式,或者处理很宽泛的问题:这里有很多数据,你能由此做点什么吗?」

2010 年 9 月,Hilary Mason 和 Chris Wiggins 在《数据科学的一种分类法》( A Taxonomy of Data Science )中写道:「…我们认为提出一种分类法是有用的…有关数据科学家都做些什么,以粗略的时间顺序排列:获得,清洗,探索,建模,解读…数据科学很明显是黑客艺术、统计学、机器学习,以及数学知识加上要用数据分析解读的领域知识的一种混合…这需要在一个科学环境中的创造性决策和开明的思想。」

数据科学极简史(二)
来源:Drew Conway

2010 年 9 月,Drew Conway 在《数据科学文恩图》( The Data Science Venn Diagram )写道:「…如果有人想成为一个完全称职的数据科学家,那需要学习很多东西。可惜的是,单纯例举文本和教材并无法缓解这种纠结。所以,出于简化讨论的考虑,以及把我个人的想法添加进这个已经很拥挤的思想集合中的考虑,我把数据科学文恩图呈现给大家…黑客技能,数学与统计知识和专业知识。」

2011 年 5 月,Pete Warden 在《为何‘数据科学’一词有瑕疵却也有用》( Why the term ‘data science’ is flawed but useful )里写道 : 「什么属于,什么不属于数据科学,并没有被广泛认同的边界。它只是对统计学进行一种时髦的再包装吗?我不这么认为,但我也没有对它详尽的定义。我相信近期出现的数据充裕为世界点亮了什么新的东西,而当我环视四周我看到的是拥有共同特征,却难以被归入传统类别的人们。这些人倾向于超越那些统治着企业和工业界的狭窄细分,掌控从寻找数据、大规模处理、可视化、将其写成故事的每个环节。他们的工作看似是始于审视数据能告诉他们什么,然后从中挑出有趣的线索进行深入,而不是像传统的科学家那样先选择问题,然后寻找数据来探讨问题。」

2011 年 5 月,David Smith 在《数据科学:这名字包含什么?》( Data Science : What’s in a name )写道:「数据科学和数据科学家这两个术语被广泛使用了一年多,但从那时起它们就真的大获成功:许多公司现在在招聘‘数据科学家’,会议都被冠以‘数据科学’的名字。但尽管存在这种广泛接受,有些人还是拒绝改掉‘统计学家’或‘量化’,‘数据分析师’这些相对传统的术语…我认为‘数据科学’这个词最能描述我们实际做的事:一种计算机黑客、数据分析、问题解决的组合。」

2011 年 6 月,Mat thew J. Graham 在「天文大型数据库中天文统计和数据挖掘研讨会」谈到「数据科学的艺术」。他说:「为了在 21 世纪新型数据密集环境中获得成功,我们需要开发新的技能…我们需要理解(数据)遵从什么规律,如何被符号化和传播,以及它们与物理时空的关系。」

数据科学极简史(二)

2011 年 9 月,Harlan Harris 在《数据科学,摩尔定律和点球成金》( Data Science, Moore’s Law, and Moneyball )中写道:「‘数据科学’被定义为‘数据科学家’所做的事情。数据科学家所做的事情覆盖很广,从数据收集融合,到对统计与机器学习和其他技能的应用,到解读传达和结果的可视化。‘数据科学家到底是什么人’可能是更根本的问题…我比较喜欢这样一种想法,即数据科学是由其执行者所定义的,它是一个职业路径而不是一类活动。在我与人们交流的过程中了解到,自认为数据科学家的人们通常有多元的职业路径,表面上看这有些说不通。」

2011 年 9 月,D.J.Patil 在《建立数据科学团队》( Building Data Science Teams )中写道:「起初在 2008 年,我和 Jeff Hammerbacher (@hackingdata) 坐在一起分享我们在 Facebook 和 LinkedIn 建立数据与分析团队的经历。在许多意义上,那次会面是数据科学作为一个独特专业领域的开始…我们意识到随着我们所在机构的成长,我们都要琢磨如何称呼团队的成员。‘商业分析师’听起来太局限。‘数据分析师’是另一个备选,但我们担心这个头衔会限制成员的能力范围。毕竟,我们团队的很多成员有深厚的工程师背景。‘研究科学家’在 Sun、HP、 Xerox、 Yahoo、IBM 这样的大公司听起来是个合理的头衔。不过我们感觉研究科学家大多专注于未来抽象的项目,实验室里的工作也与产品开发团队隔绝。如果实验室的工作最终能影响核心产品,也需要花费几年时间。与之不同的是,我们的团队致力于数据的应用,能够立即对业务产生大规模的影响。‘数据科学家’看起来是最合适的头衔:同时使用数据与科学创造新东西的人。」

2012 年 9 月,Tom Davenport 和 D.J. Patil 在《哈佛商业评论》发表了《数据科学家:21世纪最性感的职业》( Data Scientist: The Sexiest Job of the 21st Century )。

作者:Gil Press 翻译:王鹏宇

原文链接:http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/#69301c6b69fd

本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/9784.html 。

(0)
上一篇 2016-03-10 12:00
下一篇 2016-03-11 01:47

相关文章

关注我们
关注我们
分享本页
返回顶部