关于数据科学历史的新手指南

最近十年内，大数据和数据科学可能是一些较火的流行词，但它们并非新提出来的概念。数据科学的想法可以跨越很多不同的领域，并且在过去超过50年的时间里，已经慢慢地成为主流。事实上，许多人认为去年是数据科学正式提出来的50周年纪念。尽管很多数据科学的支持者已经拿起大数据作为武器，并且提出新的主张和挑战，但是关于数据科学你还需要了解一些名字和日期。

1962年，John Tukey写了“The Future of Data Analysis”这篇文章。这篇文章在统计研究的重要期刊The Annals of Mathematical Statistics上发表，在这篇文章中，他提出了统计与分析的关系问题。其中的一段话从此引起了现代数据爱好者的共鸣：

“很长一段时间，我曾经这么认为的，我是一名统计学家，对个体到整体的推导感兴趣。但是随着我看着数学统计的发展，我开始感到惊奇和疑问….我渐渐感觉到我中心兴趣应该是在数据分析方面，我倾向认为数据分析包括其他东西中：分析数据的程序，解释这些程序结果的方法，收集数据的计划方法以让分析更简单、明确和精确，以及所有的机器和应用到分析数据的统计结果”。

1974年．在Tukey之后，另一位数据狂热分子应该了解的重要人物是Peter Naur。他发表了“Concise Survey of Computer Methods”，在这篇文章中他研究了在各种各样应用程序中的数据处理方法。更重要的是，数据科学这个名词被他反复提及。Naur也给出了自己对这个概念的定义：“一旦它们建立起来，当数据和数据所代表的关系延展到其他领域和科学，那就是处理数据的科学。”当然这种想法变得流行需要一些时间，但是在他的文章之后，对数据科学的总体推进向前活动开始越来越频繁的出现。

1977年，统计计算国际协会建立。它们的使命就是连接传统统计方法学，现代计算机技术以及各领域专家的知识，以便将数据转化为信息和知识。在这一年，Tukey也发表了第二篇专业巨著：《Exploratory Data Analysis》。他认为应该把重心放到利用数据来提出假设来验证，而且探索性数据分析应该与验证性数据分析同时进行。在1989年，第一个数据库知识挖掘工场建立，这就是后来的有关知识发现和数据挖掘的年度ACM SIGKDD 大会。

1994年，现代化的数据市场的早期形式开始出现。其中一个例子来自商业周刊的封面故事“数据库市场”。这里，读者了解到很多公司正在收集各种不同的数据以开始新的销售行动。虽然公司还未弄清楚该拿那些数据怎么办，但是那句预言“许多公司相信他们别无选择，只能勇敢地去探索数据库营销前沿”标志一个新时代的开启。

1996年，数据科学这一术语第一次在日本的国际分类学会联合会上出现。主题是“数据科学，分类以及相关方法”。第二年，1997年，Jeff Wu发表一次名为“统计=数据分析？”的就职演讲。

早在1999年，我们就粗略地看见大数据是一个新兴领域。Jacob Zahavi，在“Mining Data for Nuggets of Knowledge”中就发表对这一行业的深刻见解，这些观点在随后的几年里就被证实，他说道：

“传统的统计学方法对于处理小规模数据集很管用，然而，今天的数据库规模能设计到几百万行，大量列数据….可伸缩性是数据挖掘中的一个大问题。另外一个技术上挑战是发展那些在分析数据，检测非线性关系和元素之间相互作用等方面更好的模型….可能必须得研发专门数据挖掘工具以解决网页决策等问题。”

这仅仅只是在1999年。2001年更多内容被提出来了，包括软件服务的第一次使用，基于云应用后面的基本概念。数据科学和大数据好像变得与发展中的技术一起完美的协调起来。William S. Cleveland是较重要的名字之一，他合编了Tukey的文集，发展了有价值的统计模型，并且发表了文章“Data Science: An Action Plan for Expanding the Technical Areas of the field of Statistics.”。 Cleveland提出一种想法：数据科学是一个独立的学科而确定了6个他认为数据科学家应该学习的领域：多领域调查，数据模型和方法，数据计算，教学工作，工具评估和理论。

2008年．数据科学家这一术语通常归功于Facebook的Hammerbacher和LinkedIn的DJ Patil-因为他们是经过仔细地选择才选定了这一术语。他们试图描述他们的团队和工作，于是就选定了“数据科学家”这一名称，从此一个流行词就诞生了（而且，Patil作为目前白宫科技政策办公室的首席数据科学家继续在这一领域做着贡献。）

2010年．数据科学家这一名词已经完全渗透我们的语言中。就在2011年到2012年之间，数据科学家的职位列表增长了15, 000%. 仅仅专注于数据科学和大数据的会议和聚会也有增多。数据科学的主题不仅仅因为这一点而出名了，而且已经变得高度发达和十分有用。

2013年是数据真正变大的一年。IBM分享的统计数据表明90%的世界数据仅仅在前两年已经建立起来了

2016年才刚刚开始，但是对于接下来一年的预言已经开始了。数据科学在机器学习领域已经根深蒂固，而且很多人预测今年会成为深度学习的年份。随着我们遇到巨大规模的数据，深度学习将会成为向新领域迈进的关键。这一趋势将会与开放数据和创造开放可供非专业人员参与数据科学革命的源数据齐头并进。

在过去的10年里，数据科学的想法激增，而且慢慢成为我们今天所认知的。分析师需要理解的重要一点是数据科学和大数据不是简单的增加数据而已，它意味着在学习和分析之间的转换。尽管在今天世界看来似乎完全普通，比如某些不可能从研究和学习中移除的东西，但是数据科学的本质和重要性并不总是很明确，而且它的确切本质将会继续随着技术的发展而变化。