品觉：数据科学家要当心数据迁就偏差

品觉导读：

基本上，数据迁就就是在并不反映真实世界的数据中寻找模式。数据科学家可能对它有另一种说法，比如过度拟合曲线或者噪音信号混淆。如此简单的定义，让数据迁就听上去很容易避免。然而，由于人脑的工作原理，以及人脑在看似截然不同的数据和事件中寻找联系的方式所致，数据迁就是最难消除的偏差之一。
“只要分析的时间够久、尝试的次数够多和想象力足够丰富，就能从任何数据集中梳理出几乎任何模式。有些情况下，这类伪模式属于统计学上的小概率事件，单独来看几乎不可见。但由于金融计算上的微小影响常常导致投资表现上的巨大差异，因此数据迁就偏差可能产生格外惊人的影响。”
“大数据的一个重要问题，不是我们有没有足够的数据，而是要辨别出哪些有预测性，哪些没有。”沙利文说，“我之所以出名，部分原因就是我和同事率先运用了统计方法来辨别预测因子和预测模型的真伪。有些因子和模型看起来有预测性，但实际上缺乏依据。”

原文翻译：

辨别预测真假是数据科学家面临的一大挑战。当无法创建缜密的因果模型时，数据科学家常常使用基于相关性的二级模型来精确预测结果。但在使用这些模型时，必须小心谨慎，以免沦为数据迁就偏差(data snooping bias)的受害者。

基本上，数据迁就就是在并不反映真实世界的数据中寻找模式。数据科学家可能对它有另一种说法，比如过度拟合曲线或者噪音信号混淆。如此简单的定义，让数据迁就听上去很容易避免。然而，由于人脑的工作原理，以及人脑在看似截然不同的数据和事件中寻找联系的方式所致，数据迁就是最难消除的偏差之一。

相对于在挖掘数据之前试图证明或反驳某个假设，在进行自由的探索性数据分析时，数据科学家反而尤其容易受到数据迁就偏差的影响。通常来说，避免数据迁就偏差的最好办法是在实验开始之前就实施严格的控制。实验开始后追求自己感兴趣的结果，正是落入数据迁就圈套。

多年来，对应用统计界而言，数据迁就一直是最难纠正的偏差之一。麻省理工学院教授罗闻全说，在金融领域工作的数据科学家和统计学家，比从事其他行业的人更容易受到数据迁就的影响。

1994年，罗闻全在他的论文《金融分析的数据迁就偏差》中写到：

“只要分析的时间够久、尝试的次数够多和想象力足够丰富，就能从任何数据集中梳理出几乎任何模式。有些情况下，这类伪模式属于统计学上的小概率事件，单独来看几乎不可见。但由于金融计算上的微小影响常常导致投资表现上的巨大差异，因此数据迁就偏差可能产生格外惊人的影响。”

在我们目前所处的大数据时代，数据科学家和分析师在创建各种模型，来解释和预测我们周围的世界，可以肯定地说，数据迁就偏差是个大问题，一直都是。

与数据迁就偏差作斗争

数据分析公司Intensity的创始人兼首席执行官瑞安·沙利文(Ryan Sullivan)是消除数据迁就偏差的领军人物之一。上世纪90年代，沙利文和他的加州大学圣迭戈分校教授阿伦·蒂默曼(Allan Timmermann)公布了一些消除数据迁就偏差新方法的详情，这些方法可以有效地把具有牢固统计基础的模型和根基不稳的模型区分开来。

“大数据的一个重要问题，不是我们有没有足够的数据，而是要辨别出哪些有预测性，哪些没有。”沙利文说，“我之所以出名，部分原因就是我和同事率先运用了统计方法来辨别预测因子和预测模型的真伪。有些因子和模型看起来有预测性，但实际上缺乏依据。”

有个很有名的例子，一位经济学家在寻找可靠的标普500指数预测因子。“他认定，最好的预测因子是孟加拉国的黄油产量。”沙利文说，“他得出这个可笑的结论是为了说明，只要你卖力寻找，总会发现某个看起来有预测性但实际上毫不相关的因子。显然，孟加拉国的黄油产量无法帮助我们预测标普500指数的走向。”

罗闻全在他的那篇论文中举了另一个能够很好地说明数据迁就的例子，其中涉及到了质数背后的数学原理。有一类数字，能够表现出一些与质数完全相同的特性，被称为“卡迈克尔数”。而从数据来看，显然，从1到10,000只存在7个卡迈克尔数，而只要你购买过识别码中包含这些卡迈克尔数的股票，就一定获得了异常丰厚的回报。

因果模型，超自然联系

为什么会如此这当然没有什么现实依据，纯粹是运气使然。但这不会阻止那些不择手段的销售人员利用人们对超自然力量和玄学联系的迷信。人类总是非常渴望掌握内情，古往今来的很多谎言就是利用这种心理让人们上当受骗。

数据迁就也能影响那些意图磊落的分析师和数据科学家，只是他们的分析方法可能少了应有的缜密。沙利文提出了这些防范数据迁就的技巧，以便清除伪模型，让真正的预测模型能够发光发亮。

“在处理大数据时，我们有大量的数据有待评估，而且可以把它们输入各种各样的模型。”沙利文说，“但我们需要通过某种方法来纠正我们在寻找预测因子时自然而然出现的偏差，让我们能够确定它到底是不是真正的预测因子。”

经济学家和其他专业分析人士心目中的黄金标准，就是包含基本因素的因果模型。但沙利文说，在现代世界，因果模型很难建立。

“如果能够真正辨别因果因子并很好地衡量它们，那么因果模型可以带来非常稳定的表现。”他说，“但在此过程中有太多的‘如果’。这就是预测模型反而更高效、更有效的原因所在，因为确实可以存在一项预测因子，无需涉及任何因果关系，也能够可靠地预测结果。”

相比因果模型，使用预测模型还有其他好处，其中就包括预测模型会更加灵活，让我们能够创建各种假设情境。他说，在严格的因果模型中很难做到这一点。

数据迁就涉及到有意识或无意识地偏好我们在数据中发现的某些变量和联系

“好的因果模型实际上很难建立，而且通常不太灵活。”沙利文说，“多亏我们有预测模型，我们才可以更好地评估未来的不确定性。我们能够以更加准确的方式，衡量和量化未来结果的可能范围。”

在有很多因素发挥作用的复杂世界里，优秀的预测模型有时能给出最佳答案，当然是要在排除了各种偏差后。

“问题在于，那些联系不是简单的相互关系，而可能涉及到多个维度。”沙利文说，“可能是多项因素的综合作用才产生了预测因子。这就是尖端技术和先进算法的用武之地，使我们可以发现那些在其他情况下发现不了的联系。”

沙利文的公司利用集成建模技术来确保模型变得越来越好。“我们不断地从我们模型的错误中汲取教训，因为我们的模型毕竟只是模型。它们是预测工具。”他说，“它们并不完美。所以，我们寻找错误，汲取教训，因而才能不断提高预测精度。”

在Intensity公司，沙利文及其团队(成员包括他以前的教授蒂默曼，他是全球经济建模领域的权威之一)建立了在他口中堪称世界上最强大、最准确的经济模型。预测模型采用了各种公开数据作为输入数据来源，包括工业产出、就业率、利率和GDP。这些模型会在微软和亚马逊的云端系统中不断更新。

沙利文说，有三个因素使这种建模框架成为可能：近乎无限的算力，大量的数据，经验丰富的分析团队。“这不容易，一点也不容易。”他说，“组建一支优秀的团队，并与数据的广度和强大的算力结合起来，使三者共同发挥作用，这十分具有挑战性。”

可预见的不可预测

模型必须不断重估的一个领域，会牵扯到一个最不可预测的领域——消费者购买行为。这个领域难就难在几乎没可能直接衡量消费者情绪。

预测模型可以用来理解那些很难直接衡量的现象，比如消费者情绪

“但我们能够衡量直接影响购买行为的因素。”沙利文说，“因此，我们可以不必衡量消费者本身，而是衡量那些会直接影响消费者行为，并进而影响和预示一间公司业绩的因素。”

建立这样的预测模型并不容易，所以数据科学家的薪水如此之高，而且大数据分析领域内总是充斥着各种各样的失败案例。

试图为一个“可预见的不可预测”过程赋予过多的科学确定性，会把你搞到抓狂，比如说消费者购买决定。这时，你可能就需要聘请Calabrio公司高级副总裁马特·松井(Matt Matsui)最近所说的“数据语者”了。

“人们热衷于数学、算法、模型和数据，但实际上所有这些东西只是预测和理解人类行为的间接工具。”松井说，“人们经常忘记这一点。所有那些数据其实是用来预测某种可预见的不可预测事物的。”

如果你想建立最好的预测模型，那么警惕和设法消除数据迁就偏差，绝对是个值得实践的目标。挑战在于，数据迁就涉及到我们如何发现不同数据之间的联系，而这说到底属于人类的一种基本欲望。

“做数据挖掘，就是在寻找联系。”他说，“不幸的是，你有时会落入数据迁就的陷阱，得到像孟加拉国黄油产量这样不靠谱的东西。问题在于有能力消除这些数据迁就，而先进技术可以在这方面发挥作用。对于许许多多处理大数据的人来说，这无疑是一个值得关注的方面。”

原文：Don’tBe a Big Data Snooper
来源：https://www.datanami.com/2016/08/23/dont-big-data-snooper/

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

品觉：数据科学家要当心数据迁就偏差

你可能也喜欢这些文章