傅一平：数据说谎的艺术

摘要：大数据时代，数据被称为新时期的石油，但与石油又不同，其价值的体现很大程度依赖于人的解释，虽然数据本身不会说谎，但这给数据说谎提供了操作空间，具备数据甄别能力对于你更真实的去理解数据大有好处。

对于大数据这么一个快速发展的新生事物，没有谁可以说是真正的权威，具备批判精神有利于理论和应用的百花齐放。

但你要戳穿它是不容易的，不如跟着笔者走一遭，看看你信了多少回？

Part 1|编造的谎言

这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后，研究人员突然发现：跟尿布一起搭配购买最多的商品，竟是啤酒！尿布和啤酒，听起来风马牛不相及，但这是对历史数据进行挖掘的结果，反映的是数据层面的规律。这种关系令人费解，但经过跟踪调查，研究人员发现，一些年轻的爸爸常到超市去购买婴儿尿布，有30％~40％的新爸爸，会顺便买点啤酒犒劳自己。随后，沃尔玛对啤酒和尿布进行了捆绑销售，不出意料，销售量双双增加。这个故事虽经典，但是让你意想不到的是：案例是编造的，这个经典的“啤酒和尿布” (Beer and Diapers)的案例，不仅是《大数据》类图书的常客，事实上，它更是无数次流连于“数据挖掘”之类的书籍中，特别是用来解释“关联规则（Association Rule）”的概念，更是“居家旅行，必备之良药（周星驰语）”。实际上，它是Teradata公司一位经理编出来的“故事”，目的是让数据分析看起来更有力，更有趣，而在历史上从没有发生过。

数据挖掘史上有很多著名的经典案例，但遗憾的是，历史有时候赋予太多的光圈和晕轮，但还原历史的真相，是每一个人的责任，不论那真相是什么，但这个并不影响数据挖掘带来的成就，历史车轮的推动，真相和谎言总是伴随。

Part 2|困惑的专家

“专家”曾经是一个让人竖然起敬的头衔，然而现在是一个专家充斥的年代，你打开电视，草草扫过几个频道，就能遇到形形式式的专家，大到国际民生、经济形势，小到股票涨落、养生保健的各个领域生产着形形式式的意见，各种时事评论类的新闻上，经常会引用专家的言论，“据专家预测……”,这些专家看起来对于预测很自信，但他们真得能够有效预测吗？伯克利大学的心理学家TetLock曾经做过一个长期跟踪研究。他选择了284位专家，让这些专家预测是否将要发生某些政治或经济事件，例如，南非会不会以非暴力方式结束种族隔离？，在约20年中，TetLock收集了这些专家的82361个预测，这些问题大多以三选一的方式出现，然而，专家预测和事态实际发展的对比结果出人预料，哪怕让三岁婴儿在红黄蓝三个球中随机挑一个都比这些专家的预测更好。当然，专家自己并不承认他们的预测能力不佳，当预测正确时，他们将之归功于自己的洞察和专业能力，如果错误，要么怪形式超出常规，要么消失或根本不承认自己错了。

很多看似专家主导的专业领域，专家表现也差强人意，Olivier等人曾经对金融分析师在1987至2004年的预测进行研究，在20年中，分析师对于每股盈利这个重要经济指标预测能力很差，甚至不如简单的把上一年每股盈利作为下一年预测效果好。从这个角度看，这些分析师什么也没做。

虽然这些例子有点久远，但法则并未失效，当你碰到满口数据分析预测的专家时，请以批判的精神去看这些专家和数据，在大量的领域，专家已经被用烂了，无法证伪的任何事实都值得怀疑。

Part 3|牵强的附会

谈影视大数据，怎么都绕不开《纸牌屋》。“Netflix通过分析3000万北美用户观看视频的行为数据，发现凯文·史派西、大卫·芬奇和‘英剧《纸牌屋》’’3个关键词的受众存在交集，由此预测将三种元素结合在一起的片子将会大火特火。”这段模凌两可的描述真的太诱人了，简直像要发起一场影视革命！但回到原点，美剧《纸牌屋》成功的原因，真的就是“1+1+1”这么简单吗？数据倘若真的这么NB，那为什么Netflix的第一部自制剧《莉莉海默》和《纸牌屋》之后的自制剧《铁杉树丛》并没有复制辉煌呢？这不禁令人生疑：如果大数据应用如此可行，Netflix为何情有独钟《纸牌屋》。

真相被淹没在有关《纸牌屋》和大数据关系的海量报道中。早在去年7月，美剧《纸牌屋》改编方、美国独立制片公司MRC的联合CEO莫迪·维克茨克（Modi Wiczyk）就公开表示，此剧的诞生源自公司一名实习生的推荐。你没看错，是至今姓甚名谁都不知道的实习生，和大数据没有半毛钱关系。事实上，《纸牌屋》的诞生，决定性因素不是“大数据”，而是影视圈里永恒的关键词——“资金”和“人脉”，这其中，数据最多只是一个指南针，甚至只是一个手电筒。可以说，《纸牌屋》的成功宣传了大数据，而不是大数据造就了《纸牌屋》，大数据只是Netflix在宣传《纸牌屋》的过程中使用的噱头。

现在，就看Netflix真正用大数据算出的下一部自制剧是否会大红大紫了。亦或仅仅是个牵强的附会。

Part 4|失效的法则

谷歌在2008年推出的流感趋势系统监测全美的网络搜索，寻找与流感相关的词语，比如“咳嗽”和“发烧”等。它利用这些搜索来提前9个星期预测可能与流感相关的就医量，这个案例被当成大数据应用的一个经典案例。

但是，没有人关注这个事情的然后，真相是这样的，在过去3年，该系统一直高估与流感相关的就医量，在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节，它预测的就医量是美国疾控中心（CDC）最终记录结果的两倍；在2011/2012流感季节，它高估了逾50%，原因可能是媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数，进而影响Google的预测。

很多案例刚开始看起来很惊艳，但看久了，不仅仅会审美疲劳，美人自己也会迟暮，总要变化的看数据，未来大数据的例子也需要与时俱进。

Part 5|有偏的样本

在1936年美国总统选举前，一份颇有名气的杂志（Literary Digest)的工作人员做了一次民意测验。调查兰顿（A.Landon)(当时任堪萨斯州州长）和罗斯福(F.D.Roosevelt)(当时总统）中谁将当选下一届总统，为了了解公众意向，调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表（注意在1936年电话和汽车只有少数富人拥有）。通过分析收回的调查表，显示兰顿非常受欢迎，于是此杂志预测兰顿将在选举中获胜。实际选举结果正好相反，最后罗斯福选举获胜。

为什么会产生这种预测失误呢？原因在于《文摘》所选的样本限定在了拥有电话薄和车辆登记簿的一群人身上，但是在那个年代，有能力购买电话和订阅杂志的人并不能真正代表选民．至少在经济上，他们是极特殊的，是有偏差的，你们是要负责任的。又比如今年春节爆料的男人比女人更孝顺的言语，都是有偏样本的典型。

几年前，一个叫做可尼斯博士(Dr．Cornish)的牙粉上市了，并宣传“在治疗臼齿方面获得了极大的成功”，因为该牙粉中含有尿素，而经过实验室的证明，尿素对于治疗臼齿有极大功效。然而，值得一提的是，实验室的结论完全先入为主而且仅仅建立在6个案例之上，没有披露的数据其实很可能是经过人为操纵的数据，当数据的样本量越小最终的结果就越多变，然后在众多的结果中选择有利于自己的一种，就可以诱导公众进行我们所期待的行动。

统计抽样，总要随机化和足够的数量，这是基本的原则，任何发布数据的单位，总要披露统计的方式，我们有权利知道，否则，就值得怀疑。

Part 6|欺人的算法

最有欺骗性的的例子莫过于统计学中著名的辛普森悖论，看看来自斯坦福讲义里的一个简单例子（http://plato.stanford.edu/entries/paradox-simpson/#Causation）。某大学历史系和地理系招生，共有13男13女报名。

Men WomenHistory 1/5 < 2/8

Geography 6/8 < 4/5

University 7/13 > 6/13

历史系5男报名录取1男，8女报名录取2女。地理系8男报名录取6男，5女报名录取4女。分析数据，会发现以下问题：

（1）整个学校统计，男生录取率（7/13）高于女生录取率（6/13）

（2）但是，按系统计，每个系的女生的录取率却都高于男生录取率。历史系女生的录取率（2/8）大于男生录取率（1/5）。地理系女生录取率（4/5）也高于男生录取率（6/8）。

你有没看出来问题？

英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示，只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强烈社会反响。真的是这样吗？原来，这个 “1%” 的分母不是“有资格休假的父亲”，而是“所有男性”。有人指出，如果这么算，即使当年所有新生父亲都选择休假，调查得到的数字也只不过是 5%。很多时候，让一个数据变大变小很简单，分母上口径上动点手脚，什么目标都实现了。数字不会说谎，但说谎的人会想出办法。

Part 7|画图的伎俩

在显示趋势时，直线图形非常有用。而对于趋势，人们总是津津乐道于发现它、分析它，甚至预测它。下面，我们将用图形来显示国民收入怎样在一年内实现了10％的增长。

首先，在纸上用相互垂直的直线画出许多小方格。然后，在横轴的底部注明月份，在纵轴旁由下往上地标上数字“0，2，4……”并注明数字的单位“十亿美元”。在图中点出每个月的国民收入，再用直线将这些点连接起来，你将获得类似下面的图形。这个图清楚地显示了一年来的变化，而且变化是逐月反映出来的。然而，画图者很快就会发现，由于图形的纵轴从“0”开始，并且整个图形都是按照比例绘制的，虽然直线的确上升了10％～一个了不起的上涨趋势，但视觉效果却并不振奋人心。

既然已经开始行骗，那么就别急着金盆洗手。你还有比之更好的方法，它能将朴实的10％变得比100％的增长率更令人欢欣鼓舞。只需要稍微改变横轴与纵轴刻度的比例关系，将纵轴的每一个刻度缩减为原来的l／10即可。没有人规定不能这样做，而这会产生一条更完美的折线——绝对的视觉冲击。

令人震惊!不是吗任何看到这幅图的人都会强烈地感觉到在国家的各条经济命脉上正快速地积累大量的财富。这相当于将“国民收入增长了10个百分点”改写成“国民收人惊人地攀升了10个百分点”。显然，图形比文字更有效，因为它不存在任何形容词和副词来破坏图形的客观性所形成的幻觉，而且谁也无法指责你。

又假设数据的波动性很大，比如说如下10, 1, 20, 3, 30, 4, 50，看起来应该是：

完了，公司的财务状况这么不稳定！！！怎么办！没关系——如果我只抽取奇数项的话（挑取x轴，虽然挑得好像是很有系统地——奇数，但是你总能想到一个看着挑得系统的方法），就会看着像：

明年又可以上市了。。。。。有时候我们需要通过一些好看的图形对外证明业绩，但别忘了，好看仅仅是好看。

Part 8|相关的误解

科学家从几万人胳膊长度和治理测试的统计数据中，发现人的智力水平个胳膊长度是正相关的：胳膊长的人，智力一般也较高。

很多事物表现出相关性，之间却不存在因果关系，两个事情的关联关系并不能说明其中一个变化能引起另一个的变化。关联却无因果很可能是他们同受第三方因素的影响，上述数据的统计范围从不足1岁的孩子到完全成长的成年人，在人成长中，体型会逐渐变大，智力会发展，实际上，两者都是随着年龄变量进行变化，从而变现出相关性。

一张图来说明：

Part 9|无意的精确

同许多受教育的孩子一样，小王和小红接受了智力测试，小王的智商是101，小红只有98。当然你很清楚：智商的平均数是100，即100意味着“正常”。哈．小王是比较聪明的孩子，而且他的智商高于平均水平，小红则低于平均水平。对此我们先不详细评论。任何类似的结论纯粹都是胡说。与其他抽样的结果一样，代表智力水平的数据也具有统计误差，这个误差将用来衡量该数据的准确度和可信度。然而人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视：只有当差别有意义时才能称之为差别。

当前差1-2分落榜的现象比比皆是，的确是统计学的悲哀。

Part 10|逻辑的悖论

如果我告诉你，当你每天“以每小时70英里的速度疾驶在高速公路上”，如果时间是早上7点，那么你生还的机会将是晚上7点的4倍。证据是，“晚上7点发生的灾难是早上7点的4倍”。但根据这样的证据是否能得到上述的结论晚上的车祸比早上多，仅仅因为晚上有更多的车和人在高速公路上。单独一个驾驶员在晚上也许会比较危险，但上述的数据却不足以证明这一点。

以同样荒谬的逻辑继续推理下去的话，你还可以证明天气晴朗时驾车比有雾时更危险。因为晴天比雾天多，所以天气晴朗时会有更多的交通意外。但只要运用常识，你我都能知道雾会使驾车变得危险。

再举个例子，美国与西班牙战争爆发后，不少美国人不愿意参军，坦诚因为怕死，针对这种情况，美国军方做了一份统计报告来奉劝大家参军：“据可靠数据统计，美国海军的死亡率是0.9%，而同时期纽约市民的死亡率是1.6%”，潜台词是如果惧怕死亡更应该参军，因为军营比纽约的家中还安全，你能找到这个悖论的原因吗？

再看看“外地人都挺有本事的，看看来这里的个个都很有能耐”，“别人家的孩子都考上了重点中学”，“省级医院的这个科室的病人死亡率甚至比小县城的还高”这些言语，你真得觉得不合理吗？

统计学是一门严谨的逻辑学问，锻炼自己的思考能力总能帮你更容易认识本质。

Part 11|个体的悲哀

有一个数学教授平生最怕坐飞机，他研究了近20年的统计数据，发现恐怖分子带炸弹上飞机的几率其实非常低，但是他还不安心，他又进一步研究数据发现，两个人同时带炸弹上飞机的几率几乎为零，于是从此他坐飞机都自己携带一枚炸弹。

有时候我们会拿着一些统计数据来预测一些事情，比如你很想知道自己的孩子将来会长多高，你找到统计局得到孩子每个年龄段的平均身高数据，你为自己的孩子当前未达标的身高苦恼不已，但你要知道，统计数据针对的是群体，对于个体它失去了效用，如果要预测个体，看看你自己长多高比统计数据靠谱的多。

有时候，我们混淆了统计和个体的差别，被平均是太正常的事情，因此，大多数时候，股市涨，专家看涨，你还总是亏钱，这是太正常的事情，你自己却无法理解。

11种数据说谎的艺术，总是时不时的出现在我们的周围，无论你多么小心，总会时不时的被欺负一下，用以下颇有讽刺意味的科学家故事结束。

“阿基米德的浴缸、牛顿的苹果、瓦特的茶壶、爱因斯坦的小板凳……科学史上流传着太多我们耳熟能详的故事，它们带着强烈的传奇色彩，在孩提时代曾那样打动我们的心灵，唤起对于天才的崇敬和对于科学的无限向往，然而时至今日，我们再度回头审视这些传说，却发现许多时候，它们的象征意义过于浓厚，从而不可避免掩盖了历史的本来面目，令人吃惊的是，大家从小所熟悉的那些科学家故事，若是仔细推敲起来，几乎没有多少是站得住脚的，传奇最终变成了神话，而我们也终究长大”。

大数据，一门揭露真相的艺术，不要重蹈覆辙吧。

本文为特邀专栏文章，来自：与数据同行，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/17965.html 。