数据会说谎？从大选预测说开去

昨天被美国大选刷屏了，咱们像看春晚一样关注着别人家的大选，也是怪有意思的。我们数据人的朋友圈看到的都是这样的：《大数据与美国总统》，《2016美国大选，来自人工智能和大数据的预测》，《美国大选倒计时：R语言和蒙特卡洛算法预测希拉里赢面高达89%》…预测上大部分都是说希拉里胜面高。可实际结果却是相反的，就连两次成功预测大选结果的538网站的Nate Silver预测大神这次也失算了。那么大数据到底是如何预测的？到底是什么原因导致不准确？

首先我们说说大数据能干啥。纽约时报对美国大选结果的可视化分析：大数据时代的第一次美国大选，地理学和可视化像透镜一样，可以让我们更加清楚地认识数据。图二：希拉里赢了纽约、洛杉矶、芝加哥、湾区、波士顿、西雅图、费城和华盛顿等几乎美国所有的大城市，但是却输了中小城市。每个鼠标点上去就会有详细数据呈现，看上去非常“美好”，这就是大数据的魅力。

同时，纽约时报还做了对大选的竞选预测：
做预测的当然也不止纽约时报一家，我们从网上搜了一些预测来看看方法。

The Yhat Blog：

在这篇文章中，作者以R语言来实现。预测数据来源：1，选举团（electoral college）；2，近期投票数据。作者选用了一个GitHub上的CSV文件作为选举团数据源。

投票数据选择的是 electionprojection.com，并抓取了每个州的数据，形成表单。

有些州比其他州投票更加频繁。像阿拉巴马州（3 次）这种投票积累对 Trump 有利，但影响非常小。相比之下，竞争激烈的佛罗里达州（27 次）或宾夕法尼亚州（21 次），会对我们的预测造成巨大的影响。

接下来关键的一点是为每次投票设置权重。我们给每次投票都分配一直指数衰减权重（exponentially decaying weights）。

第三步开始模拟选举。使用的是最简单的蒙特卡洛模拟生成合成的竞选数据。将找到的投票数据结果随机化，生成“what if”结果。

首先按州来拆分数据。这是重要的，因为美国的选举不是由每个公民投票决定的，而是由每个州的结果决定的。我们对每个州的投票加上权重，然后对每个州的候选人的总加权投票进行求和。最后将对每个候选人投票使用随机变量以创建蒙特卡洛模拟。使用一个平均值为 1、方差为 0.15 的正态分布来改变每个候选人的投票总数。

最后，将上述步骤重复1000次。

我们看看结果：

希拉里赢：89%
希拉里大获全胜（高出对方 400 票及以上）：0.11%

特朗普大获全胜：0%

还有个ASA’s Prediction Competition的，数据取自538网站，也是得出结果是希拉里胜，并给出了简单的代码。网址：https://www.r-statistics.com/2016/08/presidential-election-predictions-2016/

GitHub上还有开源出来的蒙特卡洛预测大选代码，有兴趣的也可以看一看：

https://github.com/GaryBoone/PresidentialMonteCarlo

要说大选预测，那么“数据大神”Nate Silver就不得不拿出来说一说。Nate Silver早年是搞统计的，对数据非常有兴趣，在审计公司毕马威当了四年顾问，后来开始靠数据分析创业。他对美国职业棒球大联盟的球员进行数据分析，预测棒球赛的结果非常成功。2007年Silver建立了“538”网站（http://fivethirtyeight.com）。2008年大选，Silver预测对了50个州选举结果中的49个。2012年，预测奥巴马胜出概率高达9成，和一般专家说的奥巴马与罗姆尼五五开的预测很大差异，最后结果出来全部50个州都预测对了。

538网站的数据来源自民调数据，但是由于各种民调的机构背景、立场倾向、覆盖人群、举办时间都有差异。所以Silver会根据拟投票选民、会后弹升、忽略第三党候选人、趋势走向、党派倾向五个因素对数据进行调整。据Business Insider报道，Nate Silver将概率学中的贝叶斯决策理论(Bayesian Theorem)应用到大选预测中，用数学方法对未知事件进行概率分析。最后一步就是对所有不准确性作出解释，并对最终大选反复模拟测试，调整误差。随着大选日接近，不准确性会愈发降低。538给出了希拉里与川普各自的胜选可能性以及在几个月内的变化趋势：

但最终他失算了，估计内心也是各种崩溃和自我安慰，但是还嘴硬说自己不吃惊：

大多数人将此结果归于民调数据不准确。538预测的根据在于各项传统民调。而各技术宅玩的预测数据来源很多也是基于538的数据，所以大家统一都得出了希拉里会获胜的结果。像洛杉矶时报与南加州大学合作做出的民调得出的结果是完全相反的，他预测的是川普胜出。已经有不少解读民调的资料，包含样本取得，样本所提供的信息，误差界限等，咱们也不需要细细说了。

其实数据统计原理大家都明白，第一需关注数据源。数据报告出处以及数据来源，数据采集面向的对象，数据的时效性和相关性。第二是数据统计过程。虽然原始的数据相同，但是数据处理的过程不同。具体情况通常可分为四种：抽样方法、样本选取、离群值处理及统计指标设置。抽样方法，样本选取等都与结果紧密相关。

数据不会说谎，但是从数据源和数据处理过程就可能造成不一样的结果。据说有网友查看了《纽约时报》网站竞选预测指针的源代码，发现其指针变化并非来自实时数据，而是随机摇摆。

另外大选民调的抽样点不够均匀分布，支持川普者表示沉默或者说假话，导致了数据一边倒。就像只去华尔街、硅谷来统计人均收入，必然浮夸；去贫民窟统计收入必然悲惨。

数据如同金矿，需要人使用工具来开采、提炼、加工，当对这些数字进行解读，从获取到分析，这个过程就可能出现问题，即使每个步骤看起来都合乎逻辑。

阿桑奇的采访，The Secret World of US Election中，阿桑奇说美国的政治高层以及背后的银行、财团、跨国企业、媒体等等，早已组成了一个庞大的利益圈层，实际上都在协力将希拉里推上总统宝座。我们每个人都会有自己的偏见，对别人的解释倾向于怀疑。因为数据是最客观的东西，于是用数据说明就变成了最好的说服别人的方法。所以有时候我们分析数据的目的，可能还不是为了解释现象获取信息，其实仅仅是为了说服别人或者说服自己。

毕竟别人家的选举，我们也就看看热闹，了解下预测方法就好了，顺便告诉下自己的Boss，看，咱们数据分析师多么重要，你想要什么结果咱们都能给你！当然这也是玩笑话，大数据的价值在于真实可信，这是我们数据人的原则所在。

以上资料来源于网络，纯属小编一家之言，班门弄斧，欢迎大家拍砖。

本文为专栏文章，来自：AI前线，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/38275.html 。