1. 数据分析网首页
  2. 大数据
  3. 数据分析

关于“数据会说谎”的几个例子

究竟是数据在说谎,还是逻辑在说谎?让我们一起来看看以下几个案例。

究竟是数据在说谎,还是逻辑在说谎?让我们一起来看看以下几个案例。

一、内在有偏的样本

在高中课本中我们就曾经接触过这种例子:

在1936年美国总统选举前,一份颇有名气的杂志(Literary Digest)的工作人员做了一次民意测验。调查兰顿(A.Landon)(当时任堪萨斯州州长)和罗斯福(F.D.Roosevelt)(当时总统)中谁将当选下一届总统,为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(注意在1936年电话和汽车只有少数富人拥有)。通过分析收回的调查表,显示兰顿非常受欢迎,于是此杂志预测兰顿将在选举中获胜。

实际选举结果正好相反,最后罗斯福选举获胜,其数据如下:

候选人 预测结果% 选举结果%

Roosevelt 43 62

Landon 57 38

为什么会产生这种预测失误呢?原因在于《文摘》所选的样本限定在了拥有电话薄和车辆登记簿的一群人身上,但是在那个年代,有能力购买电话和订阅杂志的人并不能真正代表选民.至少在经济上,他们是极特殊的,是有偏差的,你们是要负责任的。

关于“数据会说谎”的几个例子上图是《南华早报》上一个“你愿意回到英国管辖的香港吗”投票率超过百分之九十证明香港人大多愿意重回英占时期的香港。这种投票得出的结果如果被用在讨论香港人是否愿意重回英占时期的香港是会有偏差的,尽管香港仔或许真的是想要重回那个殖民时代。南华早报的这次投票很显然的采取的是内在有偏差的样本,它的受众群决定了这次投票的结果,如果把相同的投票放在亲中的《大公报》上,结果就可能截然相反。

二、精心挑选的平均数

假设你是某个制造企业的3个合伙人之一。这是一个收入颇丰的一年,到了年底你给本企业的90个职工——他们制造并且运输椅子(或者任何你所经营的东西)——共发了198000美元的工资,给自己与合伙人各发11000美元。最后,还有45000美元的利润可供3人平分。你将如何说明这种情况呢?为了便于理解,你打算采用平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,用均值还是中位数没有区别。说明如下: 职工的平均工资…2200美元所有者平均工资及利润……26000美元 看上去太不公平了,不是吗,来试试另一种形式:从利润中拿出30000美元以奖金的形式平分给3位合伙人,再将包括了所有者和职工的所有工资进行平均,的确又是平均数,结果却变成: 所有人员的平均工资或薪水…2806.45美元

20 所有者平均利润……5000美元 哈,看上去不错了吧。虽然还能进一步改善,但这已经有了长足的进步,全部资金中只有少于6%的部分形成了利润。你还可以继续如法炮制,但不管怎样,现在的结果已经足以作为公布的内容,张贴在公告栏中,或者作为与职工谈判的依据。 因为简化,这个例子是十分粗糙的。与以会计名义所做的手脚相比,它简直是小儿科。对于一个等级森严、职员的范围从打字员到领取儿十万美元薪金的总裁的复杂公司而言,所

有情况都可用类似的方法进行掩盖。 因此,当你看到一个平均收入时,首先问问:是什么的平均包括了什么美国钢铁公司(TheUnitedStatesSteelCorporation)曾经指出:从1940年到1948年间,该公司职工的平均周收入攀升了107%。确实如此,但是,当你注意到1940年包括更多的兼职职工时,奇妙的增长比率会大打折扣。如果你某年只工作了半年,而第二年全年工作,你的收入毫无疑问会翻番,但这与你工资率的变动无关。

三、没有披露的数据

关于“数据会说谎”的几个例子

用户反映使用多克斯(Doakes)牌牙膏将使蛀牙减少23%!
大字标题历历在目。你希望减少23%的痛苦,于是接着往下读。这些结论出自一家信誉良好的“独立”实验室,并且还经过了注册会计师的证明,有了这些,你还想知道什么呢
然而,如果你不是特别容易上当受骗且不盲目乐观,经验将告诉你:一种牙膏难得比其他牙膏好。那么,多克斯公司是怎样得到了如上的结论如果他们说谎,并用大字标题报道这些谎言,他们又如何能够逃避责任呢但事实是,根本无需说谎,下面便是更简单而有效的方法。
这里的主要把戏是不充分样本——统计角度的不充分,但对于多克斯公司而言已经足够充分了。被测试的用户,这些你只有在读小字的内容时才会发现,仅由12人组成。单凭这点,你便不得不佩服多克斯公司,因为它给你提供了一个冒险的机会。有的广告商索性将类似的文字略去,使得读者——即便他是一个老练的统计专家——一头雾水:这里面到底玩了什么把戏从这个角度来说,多克斯公司由12个人组成的样本还不算太坏。几年前,一个叫做可尼斯博士(Dr.Cornish)的牙粉上市了,并宣传“在治疗臼齿方面获得了极大的成功”,因为该牙粉中含有尿素,而经过实验室的证明,尿素对于治疗臼齿有极大功效。然而,值得一提的是,实验室的结论完全先入为主而且仅仅建立在6个案例之上
下面,再让我们回头看看,多克斯公司可以怎样轻易地获得一个不存在漏洞并经得起检验的标题。让一组人连续6个月计算蛀牙数,接着使用多克斯的产品。之后只会发生三种结果:蛀牙明显增多,蛀牙明显减少,蛀牙数量无显著变化。如果发生了第一和第三种结果,那么多克斯公司就可记录下这些数字(并很好地藏于某处),然后重新实验。由于机遇的作用,迟早有一组测试者的数据将证明蛀牙明显减少,并且这个结果足以好到作为标题并引发一场广告战。只不过不论实骑者使用的是多克斯牙膏还是做面包的苏打粉,或者继续使用原来的品牌,上述结果都会产生。

没有披露的数据其实很可能是经过人为操纵的数据,当数据的样本量越小最终的结果就越多变,然后在众多的结果中选择有利于自己的一种,就可以诱导公众进行我们所期待的行动。

关于“数据会说谎”的几个例子

在我面前是两盒葡萄坚果饼干盒的包装纸。正如说明书上注明的,它们是不同的版本。它们一个引用了双枪皮特(Pete)的赞语,而另一个写道:“如果你想和哈比(Hoppy)一样……你就得像哈比一样吃。”它们都提供了图表(“科学家证明是真实的!”)来说明这些薄饼“在2分钟之内开始提供能量!”一张图隐藏在文字海洋中,其纵轴标有数据,另一张图省略了这些数据。既然没有关于这些数据的说明,有没有它们都一样。两张图都有一条急剧攀升的红色曲线(代表“能量释放”),但一条曲线开始于吃葡萄坚果饼干一分钟后,而另一条则开始于两分钟后。一条曲线的攀升速度看上去是另一条的两倍。毫无疑问,连制图者都不清楚这两张图能说明什么问题.

当一个图表、数据或者是一段趋势遗漏了某项数据,那么你就有理由去怀疑这些数据的缺失可能使你对一件事物的判断产生偏差,而只有在你明晰了这些数据的存在与否所能产生的影响,你才能做出适当的决策。
四、毫无意义的工作

关于“数据会说谎”的几个例子

如果你不介意,本章一开始我们将赋予你两个孩子。如同许多受教育的孩子一样,彼德(Peter)和琳达(Linda)(我们顺便给他们起了很时髦的名字)接受了智力测试。目前任何形式的智力测试都有点原始伏都教育目崇拜的味道,因此你费了不少口舌来打听测试的结果。这个信息是保密的,一般只有心理学家和教育者才知道,或许这样是对的。但不管怎样,你还是通过某种方式探听到:琳达的智商是101,彼德只有98。当然你很清楚:智商的平均数是100,即100意味着“正常”。
哈.琳达是比较聪明的孩子,而且她的智商高于平均水平,彼德则低于平均水平。对此我们先不详细评论。
任何类似的结论纯粹都是胡说。
为了澄清事实,我们首先必须注意到,无论智力测验测试什么内容.它都与我们平常意义上的智商相去甚远。它忽略了类似领导才能、创造性想像力等十分重要的素质;它没有考虑到社交判断力以及音乐、艺术或其他方面的才能;它无法测试出诸如勤劳、情感平衡等重要的人格品质。再加上,大部分学校做的智力测试都是简单低廉的类型,它们极大程度地依赖于阅读能力、测验者反映的快慢等因素,阅读速度慢的人根本没有拿高分的希望。
假设我们对这些都有了重新认识并一致达成共识:智力测验仅仅测验了处理那些预先准备好的抽象问题的能力,而这些能力又很难确切地进行定义。假设彼德和琳达所做的是公认最好的智力测验——修订的斯坦福一比奈测验。这个测验是独立进行并且不需要特别的阅读能力。
智力测试只是智商水平的一个抽样。与其他抽样的结果一样,代表智力水平的数据也具有统计误差,这个误差将用来衡量该数据的准确度和可信度。
智力测验类似于你估计某块地玉米质量时所做的工作。你在地里四处走动,随意地到处摘取一些玉米穗,当剥开并研究了大约100颗玉米穗时,你就能对整块地的质量大致有数。当已知两块地的质量不同时,这些信息已经足够对它们的质量进行比较了。但如果接近,你还得摘取更多的玉米穗,并利用精确的质量标准来给它们划分等级。
人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视:只有当差别有意义时才能称之为差别。

还有一个案例:

“老黄金”(oldGold)香烟公司利用了一个毫无价值的结论赚了一笔。 故事起源于《文学文摘》某编辑的一个无辜想法。当他发现虽然自己抽烟却对这些香烟一无所知时,他的杂志开始行动起来,聘请一些实验室人员分析了不同品牌香烟的烟雾,并刊登了最终结果,列出每种品牌香烟的烟雾中所含尼古丁以及其他有害物质的含量。在详尽的数据支撑下,该杂志声明:所有品牌的香烟是一样的,当你吸烟时,品牌没有任何差异。 也许你会认为,对于香烟生产厂商和那些为香烟杜撰崭新广告词的家伙而言,这是一个有力的打击,它还将引爆关于某些品牌的香烟有助于平缓喉痛和对胸部有益的广告索赔案。 但有的人有了其他发现,在一长串具有相同危害物质的品牌名单上,总有一个排在最后,而那就是“老黄金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的字体刊登在报纸上,其标题和副本仅仅提到,由一家国家级杂志主持的实验证明“老黄金”香烟在不良物质,以及尼古丁含量方面“排名最后”!甚至连所有可以说明差异的数据和文字都被省略了。 最后,“老黄金”公司被通知“中止并停止”使用这个具有误导性的广告。但这并不要紧,它们早已获得了足够的好处。

‘五、惊人的统计图形
人们对于数字似乎有一种天生的畏惧。当汉普蒂·汤普蒂(HumptyDumpty)充满自信地告诉爱丽斯(Alice),他能熟练地驾驭文字时,恐怕没有多少人能将同样的自信延伸到对数字的掌握上。也许中小学的算术给我们的心灵造成了创伤。
不管什么原因,当作者渴望自己的书有人读。广告商希望自己的广告能促进商品的销售。出版商想向人们炫耀自己的书或杂志是畅销书籍时,数字便产生了真正的问题。当表格中的数字是禁用的,而文字又小能达到很好的效果时,人们就自然会想到另一种解决问题的办法——画图。
最简单的统计图形是直线类图形。在显示趋势时,直线图形非常有用。而对于趋势,人们总是津津乐道于发现它、分析它,甚至预测它。下面,我们将用图形来显示国民收入怎样在一年内实现了10%的增长。
首先,在纸上用相互垂直的直线画出许多小方格。然后,在横轴的底部注明月份,在纵轴旁由下往上地标上数字“0,2,4……”并注明数字的单位“十亿美元”。在图中点出每个月的国民收入,再用直线将这些点连接起来,你将获得类似下面的图形。
这个图清楚地显示了一年来的变化,而且变化是逐月反映出来的。然而,画图者很快就会发现,由于图形的纵轴从“0”开始,并且整个图形都是按照比例绘制的,虽然直线的确上升了10%~一个了不起的上涨趋势,但视觉效果却并不振奋人心。

关于“数据会说谎”的几个例子
如果体所要做的仅仅是传递信息,那么目的已经达到了。但假如你希望利用图形赢得一场争论、让读者大吃一惊、促使某项行动,或者向他人推销货物等,它就缺乏渲染的效果了。试试把图形的底部抹去,不是更好吗(如果某个爱挑剔的家伙反对这种有误导的变动,你可以理直气壮地指出,这样做节省纸张。)数据是相同的,图形也相同,除了它能给人留下印象外没有进行任何伪造。但一个粗心的读者现在所看到的,是一条在12个月内几乎快升至图表顶端的直线,这仅仅是因为图表的大部分都已被抹去。就像语法课上遇到的省略句,这种图形也能被“理解”。但是,眼睛却不能“理解”被抹去的部分,这才导致微小的上升最
终变成了惊人的增长。

关于“数据会说谎”的几个例子
既然已经开始行骗,那么就别急着金盆洗手。你还有比之更好的方法,它能将朴实的10%变得比100%的增长率更令人欢欣鼓舞。只需要稍微改变横轴与纵轴刻度的比例关系,将纵轴的每一个刻度缩减为原来的l/10即可。没有人规定不能这样做,而这会产生一条更完美的折线——绝对的视觉冲击。
令人震惊!不是吗任何看到这幅图的人都会强烈地感觉到在国家的各条经济命脉上正快速地积累大量的财富。这相当于将“国民收入增长了10个百分点”改写成“国民收人惊人地攀升了10个百分点”。显然,图形比文字更有效,因为它不存在任何形容词和副词来破坏图形的客观性所形成的幻觉,而且谁也无法指责你。

关于“数据会说谎”的几个例子五、平面图形
用一个小人来表示成千上万的人,一个钱袋或一堆硬币表示成千上万的钱,一片牛肉来表示明年牛肉的供应量,这些都是形象化的图形。由于十分吸引人,它可以作为一种有用的工具,但同时它也能摇身一变,成为一个老练、狡猾而且成功的骗子。
形象化图形的前身是普通的柱状图,在比较两种成两种以上事物时,柱状图是一种描绘数量的便捷常用的方法。但柱状图也具有欺骗性。在代表一种事物时,柱体的长度和宽度被随意地改动;在代表三维物体时,物体的体积又不容易进行比较,因此我们应该对这种图形保留一些怀疑。一个被截短的柱状图与我们曾讨论过的被截短的折线图实乃一丘之貉。柱状图通常出现在地理书籍、公司声明以及新闻杂志中,也是因为它的“迷人”特性。
如果我想对两个数据~例如美国与罗坦提亚(Rotunda)木匠的平均周工资——进行比较,假设它们分别为60美元和30美元。为了吸引你的注意,我不会满足于仅仅将数字打印出来,而是画了柱状图。(顺便提一句,如果60美元与去年你为了给游廊做一个新扶手而支付给木匠的大笔工钱不一致的话,请记住木匠并不是每周都有这么好的收入。而且,毕竟这里我也没有指明使用了哪种平均数,因此它不值得你去争论。瞧瞧,只要你省略了其他一些信息,那么伪装哪怕是最声名狼藉的统计资料又是多么容易呀!也许,你会怀疑我为了举例而编造了这个数据,但我敢肯定,如果这里用的是59.83美元,你就根本不会有这个念头。)

关于“数据会说谎”的几个例子
这就是柱状图,其纵轴表示木匠的平均周收入。这是张清楚且忠于事实的图。同收入1:2的比例关系一样,图中两根柱体的比例也是l:2。
但这张图并不形象,不是吗我可以用比柱体看上去更像钱的东西——钱袋来进行改善。1个钱袋表示罗坦提亚木匠可怜的收入,两个钱袋表示美国木匠的收入。
或者3个表示罗坦提业水匠的每周收入.而用6个表示美国木匠的每周收入。不管怎样,这样的图仍沿袭了真实可信的作风.它不会利用你匆忙的一瞥而欺骗你。这是一个老实人的作品。

关于“数据会说谎”的几个例子
如果仅仅为了交流,这么做已经足够了。但我还有另外的目的,我希望说明美国木匠比罗坦提亚木匠的境况好得多,30与60之间的差距越被夸大就对我越有利。换句话说(当然这并不是我真正的意图),我希望你能从中推断出什么,能留下一个夸张的印象,而我又不会因此惹上麻烦。下而介绍一种方法…这种方法几乎每天都被用来愚弄人。
我随手画一个钱袋表示罗坦提亚木匠的30美元,然后再画一个高两倍的钱袋来代表美国的60美元。还是1:2的比例,对吗但现在却达到了我所追求的直观感受——美国木匠的工资使罗坦提亚木匠相形见绌。

关于“数据会说谎”的几个例子
奥妙在于,既然第二个袋子比第一个高一倍,那么,应该同样宽一倍,占用纸张的面积就不是2倍而是4倍。数字全是2:1,但视觉效果——大多数情况下它起着决定性的作用,却是4:1。更糟的是,既然实际事物往往是三维的,那么,第二个袋子还应该比第一个袋子厚一倍,因为几何知识告诉我们,相似物体的长、宽、高保持相同的变化。于是,2乘2乘2等于8,如果一个钱袋里有30美元,另一个应该是它的8倍,即240美元。
这就是我的富有创造性图形的威力!在说“2倍”的同时,最终给人留下的印象却是令人震惊的8:l。
类似的例子还有很多,比如美国钢铁协会制作的钢产量对比图:

关于“数据会说谎”的几个例子七、不相匹配的资料
一篇刊登在《本周》(thisweek)杂志上探讨驾驶安全的文章毫无疑问将引起你的兴趣。文章告诉你,当你“以每小时70英里的速度疾驶在高速公路上”,如果时间是早上7点,那么你生还的机会将是晚上7点的4倍。证据是,“晚上7点发生的灾难是早上7点的4倍”。证据基本正确,但根据这样的证据是否能得到文中的结论晚上的车祸比早上多,仅仅因为晚上有更多的车和人在高速公路上。单独一个驾驶员在晚上也许会比较危险,但上述的数据却不足以证明这一点。

关于“数据会说谎”的几个例子
以同样荒谬的逻辑继续推理下去的话,你还可以证明天气晴朗时驾车比有雾时更危险。因为晴天比雾天多,所以天气晴朗时会有更多的交通意外。但只要运用常识,你我都能知道雾会使驾车变得危险。
八、相关性与因果性
一张图来说明:

关于“数据会说谎”的几个例子

当然当然,还有很多让我们很(shen)费(me)解(gui)的统计:
比如这个

关于“数据会说谎”的几个例子
再比如这个:

关于“数据会说谎”的几个例子

相关文章:统计陷阱_百度文库
一秒钟看穿统计陷阱

作者:范一帆
链接:https://www.zhihu.com/question/19578400/answer/22290995
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

联系我们

如有建议:>>给我留言

QR code