摘要:你可以欺骗所有人,但骗不了大数据。

人人都在说谎,怎样才知道谁骗了你?-数据分析网
本文来自微信公众号“远读重洋”(ID:readabroad),作者方贞硕。

在点开这篇推送文章之前,你估计刚刚刷完朋友圈:小甲又去国外出差了,小乙又去吃了一个网红下午茶,小丙又在秀恩爱。也许你正想翻个白眼,感叹为什么别人的生活都比自己的风生水起。

先别急,你有没有想过其实朋友圈充满了谎言?小甲也许刚刚被老板骂,小乙的下午茶可能其实很难吃,小丙也许刚和男朋友大吵一架。刚刚发了幸福的朋友圈的人,可能转身却在电脑上搜索“抑郁症该怎么办”。

在赛斯.斯蒂芬斯-戴维维茨(Seth Stephens-Davidowitz )五月出版的新书《人人说谎(Everybody Lies)》里, 就谈到了社交媒体数据的欺骗性:因为爱面子,人们往往会把生活粉饰的多姿多彩。

书中还提到,除了社交媒体,人们在很多场合,对于很多问题都会撒谎,尤其是对敏感问题。当被问到人们对于仇恨、堕胎、抑郁、性这些问题的真实想法时,我们得到的往往是谎言。

人人都在说谎,怎样才知道谁骗了你?-数据分析网

那么到底怎样才能了解人们的真实想法呢?传统的方法如问卷调查,费时费力,样本量小,又具有欺骗性,得到的结果很不可信。

但随着科技和大数据的发展,新的研究方法变成了可能。赛斯就找到了一个更真实可靠,样本量全面的新研究方法,即研究谷歌搜索数据。

不同于传统调查的局限性,当人们搜索各种信息或寻求帮助时,搜索数据能真实的告诉我们他们想要什么,喜欢什么,或是害怕什么。赛斯更是认为,搜索数据是有史以来最重要的研究人类心灵的数据。

赛斯本科毕业于斯坦福大学哲学系,毕业以后因为受到畅销书《魔鬼经济学》的影响,转修经济学,并取得了了哈佛大学的经济学博士学位。

他曾在谷歌担任数据分析师,专门研究如何用搜索数据解释实际问题;现在他是《纽约时报》的特邀专栏作家,并担任沃顿商学院的客座讲师。

这本《人人说谎》在五月份刚出版就上榜苹果“五月好书”榜,并在 Goodreads 上得到 4.12/5 的好评。

赛斯的这本书结合了纳特.西尔弗(Nate Silver)《信号与噪声(The Signal and the Noise)》的严谨分析,马尔科姆.格拉德威尔(Malcolm Gladwell)《异类(Outliers)》的故事性, 和史蒂芬.列维特(Steven Levitt)《魔鬼经济学(Freakonomics)》的幽默,绝对能让你在学到各种关于大数据的干货的同时,还能对生活中的很多问题有新的认识和思考。

书中从四个方面介绍了为什么大数据,尤其是搜索数据,能作为颠覆传统心理学和社会学研究的创新研究方法:

1. 数据的独特性

2. 数据的真实性

3. 数据的样本量大

4. 数据用于研究因果关系

1. 数据的独特性

大数据之所以强大,首先在于数据的独特性。在传统的心理学,社会学,甚至是经济学的研究中,最常见的数据往往都是数字,或者小范围的问卷调查和实验结果。

然而在信息时代下,生活中所有的一切都被记录下来,成为了可供研究的数据。

除了近十几年才出现的搜索数据,网络上的文字,图片,甚至生活中人们说的话,都可以作为数据进行研究。

作者曾研究卫星航拍图片,发现发展中国家夜晚的灯光数量和该国的 GDP 有正相关性。他还通过研究菲律宾街头人们拍摄的手机照片,帮助世界银行预测该国非法香烟的交易量。

人人都在说谎,怎样才知道谁骗了你?-数据分析网相亲其实也有独特的数据:在约会的时候,人们往往通过身高,长相,家庭背景来预测两人约会是不是成功。赛斯则利用人们在约会时说话的内容这个新的数据,来判断两人是不是来电。

他的研究显示,如果一个女生在约会中话音温柔,或者时常谈论自己,就表示她对对方有意思。

但是如果她总是说“可能”“没准”这种意思含糊的词,那么就说明她不怎么喜欢对方。所以下次你去相亲的时候,如果聊天的话题大部分围绕女生,就说明这次相亲有戏。

但如果你们的谈话中有太多疑问句,就可能很难有第二次约会了,因为问问题往往是两个人感到尴尬的表现。

2. 数据的真实性

搜索数据相对于其他数据最大的优势,就在于真实性。人们往往潜意识里会在问卷或有实验人员参与的实验里撒谎,尤其是面对种族歧视,性,暴力这种敏感问题。

但是在网上搜索信息的时候,我们通常是一个人,每个个体的搜索数据又都是加密的,所以就往往更能放心大胆的表达自己的真实想法,而不用担心别人的道德评断。

本书作者最著名的研究就是关于仇恨和种族歧视的。

在 2006 年发生在加州的穆斯林枪杀案之后,奥巴马发表的演讲在全美进行实况转播,演讲动人煽情,教导大家不要仇恨与自己信仰不同的人。

美国的各大媒体都对这篇演讲赞赏有加,认为这个演讲在消除种族仇恨上起到了非常正面的作用。

人人都在说谎,怎样才知道谁骗了你?-数据分析网

然而赛斯却发现了完全相反的结果。他通过研究演讲转播时人们对种族仇恨关键词的实时搜索(比如“杀死穆斯林”),发现奥巴马近乎说教式的演讲一度导致人们更多的搜索负面字眼,仇恨情绪显著上升。

但在演讲的最后,当奥巴马提到在美国的穆斯林有很多是国家英雄和运动冠军以后,关于“杀死穆斯林”的搜索则立刻下降,取而代之的是搜索“穆斯林运动员”。

显然,人们的好奇心被激发,促使他们更进一步的去了解了另一个信仰的人。

作者把这篇关于奥巴马演讲的文章在《纽约时报》发表以后,引起了各界媒体的广泛注意,甚至传到了白宫内部。

在奥巴马关于此次事件的第二次演说时,他甚至借鉴了赛斯的研究结论,更多的强调了穆斯林人在美国扮演的角色,激起大家的好奇心,而不再仅仅是对人们进行传统的说教。

3. 数据的样本量大

谈到数据分析,就不能不谈到现在最流行的“大数据分析” ,即“Big Data”。赛斯认为,大数据分析的优势不仅仅是因为数据量大,结果更可信;更重要的是,因为拥有大量的数据,所以单拿出某一小范围数据的时候,也能拥有全面而不偏颇的数据,得出以往用小样本数据不能得出的结论。

出生在美国是不是更容易成功?(此处成功的定义是出生于底层 20% 收入的家庭,但成为最富裕的 20% 人口)如果研究国家整体经济和个人成功的关系,美国出生的人好像并不能更轻易的突破阶层限制,获得成功。

“美国梦”是骗人的吗?赛斯指出,以往研究所用的经济数据样本量小,且都是以国家为单位的,经济数据是所有州的平均数据。

但是他通过细分到美国各州以及各个城市的经济数据发现,美国有一些城市人们突破收入阶层的概率远远大于平均数(比如加州圣何塞和华盛顿 DC )有一些远远小于平均数(比如芝加哥和夏洛特)。这个规律要是没有大量的各个地点的经济数据,是不容易被发现的。

当数据样本量足够大的时候,研究就能细化到某个地点,某个时间,甚至是某个人。大数据目前最流行的一种应用叫 Doppelgangers , 即“完全相同的人”。

亚马逊,奈飞(Netflix)等电商或视频网站,通过分析大量的用户数据,就能找到和你在教育,文化,喜好都近乎相同的人群,并且根据他们的喜好给你做推荐。

下次再看到电商推荐了一个正合你意的产品,或是你刚好想看的视频,要知道,在这茫茫大数据的人海中,其实有那么一个他,和你几乎完全相同。(话说这些公司是不是应该开展一下媒婆的业务呐~)

4. 数据用于研究因果关系

在本书的最后,作者还介绍了大数据的应用。大数据分析不仅能证明两个数据的关联性,还能衍生出其他的研究方法,用于证明数据的因果关系。

大家最不陌生的研究方法应该就是 A/B 测试了:在网站页面上放两个不同版本的“购买”按钮,通过对大量用户分别的测试,就能知道哪个按钮能导致更多的购买。

美国前总统奥巴马选举的成功的一个重要因素,就是引进了很多的高科技,其中就包括对选举网站进行的 A/B 测试。

下面三个网站版本有不同的背景图片和按钮文字,你能猜出哪个版本有最高的点击率吗?

第一版:

人人都在说谎,怎样才知道谁骗了你?-数据分析网

第二版:

人人都在说谎,怎样才知道谁骗了你?-数据分析网

第三版:

人人都在说谎,怎样才知道谁骗了你?-数据分析网

答案就是:第三个版本比其他所有版本有高出 40% 的点击率。仅仅通过改变背景图片和按钮的文字,奥巴马就多筹集了 6 千万美金的竞选资金。 6 千万!美金!

看了这么多,你一定也感受到了本书涵盖话题的广阔。作者的研究包罗万象,从种族歧视到相亲,从性取向到篮球运动员的成功,充分展示了大数据分析的潜力。

在信息时代,通过对搜索数据等新数据的研究,我们将能更准确的了解关于人性的真相。

我们在判断问题时,往往局限于自己或周围人的有限经验。传统的社会学研究方法也有同样的局限性。

在大数据时代,我们更应该客观的看待事实,不能想当然的下结论,需要多多分析,从不同的角度询问问题本质(ask the right questions)。还有,下次在朋友圈里看到人人都很开心的时候,想想其实他们都在撒谎,心里有没有更好过一点呐?