大数据「偏见」会让我们变蠢吗

数据必须经过分析才能产生意义。

大数据「偏见」会让我们变蠢吗

作者:詹姆斯•韦伯斯特

数字从来不会自己说话。数据必须经过分析才能产生意义。数据必须要清理、加权、整理。 很多时候,大数据被输入到算法中,产生可指导行动的测量数据。个性化给人们带来的最大担忧是,它让用户撤回到舒服的飞地,其结果是用户的视野变窄,偏见增强。

测量中的偏见

所有的媒介测量都具有偏见。这并不是说,它们为了达到某个不道德的目的而故意歪曲——虽然也存在这个可能。意思是说,它们永远无法提供一个完全客观的现实图像。在收集和整理数据的过程中,偏见是固有的。能被观测到的东西是无限的。记录这些东西的方法各不相同。而且,正如我们所见,有很多不同的方法可以将所有数据凝缩为可用的测量标准。在这个过程中,有些东西未被探索到,有些东西则牺牲在“剪辑室”。

主导这个过程的是人类。他们决定什么是有用的、可行的或可以营销的。这样的判断已经烙入到所有的测量中,并从此产生偏见。重要的是识别最常见的偏见形式,并了解它们是如何影响市场运行的。有三种偏见值得一提:行为偏见、个性化偏见和流行度偏见。

行为偏见

绝大多数数字媒体的测量手段是通过记录人们的行为建构的。从广播的最初岁月开始就是这样,直至今日未曾改变。第一个视听率测量机构决定通过记录听众的收听行为来测量广播接触。这并不是理解媒介使用的唯一方式——它也可以被定义为听众关注或参与,但是接触迅速成为业界共识。历史学家马克·巴尔内夫斯及其同事解释道:“出于买卖广告时段或买卖节目的目的,一种能显示收听某个节目和收听时间的测量标准具有某种简洁性,这对高竞争性环境中的议价十分重要。” 数字电视的现代测量技术与此并无二致。个人收视记录仪和机顶盒记录下人们所选择的内容或频道,并从这些选择中推断接触。

Web 2.0 机构对行为数据的依赖并没有减少。虽然有些机构从用户评论中获得见解,但是大多数被采集的信息都是作为行为数据被加以解释的。服务器追踪人们买了什么、访问了什么网站、索取了什么信息、下载了什么材料、链接到了什么网页、分享了什么东西。实际上,每一天的每一秒钟都有海量的行为数据被制造出来。它的优点是价格低廉、数量丰富,从而成为一种具有诱惑力的资源。但是,即便测量得精确,行为也很难被解释。

人们面临的最大诱惑是将选择当作偏好的替身。其实,经济学中有一个正式的假设,即,选择是“显示性偏好”的度量。在推荐机制中,这种思路十分常见。甚至这些机制的批评者似乎也忽略了二者的区别。“新一代的互联网过滤机制盯着你看起来喜欢的东西——你实际的所作所为,或者与你类似的人们所喜欢的东西,并试图做出推断。”但是,我们有理由怀疑,选择是不是先有偏好的直接反映。媒介使用并不总是我们个人偏好的良好体现。我们所属社交网络的特质、我们用来寻找内容的工具和日常生活的结构都影响了媒介使用。

因此,通过行为进行推断时必须要谨慎。观看一段视频意味着你喜欢它吗亚马逊上的每次购买都应该被理解为向“像你一样的人”做出的无声推荐吗链接到某个网页或分享某个链接代表的是赞许还是谴责转发某条推特信息是对其创新性的判断,还是身份表达和“社交纽带”点击“喜欢”按钮意味着你真正喜欢它,还是仅仅为了获取免费的东西行为的意义并不总是直白明了。然而,当我们将它们简化为“人头数量”或推荐时,往往认为行为的意义就是这样简明。

个性化偏见

可选择的东西如此之多,可用于选择的时间如此之少。媒介测量的一项重要功能是为人们的选择提供向导。个性化推荐在一定程度上能够预见我们认为有用或有趣的东西。它意味着我们无须在搜索上浪费时间,无须考虑每个选项。获取提供这些推荐的技能,一直是在网络上取得成功的处方。然而,商业平台并非唯一具有个性化偏见的平台。接下来我将论证,测量手段让我们以个性化的方式接触数字媒体,这在一定程度上是由我们社交网络的本质属性造成的。

营利网站具有追求个性化的欲望,这并不难理解。这个被帕里泽称为“为相关性而进行的竞赛”,驱动着大多数硅谷企业。因为它们意识到创造忠诚客户的最好方法是,“提供真正对应每个人独特兴趣、欲望和需求的内容”。 正如我们所看到的,这也正是协同过滤的存在理由。谷歌从 2009 年开始提供个性化搜索结果。Facebook 的图谱搜索提供了另一种个性化方法。根据《纽约时报》的说法,“在用户的 Facebook 好友中哪一个与用户最亲密,在搜索结果中用户最想看到谁的答案,这些都是由算法审定的”。

社交网络和亲密小组也在无意中造成了个性化偏见,几乎所有的社交网络都是同质化的。社交网络的成员倾向于拥有相似的背景、兴趣和性情。在这些网络之中,照顾到相关群体兴趣、规范和偏见的媒介更容易得到广泛传播。社交新闻网站,如红迪网(Reddit)或顶客(Digg),通过推导、综合和排名向人们推荐值得关注的东西,从而鼓励了这种选择性。

其实,社交网络呈现给我们的推荐,可能比我们想象的还要自动化。Facebook 通过一种名为“刀锋排名”(EdgeRank)的算法,为每个用户提供个性化的动态新闻。刀锋排名是 Facebook 的专利,但是与图谱搜索类似,它也是优先呈现来自与我们关系密切的人们的最新消息。换句话说,在所有的 Facebook 好友中,我们更可能听到像我们一样的人们的消息。在一定程度上,这种定制内容造成了社交媒体上普遍存在的个性化偏见。

个性化给人们带来的最大担忧是,它让用户撤回到舒服的飞地,其结果是用户的视野变窄,偏见增强。例如,个性化可能会鼓励保守主义者收看“红媒”,自由主义者收看“蓝媒”。帕里泽将这些飞地称作“过滤气泡”。他认为用户往往并没意识到过滤气泡的存在。

然而,我们很难确定这些来自朋友的推荐所产生的社会效应。区分社交传染效应与同质性效应,对我们来说是一项挑战。人们可能会看到同样的东西,做同样的事情,这不是因为推荐,而是因为他们彼此相同。然而,也有证据证明,朋友的督促能够促使人们去投票,从而影响难分伯仲的选举结果。而且,似乎来自熟人的推荐压倒了选择性接触的倾向。穆茨和杨猜测,自动化的“非人类”推荐,例如协同过滤——或许不如“人类”推荐更具潜在影响力。然而在当今世界,随着 Facebook 和推特使用算法滤出个人信息和推荐,人类推荐和非人类推荐之间的界限也变得日益模糊。  ‍

流行度偏见

几乎所有上述方法都产生一个推荐排序表。搜索引擎根据内向链接的数量和重要性进行网页筛选。社交网络和内容提供者将用户指向阅读最多的故事、观看最多的视频或者大多数90“像你一样的人们”所购买的、租赁的或喜爱的东西。用户信息机制经常使用的方法,都特别倚重流行度。《华尔街日报》的“数字先生”卡尔·比亚利克有一句妙语:“互联网促进了流行度竞赛的爆发。” [“Numbers Guy”是由卡尔·比亚利克创办并供稿的《华尔街日报》专栏,这个专栏是关于新闻所使用(特别是误用)的数字和统计的。

尽管在历史上,大众文化的批判者曾经质疑被当作质量指标的流行度,但是推荐机制基本上能够免于此类质疑。相反,用户和社会评论家都赞赏这些机制,认为它们体现了“群众的智慧”——意思是说众多普通决策者能够创造优于专家的集体判断。这个流行概念给那些自私机构和告诉人们什么最好的自认权威提供了诱人的修正。然而,即使接受这个假设,用户信息机制也往往不能满足做出优秀决定所需的前提条件。

根据詹姆斯·索罗维基(他是帮助这个概念流行开来的作者)的说法,当大量不同个体独立做出决定或预测时,智慧得以实现。将这些自主决定加在一起,通常可以产生一个明显优于专家意见的结果。不幸的是,大多数用户信息机制违反了这些规则,这一点连索罗维基自己也承认。

首先,推荐通常以相对较小的同质群体为基础。如我们所见,社交网络或亲密小组的成员是同质的。在大多数群组中,成员的数量是有限的。人类学家罗宾·邓巴认为,人类最多能够维持150多个有意义的人际关系,因此社交网络的规模是有限的。有些人找到证据证明社交媒体使用中存在天花板,另外一些社交网络分析者却认为,“邓巴数”太低了。不管怎样,社交网络,作为推荐实体,通常并不具备做出聪明判断所需的规模和多样性。协同过滤也不能纠正这个问题。最好的推荐机制横跨多个数据库。它们必须这样做,因为相对来说,只有少数人在进行推荐时最终具备价值。也就是说,过滤算法搜索并优先考虑与你“最亲密的人”或离你“最近的人”。这些人通常只占数据库的极小一部分。

其次,在上面提到的用户信息机制中,没有一个促进了最佳推荐所需的那种独立决策。搜索引擎为用户提供有关其他人所作所为的信息,有效引导接下来的决策,整合并报告某个网站的访问者选择了什么或者某个社交网络的成员推荐了什么,为追随者提供了强烈的社会期望信号。人类有随大流的倾向,见到他人在做什么,能够引发狂乱冲动行为。

例如,哥伦比亚大学的社会学家进行了一项基于互联网的大规模实验。在实验中,人们被允许从一些不知名乐队中选择一个,并下载它的音乐。在实验条件下,人们能够看到有关别人所下载内容的信息越多,他们越倾向于追随领导者。歌曲的质量相对来说并不重要。在不同的实验条件下,用户信息产生的结果都是“赢者通吃”。然而,你还是无法事先预知谁会成为赢者。

如果自主决策产生最佳结果,传染和从众似乎是“智慧自群众中来”(这个观点的持有者)最不喜欢的。正如预测专家纳特·西尔弗所警告的:“这是信息时代的另一个风险:我们分享如此多的信息,以至于我们的独立性被降低了。相反,我们寻找和我们一样思考的人们,

但是,这些以流行度为基础的排名比比皆是,所以,我们应该谨慎对待测量中的流行度偏见。这样的测量标准能够告诉我们什么在吸引注意力——同时也提升流行度,但是它们并非找到真正价值所在的无误向导。

透过大数据看世界

很多评论家和顾问早就指出,大数据的出现将促使我们革新一切,从制造到市场营销、到医药、到天气预测、到股票交易、到科学自身的每项实践。我曾间接提到服务器所产生的数据对媒介测量的影响,但是我们还是应该认真考虑,大数据是否从根本上改变了我们看待注意力市场的方式,是否在此过程中改变了市场的运行方式。

大数据这个词模糊得让人喜欢。对有些人来说,它是一切电子计算表中大到无法处理的数据;对另一些人来说,它只不过是一个需要超级计算机进行运算的数据集。它通常包括两个截然不同却又经常合在一起的话题:数据与分析。为了掌握大数据的贡献和局限,我们应该对二者分别对待。

大数据的拥护者们经常表示,越大一定越好。我曾指出,大多数媒介测量都有一个行为偏见,行为偏见让它们的解释存在问题。但是在克里斯·安德森(他曾长期担任《连线》杂志编辑)看来,日益增加的数据以某种方式消除了这个问题。“谁知道为什么人们为其所为、做其所做重点是他们做了,而且我们能够追踪,并以前所未有的保真度测量他们的活动。有了足够的数据,数字自己就会说话。”然而,大多数知道数据包括什么、不包括什么的人们却得出截然不同的结论。微软研究院的研究员们将真实世界中大数据的不足进行了分类,从代表性问题到显而易见的错误。他们得出的结论是:“大数据为我们提供了海量数据,但这并不意味着方法问题不再重要。例如,对样本的理解,现在比以往任何时候都更重要。”

数字从来不会自己说话。数据必须经过分析才能产生意义。数据必须要清理、加权、整理。 很多时候,大数据被输入到算法中,产生可指导行动的测量数据。正如克里斯·斯坦纳所指出的:“在华尔街和其他地方,所有因算法而实现的革命,只有一个核心的、执着的目标:预测——更精确地说,预测其他人会做什么。”

然而,预测人们会做什么,要什么或对什么满意,比物理世界的预测更难。想一想用大数据预测天气。预测并不能改变天气。预测一英寸的雨水并不能让此成真。假如真的下雨,你就可以对预测的精确度进行测量。你只需到雨水测量器前看一看就知道你预测的对不对。人类世界并不总是按照同样的规则运行。

对社交活动的预测会影响他们所预测的东西。如果谷歌预测某个网站会有价值并因为这个预测促进了网站流量,似乎就能够进一步证明这个推荐的正确性。如果《纽约时报》网站将某篇文章吹捧为阅读量最多的文章,就会引诱人们去阅读它。如果我们接受这个间接推荐,它对其他人的诱惑力就会增强。如果亚马逊预测我们将会喜欢某本书,因为“像我们一样的人们”购买了该书,我们可能就会将该书加入到购物车,从而使销售增长。倘若不是这样,这个增长是不存在的。测量并没有与它们所要测量的现实相互分离,测量重塑了现实。

职业媒体人手中的测量可能也是这样的。例如,媒体都想在新人出名之前发现他们。《广告时代》如此描述这个挑战:“很多年以来,品牌一直在和 YouTube 明星合作——贾斯汀,谢伊·卡尔,米歇尔·潘等等,但是,如果你能够在明星成为大腕之前就发现他们,又会怎样呢”为了做到这一点,代理机构要在 YouTube 上追踪 5 万个频道、2500 万个视频,从而预测谁处在成名的临界点,表现优秀的那些可以签下合约。以这种方式发现的人才可能无须干预便获得成功。但是,使用测量发现赢者的同时也能创造赢者。与天气不一样,社会预测能够改变结果。

在很多大数据支持者的眼中,预测物理世界与预测人类世界的区别似乎不再存在。在人类社会,由大数据驱动的算法有可能创造“自我应验的预言”。伟大的社会学家罗伯特·K·默顿解释道:“某个情况(预言或预测)的公共定义成为这个情况的组成部分,因此影响到事态的后续发展。这是人类事务特有的。自然界中并不存在。”自我应验的预言产生两个问题,一个是分析者的问题,另一个是我们其他人的问题。

算法的预测质量应该根据预测的准确性判断。但是,任何评估都取决于我们能否很好地测量我们所预测的东西。在大数据的世界里,比起其他事情,有些事情更容易知道。我们也许能判断出某种模式在多大程度上决定了电视节目的收视率,或者操控推销辞令如何影响了购买行为。但是,当谷歌预测我们会觉得某个网站有价值,或者奈飞预测我们会喜欢某部电影时,我们怎能知道这些预测真正找到了具有价值或令人喜爱的东西呢我们可能发现这些推荐有价值,但是我们无法确定它们是否为最佳选择。将人们对某个建议的接受当作质量高的证据,或许只会让自我应验的预言继续存在。在人类世界中判断预测的质量,并不像看一眼雨水测量器那样简单。

自我应验预言的更大后果是,它们能够影响文化消费本身的性质。公共测量可能会与其所测量的世界“发生反应”,从而改变社会现实。 两种偏见:个性化偏见和流行度偏见,可能都有这个能力(改变社会现实)。

个性化推荐将我们引向那些关心我们兴趣和偏见的媒体。通常,推荐者需要从我们过去的行为进行推断,从而猜测我们是谁、喜欢什么。伊莱·帕里泽将此称为“你循环”,并对其机制作出如下解释:“你点击一个链接,说明你喜欢其中某个东西,这意味着你接下来很有可能会看到与那个话题相关的文章,然后它进一步为你启动了那个话题。你陷入了‘你循环’,如果你的身份被误表达,就会产生一些奇怪的模式,就像扩音器中出现的回响。”有一种可能是,某些东西被启动,而其他东西未被启动,我们可能会培养起一种对所推荐东西的品位。正如我们所看到的,很多社会评论家担心个性化可能会使社会极化,但是如果这些机制迎合并创造偏好的话,其效果可能会更加显著。

然而,流行度偏见可能会缓解这种效果。它不是将我们撕裂,而是倾向于使公众注意力集中。流行度并非找到最高价值或最高质量的安全法则。然而,似乎显而易见的是,推荐流行的东西会驱动流量,并进一步提高流行度。将海量数据转化成简单的数人头活动,包括将此公布于众,会夸大最终的计数结果。

在这些倾向中,没有一个由于大数据的大而得到缓解。与所有媒介测量手段一样,新的测量手段也是人类创造的。正因为如此,它们也不能免于偏见和误用。但是,它们现在无处不在。这不是原来就有的,因此它们成为人们必须考虑的日益重要的力量。它们能够为机构和个人提供超级有用的工具。然而,它们并不是注意力市场上的中立者。媒介测量以强有力的方式进入注意力市场。这种进入方式并没有得到足够重视,往往也很难被普通用户识别出来。显然,人类世界会与数据所鼓励我们看到的十分相似。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
上一篇 2019-07-02 17:19
下一篇 2019-07-09 10:50

相关文章

关注我们
关注我们
分享本页
返回顶部