从“男人比女人孝顺”和“百度医疗竞价”说起,大数据需要科学和正直的品格

最近几天,一篇“一个死在百度和部门医院之手的年轻人”的新闻刷爆网络,又一次将百度的医疗竞价排名推到了风口浪尖。

某新闻媒体在今年春节后用大数据解读春节,给出了这样一个观点“陪父母过年 男人比女人更孝顺”,“百度大数据给出的答案是:男人。尤其是三十多岁的男人,无论是陪父母旅游,还是为父母购物,他们的表现都很赞,每一项都高出女同胞两倍多。看来,孝顺的大军,还要靠男同胞们引领”。

最近几天,一篇“一个死在百度和部门医院之手的年轻人”的新闻刷爆网络,又一次将百度的医疗竞价排名推到了风口浪尖。

大数据是新出现的事物,作为一门深刻洞察社会规律的新工具和手段,本身无所谓对与错,好与坏,其实全赖于使用者。在这个大数据普及和大发展的新时代,笔者认为我们不仅需要关注大数据技术和商业,更应该让大数据拥有正直的品格,同时以科学的态度去处理它,大数据作为人类发展的一个趋势,我们已经不能仅停留在以前玩和看的心态上去对待它,因为它在带来规模价值的同时,也具有了很大的消极或负面作用,玩的心态已经不可取。

这里,笔者谈四点看法:

Part 1大数据造成了新的互联网特权

互联网解决了基本连接的问题,它让人与人之间的沟通变得毫无障碍,这个世界也变得越来越扁平,我们现在可以轻易的接触到大量的信息,信息不对称的影响越来越小,比如,我们已经很容易从网上获得足够的信息,来驳斥一些所谓的伪专家。

但当前获取的自由信息,仅仅是表面层次的,它并不是人类的终极目标,事实上,信息如何分析产生的过程我们并不清楚,大数据时代到来后,大量的信息基于大数据分析而来,未来我们实际是依赖于大数据分析创造的新的互联网世界而存活,大数据想让你看到怎样的世界,你就只能看到怎样的世界,特别在数据“寡头”出现后,比如在搜索的时候,搜素引擎想让你看什么就只能看什么,电商网站想让你买什么就会给你看什么,真实的情况如何,只有数据运营者才真正知道,这是比较可怕的,前面的案例一定程度已经说明,事实上,你没有选择,在互联网时代,我们好不容易有了更多选择的机会,但一旦出现大数据垄断,未来它却可能让你只有1个选项,这是新的知识垄断。

工业时代产生了企业寡头,它侵占了大量的资源,肆意操作市场,大数据时代,是否会产生大数据寡头?黑客帝国大家都看过,这种更深层次的知识垄断何尝不是一种表现形式。

Part 2大数据还原世界的过程不太透明

“ 男人比女人孝顺”这类所谓大数据分析的结论,笔者找遍了网络,没有机构可以监管,没有任何关于其分析过程的说明,包括从哪个具体数据源,具体是哪些关键字,每个关键字的数据量是多少?是否取得足够随机?所用的算法或规则是什么?是否被认为剔除或加工过?当前大数据的信息发布游离在任何体系外,没法去证明分析的过程是科学的还是错误的,没人为这个信息的准确性进行负责或解释,但如果的确是错误的结论,其影响的恶劣程度,有时却并不比虚假广告轻。

这种信息不透明,缺乏监管的行为,特别容易被一些无知媒体或无良企业用来获取噱头或博取眼球。

前段时间今日头条和艾瑞咨询关于统计数据的争执一定程度说明了这一点,要不是今日头条创始人兼CEO张一鸣炮轰艾瑞数据提供的报告内容失实,有谁会质疑这个数据而为自己维权,那对于广大网民,对于一条误导的大数据分析结论,谁该为其负责?

Part 3大数据的使用有时缺乏基本的科学方法

在大数据时代,传统的统计学和概率论没有因为大数据的大而失去意义,虽然,基于大数据的全面性可以一定程度上减少对于样本统计的依赖,但从实践的角度看,所谓大数据全面性在一定程度上是假命题,统计学作为一门数据科学,其理论在新的大数据时代将发挥出更大的作用。我们使用大数据,正确的方法始终是第一位,数据才是第二位,用错了方法再多的数据也没有价值,当下,一个企业要用好大数据,首先要有科学的思想,这样你的数据运营才有价值,这是不会变的。

再来谈谈“男人比女人孝顺”这个话题,起码它犯了三个错误:

问题与结论不一致

按照过程的描述和百度的数据,媒体其实能够给出的回答仅仅是“30多岁的男人比女人在春节期间表现得更孝顺”,无法推断出“男人比女人更孝顺”这个规律,将一些所谓数据分析的结论随便扩大是数据分析中常犯的毛病,比如30多岁的男人能代表全体男人?20岁的大学生调研一下是否就不是这个结论?

缺乏统计学的常识

违背了统计学中最基本的原则,比对的样本的选择要随机,不能有倾向性,也就是样本要公平,大家都知道,当前实际上由于中国的传统等因素,男人和女人在过年回家上的很多行为并非随机,很多行为体现的并非“真心”,甚至是“假”的数据,我们期望基于假数据得出真心的结论,这是可笑的事情,但在数据领域,太多的案例体现了这种“假数据,真分析”的行为,比如移动公司通过促销给你赠送了10G流量,被赠送流量的用户与真实自己订购10G用户性质是完全不同的,一个是被动,一个是主动,特别是后续你还想通过订购10G流量的用户去预测未来的潜在用户,那被你赠送流量的用户就是假数据,如果你还坚持用这些数据去做预测,就是“假数据,真分析”。

缺乏客观的业务解读

任何数据分析的结果,都需要懂业务的人去解答其体现的规律和价值,我不知道关于孝顺的分析数据结果出来后,是谁负责去解答业务上的含义,起码,当前的解读带有较大的功利主义色彩,这不是客观的分析师应该拥有的品格,有常识的人都知道这个结论会很片面,解读的人会不知道吗?

下面给出一个对比的案例,数据是门严谨的科学,大数据不是不讲任何规矩的乱说:

在政府有关部门大力支持与北京美兰德信息集团公司(原国家统计局信息中心)实施入户访谈的积极配合下,北京大学老龄健康与家庭研究中心/中国经济研究中心对全国22省、市随机抽取的一半县(市)合计近6万老年人/次,分别在1998、2000、2002、2005年进行了“中国老年健康长寿影响因素跟踪调查研究”。其中一项研究对“养育女儿在晚年所得回报是否比儿子差?”的问题给出了以下几方面的科学答案。

一、农村与城镇老人(包括高龄与中低龄老人)的成年女儿的孝敬父母观念指数平均比成年儿子分别高出35%与18%。80岁以上高龄老人与65-79岁中低龄老人的成年女儿的孝敬父母观念指数比成年儿子分别高出29%与18%。其中孝敬父母观念指数是根据4364位老人中每人随机抽取一位35岁以上成年子女,共4364位成年子女对9个关于成年子女是否应该及如何对老年父母尽子女孝敬之责陈述的评估得分而构建的综合指数(最高分45分,最低分9分)。

二、成年女儿与老年父母的情感关系显著优于儿子,女优于儿差异高达28-29%。

三、主要照料者为女儿/女婿的高龄与中低龄老年人对日常生活(包括生病时)所获照料的满意度比主要照料者为儿子/儿媳的高龄与中低龄老年人分别高出45%与13%。

四、农村与城镇平时与女儿/女婿交谈最多的老人三年后认知能力显著下降的风险分别比农村与城镇平时与儿子/儿媳交谈最多的老人低33%与16%。

五、农村与城镇只有女儿的老人七年(1998-2005)观测期内死亡风险分别比只有儿子的老人低25%与10%;与只有儿子相比,只有女儿的老年父母死亡率较低的优势在高龄老人中(18%)比中低龄老人(6%)更为显著。农村与城镇只有女儿的老人七年观测期内死亡风险分别比既有儿子又有女儿的老人低25%与13%。

以上五方面的调研分析结果都是在控制其他相关因素前提下运用先进的多元统计分析方法与大样本数据得到的。通俗地讲,以上阐述的养育女儿与养育儿子在老年所得回报差异是指在年龄、性别、城乡居住地类型、民族、受教育程度、婚姻状况、现有子女数与子女邻近程度、烟酒与锻炼习惯等人口、社会、经济状况基本相同的老人们之间的比较;成年女儿与儿子孝敬父母观念及其与老年父母的情感差异也是指在年龄、城乡居住地类型、民族、受教育程度、婚姻状况等基本相同的成年女儿们与儿子们之间的比较,是经过多元统计理论与模型严格检验的科学结果。

Part 4正直是持久运营大数据的前提

很多人都在谈大数据的开采挖掘极其巨大的商业前景,在道德层面更多的强调的可能是个人隐私的侵犯,但实际上,正直的品格也许更为重要,在一个正直的人手里,个人隐私数据可以得到有效的保护,即使他拥有你的数据,也不会作恶,所谓“举头三尺有神明”,但正直的品格对于大数据的意义还远远不限于此,有时候,不正直的大数据行为造成的伤害远大于隐私的侵犯,影响企业的基业长青。

从百度的医疗贴吧事件到现在的搜索竞价排名,其反应了很多的问题,但这个问题肯定不是技术问题,大家先看看Google的搜索排名算法, 这是众所周知的,搜索算法其实没有什么更多的秘密:

(1) 对网页质量的度量:主要依赖于pagerank算法,即链接到该网页的数量认为是主要的质量排名依据

(2) 网页和搜索关键字的相关性:主要依赖于TF-IDF算法,也就是关键词在文本中出现的词频及关键词的逆文本频率指数,前面的词频好理解,但逆文本频率指数其实是一个权重,通常的理解就是这个关键词越通用,权重越小,关键词越少见,权重越大,因此,输入关键词组合,每个关键词的搜索权重是不一样的

(3) 网页权威性算法:由于当前很多查到的信息虽然多,但不权威,因此会通过网页文本中的提及等专业关键词来进行主题网站的优化搜索

这个算法相信大多数搜索引擎都会参考或使用,国内的搜索企业也毫不例外,因此说某搜索引擎的能力有差距导致搜索的问题,这个其实是站不住脚的。

事实上,大数据由于其较高的门槛,造成了新的信息层面的不对称,在缺乏足够监管的前提下,在相关法规有漏洞的情况下,任何从事大数据的企业或个人,更加应该自律,秉承正直的品格。现在大数据的很多问题暴露的其实是商业利益和道德的博弈问题,在一切向钱看的市场下,给出用户需要的搜索结果和搜素引擎希望给你的搜索结果之间,往往会选择前者,但正如我以前撰文所说的,大数据要运营好,客户为第一位,这是企业做百年老店的基础,但要运营好客户是一件持久的事情,钱也来得远没那么容易。

当然,几次事故可能不会对某些企业当前带来实质性影响,但怒气总是一点点积累起来的,该还的时候,总是要还的。

结语

因为最近在网上接连看到跟大数据相关的问题发生,笔者觉得在当下,探讨下如何以科学的精神使用大数据、如果用正直的品格去运营大数据、如何让大数据分析过程变得更为透明,是件有意义的事情,当然,我也没法给出很好的解决方法,但起码政府应建立起码的大数据监管机制,同时借鉴下国外GOOGLE等的经验做法,是有利于问题的解决的。

本站特约专栏文章,作者:傅一平,本文链接:https://www.afenxi.com/15987.html 。内容观点不代表本站立场,如若转载请联系专栏作者。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言 大数据交流群: 统  计  学 数据分析网-统计学 商业智能 数据分析网-商业智能 数据挖掘 数据分析-数据挖掘 数据产品 数据分析网-数据产品

QR code