统计学家难得的共识:是时候停止滥用P值了

统计学家难得的共识:是时候停止滥用P值了

小小的P值,

对于显著性,

你说想要说些什么

—Stephen Ziliak, 罗斯福大学经济学教授

需要多少个统计学家,才能保证对于p值有至少50%的不满呢根据曼荷莲学院统计学家George Cobb半开玩笑的估计,答案是两个…或者一个。所以也就不令人意外,当美国统计协会聚集了26名专家商讨关于统计显著性和P值的一致声明时,讨论很快就变得激烈。

对于外行人很少听过的一个科学术语产生愤怒,这事听起来可能很疯狂,但它的结果意义重大。对于p值的误用会导致不良的科学风气与成果(对于这一点大家没有异议)。对一些科学领域逐渐增长的担忧,催生了这份一致声明。p值在一些领域已经成了决定研究论文是否值得出版的试金石。结果是,那些能够给出超过某个随意阈值的研究论文,更有可能被出版;同时具有更大或同等科研重要性的研究可能被扔在抽屉里,不被科学界所见。

这后果可能是毁灭性的,德克萨斯大学MD Anderson癌症中心的一名生物统计学家Donald Berry认为。“患有严重疾病的患者因此受害”,他在近日发表的一篇评论中写道。“研究者们做着无用功,找到些统计上显著,却无法被再次验证的结论。” 统计结论的误用还有实际的经济层面后果,他补充说。

美国统计协会的执行理事Ron Wasserstein在一篇新闻稿中提到:“p值从未有意成为科学论证的替代品。”委员会成员们对此表示同意,但统计学家们对于推论和统计的正确方式有着哲学层面的分歧。斯坦福元研究创新中心的联合理事Steven Goodman说:“这是各种观点冲撞的战场。”

统计学家难得的共识:是时候停止滥用P值了

分歧大多围绕着频率论者VS贝叶斯方法的技术争论,以及p值的补充与替代品。“分歧是巨大的。包括对于核心问题以及需要被改革的实践的不同看法”,Goodman说,“人们为此面红耳赤”。

这个小组争论与探讨了一年多,最终给出了一份他们全部同意的声明。他们在周一发布了这份一致声明,以及来自委员会成员的20个附加评论。这份声明旨在阐述p值滥用,并推动研究者和科学写作者提高对它的认识。它标志着美国统计协会首次在一个统计实践问题上采用了官方立场。这份声明勾勒出了一些有关p值的基本原则。

委员会的任务包含,挑选出一个非统计学者能够接受的,对于p值的定义。他们最终通过的是:“非正式地说,p值是基于某个特定统计模型之下,某个对于数据的统计总结(如,两个对照组的样本平均值之差)与实际值相等或比实际值更极端。”这个定义清晰地像一团烂泥(我坚持认为即使统计学家也无法用简明的语言解释p值),不过这份声明的其他部分,及其所代表的观点更平易近人一些。

最重要的信息之一是,p值无法告诉你,你的假设是否正确。相反,它是在你的假设之下的,你的数据的概率。这听起来很像“在你的数据之下的,你的假设的概率”,但它们不是一回事,卢森堡健康研究所的一名生物统计学家Stephen Senn说道。要理解原因,可以考虑这样一个例子,“教皇是基督徒吗答案是肯定的”,他说。“基督徒是教皇吗答案很可能是否定的。如果你更改了顺序,声明就不存在了”。

统计学家难得的共识:是时候停止滥用P值了

在非统计学者中常有的一个误解是,p值可以告诉你,某个结果“碰巧”发生的概率。这种解读绝对是错的,但你又总能一次次地看到。p值只会告诉你有关在某个假设解释下,得到你的结果的概率——它无法告知结果正确的概率,或者结果是随机发生的概率。这份声明中的第二项原则:“p值无法衡量所研究的假设正确的概率,或它们是否随机发生的概率。”

p值也无法告诉你某个影响的规模,某个证据的强度或是某个结果的重要性。尽管有这些限制,p值常被用于区分科学发现的真伪,这带来了恶劣的影响。当目标从追寻真理,变成获得符合某个随意阈值(在许多领域0.05或更小的值被认为“统计显著”)的p值的时候,研究者们倾向于在数据里垂钓,使用不同的分析直到发现什么p值合格的东西。你可以在去年早些时候我们建立的“p值黑客(p-hacking)”工具对此进行了解。

的确,许多ASA委员会成员在其评论中表示,p值不是问题所在,而是它如何被使用——“没能根据‘刻意挑选’、‘多次测试’、‘得到数据后分组’和其他带来偏差的挑选效果进行调整”,弗吉尼亚理工大学的统计哲学家Deborah Mayo 说道。当p值被当作区分结果是否显著的分类方式时,收集和分析数据的巨大努力被降级为贴标签,波士顿大学的流行病学家Kenneth Rothman说。

声明附带的20个评论展示了一些关于未来何去何从的想法。委员会的一些成员认为应该转而依靠其他测量工具,如置信区间和贝叶斯分析。其他人认为这样治标不治本。“解决方案不应是对p值进行改革或用其他统计指标/阈值进行替代”,哥伦比亚大学统计学家Andrew Gelman写道,“而是去更多接受不确定性与变化”。

如果这份声明能提炼出什么简单的结论,那就是:p值不是真理的标志,p < 0.05不是区分真假的界线。它们只是谜题中应该与上下文其他证据放在一起考虑的一部分。

本文始于一首俳句诗,它是对于这份p值文件的回复之一。这里让我们用密歇根大学生物统计学家Roderick Little的一首打油诗结束本文。

统计学里,有个规则我们真的重视:

P零点零五就出版,不然就去死!

Val Johnson说:“这已经过时,我们的研究如果不出现

P零点零零五,那就啥也不是!”

原作者:CHRISTIE ASCHWANDEN

翻译:王鹏宇

原文链接: https://fivethirtyeight.com/features/statisticians-found-one-thing-they-can-agree-on-its-time-to-stop-misusing-p-values/

本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/10072.html 。

(0)
上一篇 2016-03-03 04:00
下一篇 2016-04-04 01:41

相关文章

关注我们
关注我们
分享本页
返回顶部