统计学家难得的共识：是时候停止滥用P值了

小小的P值，

对于显著性，

你说想要说些什么

—Stephen Ziliak, 罗斯福大学经济学教授

需要多少个统计学家，才能保证对于p值有至少50%的不满呢根据曼荷莲学院统计学家George Cobb半开玩笑的估计，答案是两个…或者一个。所以也就不令人意外，当美国统计协会聚集了26名专家商讨关于统计显著性和P值的一致声明时，讨论很快就变得激烈。

对于外行人很少听过的一个科学术语产生愤怒，这事听起来可能很疯狂，但它的结果意义重大。对于p值的误用会导致不良的科学风气与成果(对于这一点大家没有异议)。对一些科学领域逐渐增长的担忧，催生了这份一致声明。p值在一些领域已经成了决定研究论文是否值得出版的试金石。结果是，那些能够给出超过某个随意阈值的研究论文，更有可能被出版;同时具有更大或同等科研重要性的研究可能被扔在抽屉里，不被科学界所见。

这后果可能是毁灭性的，德克萨斯大学MD Anderson癌症中心的一名生物统计学家Donald Berry认为。“患有严重疾病的患者因此受害”，他在近日发表的一篇评论中写道。“研究者们做着无用功，找到些统计上显著，却无法被再次验证的结论。” 统计结论的误用还有实际的经济层面后果，他补充说。

美国统计协会的执行理事Ron Wasserstein在一篇新闻稿中提到：“p值从未有意成为科学论证的替代品。”委员会成员们对此表示同意，但统计学家们对于推论和统计的正确方式有着哲学层面的分歧。斯坦福元研究创新中心的联合理事Steven Goodman说：“这是各种观点冲撞的战场。”

分歧大多围绕着频率论者VS贝叶斯方法的技术争论，以及p值的补充与替代品。“分歧是巨大的。包括对于核心问题以及需要被改革的实践的不同看法”，Goodman说，“人们为此面红耳赤”。

这个小组争论与探讨了一年多，最终给出了一份他们全部同意的声明。他们在周一发布了这份一致声明，以及来自委员会成员的20个附加评论。这份声明旨在阐述p值滥用，并推动研究者和科学写作者提高对它的认识。它标志着美国统计协会首次在一个统计实践问题上采用了官方立场。这份声明勾勒出了一些有关p值的基本原则。

委员会的任务包含，挑选出一个非统计学者能够接受的，对于p值的定义。他们最终通过的是：“非正式地说，p值是基于某个特定统计模型之下，某个对于数据的统计总结(如，两个对照组的样本平均值之差)与实际值相等或比实际值更极端。”这个定义清晰地像一团烂泥(我坚持认为即使统计学家也无法用简明的语言解释p值)，不过这份声明的其他部分，及其所代表的观点更平易近人一些。

最重要的信息之一是，p值无法告诉你，你的假设是否正确。相反，它是在你的假设之下的，你的数据的概率。这听起来很像“在你的数据之下的，你的假设的概率”，但它们不是一回事，卢森堡健康研究所的一名生物统计学家Stephen Senn说道。要理解原因，可以考虑这样一个例子，“教皇是基督徒吗答案是肯定的”，他说。“基督徒是教皇吗答案很可能是否定的。如果你更改了顺序，声明就不存在了”。

在非统计学者中常有的一个误解是，p值可以告诉你，某个结果“碰巧”发生的概率。这种解读绝对是错的，但你又总能一次次地看到。p值只会告诉你有关在某个假设解释下，得到你的结果的概率——它无法告知结果正确的概率，或者结果是随机发生的概率。这份声明中的第二项原则：“p值无法衡量所研究的假设正确的概率，或它们是否随机发生的概率。”

p值也无法告诉你某个影响的规模，某个证据的强度或是某个结果的重要性。尽管有这些限制，p值常被用于区分科学发现的真伪，这带来了恶劣的影响。当目标从追寻真理，变成获得符合某个随意阈值(在许多领域0.05或更小的值被认为“统计显著”)的p值的时候，研究者们倾向于在数据里垂钓，使用不同的分析直到发现什么p值合格的东西。你可以在去年早些时候我们建立的“p值黑客(p-hacking)”工具对此进行了解。

的确，许多ASA委员会成员在其评论中表示，p值不是问题所在，而是它如何被使用——“没能根据‘刻意挑选’、‘多次测试’、‘得到数据后分组’和其他带来偏差的挑选效果进行调整”，弗吉尼亚理工大学的统计哲学家Deborah Mayo 说道。当p值被当作区分结果是否显著的分类方式时，收集和分析数据的巨大努力被降级为贴标签，波士顿大学的流行病学家Kenneth Rothman说。

声明附带的20个评论展示了一些关于未来何去何从的想法。委员会的一些成员认为应该转而依靠其他测量工具，如置信区间和贝叶斯分析。其他人认为这样治标不治本。“解决方案不应是对p值进行改革或用其他统计指标/阈值进行替代”，哥伦比亚大学统计学家Andrew Gelman写道，“而是去更多接受不确定性与变化”。

如果这份声明能提炼出什么简单的结论，那就是：p值不是真理的标志，p < 0.05不是区分真假的界线。它们只是谜题中应该与上下文其他证据放在一起考虑的一部分。

本文始于一首俳句诗，它是对于这份p值文件的回复之一。这里让我们用密歇根大学生物统计学家Roderick Little的一首打油诗结束本文。

统计学里，有个规则我们真的重视：

P零点零五就出版，不然就去死!

Val Johnson说:“这已经过时，我们的研究如果不出现

P零点零零五，那就啥也不是!”

原作者：CHRISTIE ASCHWANDEN

翻译：王鹏宇

原文链接： https://fivethirtyeight.com/features/statisticians-found-one-thing-they-can-agree-on-its-time-to-stop-misusing-p-values/

本文为特邀专栏文章，来自：数据工匠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/10072.html 。