t检验用不了？别慌，还有神奇的非参数检验

前面几节，我们了解了如何用数据转换的方法，把不满足正态分布的数据，转换成正态分布的数据，以满足t 检验的要求。但当你拿着这些方法兴奋地转换着手上的数据，却依然得不到正态分布时，该怎么办呢？

其实，t检验也不是唯一的统计检验方法。在统计学中，t检验属于参数检验，除此之外，还有一大类不同于t检验的方法，叫做非参数检验方法。

参数检验需要假设总体的分布，比如t检验要求总体服从正态分布。根据这一假设，参数检验方法可以算出抽样分布，从而得到p值。与参数检验不同的是，非参数检验并不依赖于总体的分布。

因此，非参数检验适用于数据不服从正态分布的情况。

我们前面讲到t检验家族有多个成员，包括单样本 t 检验，成对样本的t检验和独立样本的 t 检验。这些t检验成员都有非参数检验的「对应版本」：

单样本 t 检验和成对样本的t检验对应于威尔科克森符号秩检验，以下简称符号秩检验；

独立样本的 t 检验对应于曼-惠特尼U检验（也叫做曼-惠特尼秩和检验），下面简称秩和检验。

我们先从一个例子开始了解非参数检验的概念。

假设我们需要比较两个班级同学的身高，让这两个班同学混在一起从矮到高排队，如果一班的同学大多排在前面，二班的同学大部分站在后面，直观我们会认为一班的同学比二班的矮。相反，如果每个班的同学都均匀地分散在队列里面，我们会推断两个班的同学身高没有太大差异。

非参数检验就是运用了这种推理，定量地计算出，当原假设成立时，观察到数据特定排列顺序的概率。

秩和检验是非参数检验中，用来比较两个独立样本数据的检验方法。秩和检验用U统计量（下面会有解释）来检验原假设：两个样本（比如两个班级同学的身高）来自同一分布。假设一班有n₁个同学，二班有n₂个同学，两两 PK共有n₁ n₂种组合， U统计量表示一班获胜的次数。不难发现，当一班所有人都比二班的任何人高时，U取最大值n₁ n₂；当一班所有人都比二班矮时，U取最小值0。

有爱钻牛角尖的同学可能会好奇，如果是平局该怎么办。因为身高是连续变量，理论上不可能有完全相等的情况，但是如果是其它离散形的变量，有可能出现平局的情况，则算为 0.5，加到 U 中。

在这个例子中，如果原假设成立，即两个班级同学身高分布相同，那么随机从每个班中抽取一个同学进行身高 PK，一班获胜的概率应该接近二班获胜的概率，这时U统计量应该接近（想想看为什么？）。

事实上，当样本量比较大的时候，U统计量会趋近以为中心的正态分布。而当U统计量过于接近最大值或者最小值时，说明两两 PK中，有一个班经常获胜，那么原假设成立的可能性就比较小（如下图）。

为什么像秩和检验这样的非参数检验，能够适用于非正态分布的数据呢？

原因在于，检验统计量U的分布，并不依赖于被比较的数据本身的分布特性。只要两个样本的抽样是独立的，在两个样本来自同一总体的原假设下，不管总体长什么样，U的分布都只由n₁和n₂的值决定。相反，在t检验中，统计检验量z的分布是建立在总体服从正态分布这一前提上的。

大家可能会好奇，秩和检验的名字是如何来的。数据点在样本中的排名就是“秩”。将数据从小到大排列，最小的数据点秩为 1，第二小的数据点秩为 2，以次类推，最大的数据秩最大，为数据点的数量。因此虽然听起来很深奥，「秩」对应的概念很直观。实际计算中，秩和检验先将两个样本放在一起排列得到每个数据的秩，通过对一组数据的秩求和，而快捷地计算出 U 统计量，所以名字直接也解释了秩和检验的含义。

通过了解秩和检验的原理，你会发现秩和检验相对于t检验有一个特点：秩和检验并没有用到一个数据的绝对数值，而只用到了数据的相对大小——秩。在比较两个样本时，只要保持每个样本的秩不变，改变单个数据完全不影响秩和检验的结果（如下图）。举个极端的例子，让身高最矮的同学的身高再减小50cm或者让身高最高的同学增加50cm不会改变秩和检验的p值，因为秩并没有受到影响。这体现了利用秩的非参数检验的一大优点：结论不会受个别极端数据值干扰。

与t检验比较，秩和检验的另一大优点，是不要求数据是连续的，而只要求数据有序。

有序就是两个数据能够比较大小。连续的变量（例如身高体重）是有序的，有一些离散的变量也可以是有序的，称为定序变量。生活中我们常常遇到定序变量，比如咱们打完客服电话，常常被问到是不满意，满意，还是非常满意，我们反馈的满意程度就是定序变量。

当我们要比较的两组数据是定序变量时，t检验就无法派上用场了。定序变量两个相邻等级之间的距离并不是固定的，比如「非常满意」和「满意」之间的差距，与「满意」和「不满意」之间的差距。比较两组不同客户的满意程度是否不一样，就只能用秩和检验而不是t检验。

再举一个大家很熟悉、但迷惑性更强的例子，比如疼痛评分中，让病人用等级1-10描述自己的疼痛程度，这时疼痛数据虽然是用数字表示，但还是属于定序变量，并不能使用t检验。

根据上面的讨论，在比较两个独立样本数据的时候，非参数检验家族中的秩和检验似乎完爆独立样本t检验：首先，秩和检验并不要求数据正态；第二，秩和检验还适用于代表等级的定序变量；第三，秩和检验的结果较少的受到极端值的影响，因此比t检验更稳健。

既然如此，咱们前面的t检验不是白学了吗？非也非也，t检验应用如此广泛自然有它的优势。

首先，如果数据确实来自正态分布的总体，如果用了秩和检验而不是t检验，会降低统计功效，即实际上有显著差异的两组数据更容易被误判为没有差异。换句话说，同一组数据，用t检验得到的p值，往往比用秩和检验得到的p值小。当然，如果数据并不符合t检验的前提，也不能只是因为p值较小而使用t检验。

t检验的另外一个优点是直接检验两组数据的均值是否相等，因此结果有着直观的解释，而秩和检验是检验一组数据大于另外一组数据的概率是不是大于0.5，这并不直观。只有当被比较的两组数据的分布形状完全一样而只是差一个平移的情况下，秩和检验才能等价于检验两组数据的中位数是否相等。从某种意义上，相对于t检验，虽然秩和检验的前提条件少了，但是得出的结论也更模糊，果然天下没有免费的午餐啊。

注：文中图片为作者自绘。

来源：微信公众号协和八（ID：pumc08）编辑：灯盏细辛本文由协和八授权发布

作者：张之昊，2005年进入清华－协和临床医学八年制专业，后转入清华生物系获理学学士学位。2010年起在耶鲁大学跨院系神经科学项目攻读哲学博士学位，利用功能核磁共振技术与计算建模研究人类经济决策的脑科学基础。同时，还作为耶鲁大学StatLab统计咨询师为耶鲁师生提供数据分析、实验设计及统计学软件的咨询服务。

本文为特邀专栏文章，来自：协和八，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/20666.html 。