说人话的统计学：做统计，多少数据才算够？（下）

上次我们讲到，要在做研究之前对需要多少数据或样本作个估计，需要用到统计功效（statistical power）这个概念。

并且，我们通过用罩杯大小鉴别男女和格格巫找东西这两个故事进一步阐述了一条基本原理：统计功效（1-β）由(标准化的)效应大小(或称效果量, ES)数据量（N）显著性水平（)这三个因素共同决定。

换言之，要计算所需的数据量，我们需要确定——显著性水平、希望达到的统计功效大小、和效应大小。

决定数据量的几个因素有了这一条，我们要做的事情可就简单多了。

我们先来看看：显著性水平

可是我们的老熟人了，它是一道门槛儿，为我们把关什么结果才算具有统计学意义上的显著性。

如果p值小于我们事先规定的，则称结果显著，拒绝原假设；

如果p值大于，则结果不显著，不能拒绝原假设。

从另外一个角度看，也是在大量重复实验时我们能承受的第一类错误的概率的上限（还记得“罩杯鉴男女”故事里对应着什么吗？）。

大家都知道，最常用的的数值是0.05。为什么现在人们都爱用0.05，我们在本专栏第一集《你真的懂p值吗？》中有过简单的讨论。

当然，在实际的研究工作中，的选择也不完全是一成不变的。

在某些领域或话题的研究中，由于犯第一类错误的成本很高（比如说某些新药的研发或影响面很广的政策的制定），因此人们希望更加保守一些，除非有非常强的证据，不要轻易作出某种效应或差异存在的结论。这时，我们可以选择更低的（比如0.01、0.001等），从而要得到具有显著性的结果也就更不容易了（想想在其他因素不变的情况下这意味着统计功效是降低了还是提高了？）。

相反，在某些研究中，研究者感兴趣的效应很小，或者技术条件受到限制，有时则可以把显著性水平稍稍放宽一些（一般为0.1，大于0.1的情况非常少见）。我们偶尔能在科学文献中看到作者汇报p值大于0.05但小于0.1的结果，一般称这样的结果“趋向统计学意义上的显著性”，实际上就是放宽了。尤其在一些比较新颖的、开创性的研究中，出于鼓励和激发后续研究的目的，这样的做法具有一定的合理性。

那么，选择不同数值对于数据量N有什么影响？

不难想象，固定另外两个因素效应大小和功效，越小，所需的N也就越大，反之亦然——对显著性水平要求越严格（越小），我们就需要更多的数据，才可能更多地消除随机因素的影响，得到显著的结果。

说完了，我们转向决定数据量的第二个因素：统计功效（1-β）

回顾统计功效的定义，它指的是，如果我们感兴趣的效应或差异真实存在，在特定的显著性水平的规定下，我们正确地拒绝原假设（即从数据中得到具有统计显著性的结果）的概率。

简单粗暴地说，这可就是在我们实验假设正确的情况下研究获得成功的概率，那么我们当然想让它越高越好了。那咱们贪心点儿，让功效为1好不好？很遗憾，这是不可能的。

统计功效1-β里头的这个β正是我们上次说过的第二类错误率。在罩杯故事里我们说过，两类错误是此消彼长的，要是β为0，那第一类错误率就惨不忍睹了。

通常学术界在功效分析中，都把统计功效设定在0.8到0.9之间。

为什么呢？

与的0.05一样，这是几十年来大家约定俗成的经验准则，并不是算出来的一个确切的数。

当然了，它也不是毫无道理的——0.8到0.9的功效对应了0.1到0.2的第二类错误率β，与第一类错误率=0.05是2到4倍的关系。

也就是说，在这样的规则下，我们对第二类错误要比第一类错误要宽容一些。这是符合学术界保守谨慎的传统的：相比起“放过”（第二类错误），人们更不希望“杀错”（第一类错误）。

统计功效和数据量的关系也很简单明了——显著性水平和效应大小不变时，需要达到的统计功效越高，所需的数据量则越大。

估计效应大小的方法

解决了显著性水平和功效，现在我们来啃一啃效应大小（效果量）这块硬骨头。

效应大小是一个抽象的概念，它在数学上到底是什么形式取决于具体的统计测试。

比如说，

相关分析、t检验、卡方检验的效应大小分别是：

相关系数、均值差、OR值（比值比）。

（这些我们都会在以后的文章中深入讨论）效应越大，就越容易在研究中表现出来，亦即所需要的数据量越小，反之亦然。

真实的效应大小在某种意义上说我们是永远无法知晓的，即使经过了大量研究，我们也只能不断接近真相。而在功效分析估计数据量时，我们连研究都还没开始做呢，那怎么办呢？

一个字：猜！

当然啦，我们都是受过严格训练的科研工作者，瞎猜这种逼格这么低的事儿我们是不会干的。

最常用的估计效应大小的方法有两种：

1，先使用少量受试者或样本进行试点研究，用获得的结果作为功效分析中的效应大小的值。这是最直接的估计效应大小的方法。容易想到，试点研究的样本量越大，研究设计与将来要进行的实验越接近，对效应大小的估计就会越准确。2，如果由于条件限制，无法进行试点研究，我们可以采取“旁敲侧击”的方式——对与计划进行的研究话题、方向、对象相近的已发表的研究进行全面细致的回顾，合理推算将要进行的研究可能获得的效应大小。毫无疑问，这种方式有一个软肋：已有的研究不可能与我们将要进行的研究完全相同，因此难免会有无法精确控制的偏差；而且，到底哪些研究算“相近”，存在着相当多的模糊性。但是尺有所短寸有所长，利用相近研究估计效应大小往往能够综合来自大量样本的结果，比起试点研究又有着独特的优势。近年来，利用规范、系统化的检索标准和严格定量的统计学方法对大量已发表研究的结果进行整合的“荟萃分析”（meta-analysis，又译为“元分析”、“整合分析”等，这也将是未来我们将详细讲解的话题之一）得到了越来越广泛的应用，它能够为功效分析提供更准确、更可靠的效应大小估计。使用G*Power进行统计功效分析许多流行的统计学软件（如SAS、SPSS、R等）都有利用功效分析来估计数据量的模块，也有其他一些单独的功效分析软件（如G*Power和PASS）或网站。在这里，我们为大家介绍G*Power的基本用法。为什么选择G*Power呢？

一、来它使用简易且功能强大，覆盖了几乎所有常用的统计学检验；

二、来不论你是使用Windows的普通青年还是使用Mac的文艺青年，都可以使用它。最重要的是，它是免费的！

要下载G*Power安装包，可以登录官方网址http://www.gpower.hhu.de/en.htm

安装完成后，打开软件，你将看到如下界面：

这个界面就是按照功效分析的一般步骤设计的。

首先，我们需要根据我们想要研究的问题和数据类型确定将要使用的统计测试。

在G*Power界面中部，左边有Test family下拉菜单，可根据测试的统计量选择测试的大类（如t检验、F检验、卡方检验等）。

而右边的Statistical test则是在已选的大类下选择具体的测试（如t检验中包含单样本检验、成对样本检验、独立样本检验、非参数检验等）。

在这两个菜单下面，我们需要进一步选择我们想进行哪一类功效分析：今天我们讨论的是在研究开始前估计样本量，因此应当选择“事前”（A priori）。

在这之后，剩下的就是在“输入参数”（Input parameters）栏里选择单侧或双侧检验和输入我们之前讨论过的三因素：效应大小ES、显著性水平和效能1-β了。

我们说过，不同的统计学检验对应着不同的效应大小的具体定义，如果我不知道或者忘记了当前的检验应该用哪个量做效应大小怎么办？

贴心的G*Power提供了根据样本的描述性统计量自动计算效应大小的功能。

就以一个简单的统计学检验——单样本t检验（这个检验用来考察样本的平均值是否与一个特定常数有差异）——为例。在选定了t检验下的“平均值：与常数的差异（单样本情形）”（Mean: Difference from constant (one sample case)）之后，点击Effect size左边的Determine按钮，我们将会在主界面旁边看到一个新的小界面：

在这个界面中，我们将填写手头上样本的一些信息（具体需要哪些信息随检验不同而不同），供G*Power计算效应大小。

在这个例子中，我们需要填入的有：原假设H0下的平均值（也就是要被比较的那个常数）、备选假设H1下的平均值（即估计将获得的样本平均值）和预计样本的标准差。

假设我们的原假设常数是0，并且通过试点实验确定了样本平均值和标准差分别为2和4，那么在填写完毕后，点击Calculate按钮，我们便可得知效应大小是0.5（在这里，效应大小实际上就是样本均值和标准差的比值）。更方便的做法是，直接点击Calculate and transfer to main window，计算出的效应大小将被直接填写到主界面上。如果我们分别将显著性水平和效能1-β设定为0.05和0.9，并选择双侧（two-tailed）检验，点击主界面右下角的Calculate按钮，就会在右边“输出参数”（Output parameters）栏中得到样本量计算结果：

由此我们得知，在以上条件下，要获得0.9的统计功效，我们需要的最小样本量是44。

在计算完毕后，如果点选上方的“功效分析流程”（Protocol of power analysis）标签页，我们可以看到软件自动记录的所有参数及计算结果，并可以方便地输出保存或打印。

另外，G*Power还有一个十分强大的功能，就是对一系列（而不是像之前的例子一样的单个）参数值的组合绘制图表，这一功能可以从右下方的X-Y Plot for A Range of Values按钮开启。比如说，在刚才的例子中，如果我们想了解当效应大小从0.3变化到0.7、统计功效从0.6变化到0.95时所需要的最小样本量的变化，我们可以用G*Power作出下面这张图：

在上图中，纵坐标轴是样本量，横坐标轴是统计功效（1-β）。每一条曲线是在特定的效应大小之下所需样本量随统计功效从0.6增长到0.95时的变化，而不同的效应大小（0.3, 0.4, 0.5, 0.6, 0.7）则由不同颜色的曲线表示（见右侧的图例）。我们可以看到，在统计功效不变时，效应大小越大，所需样本量越小；而在效应大小不变时，统计功效越高，所需样本量越大。这完全印证了我们之前的结论。

至此，我们已经完成了对功效分析和样本量估计的基本原理的讨论。在后续的文章中，当我们讲到具体的各个统计学测试时，我们还将为大家指出对特定的测试进行功效分析的细节问题，以及在G*Power软件上的实际操作。

参考文献

Bausell, R. B., & Li, Y. F. (2002). Power analysis for experimental research: a practical guide for the biological, medical and social sciences. Cambridge University Press.
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175-191.

来源：微信公众号协和八（ID：pumc08）编辑：粉条儿菜本文由协和八授权发布

作者：张之昊，2005年进入清华－协和临床医学八年制专业，后转入清华生物系获理学学士学位。2010年起在耶鲁大学跨院系神经科学项目攻读哲学博士学位，利用功能核磁共振技术与计算建模研究人类经济决策的脑科学基础。同时，还作为耶鲁大学StatLab统计咨询师为耶鲁师生提供数据分析、实验设计及统计学软件的咨询服务。

本文为特邀专栏文章，来自：协和八，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/23249.html 。