小白学统计(50)假设检验时,样本容量的确定

如果统计量的数值落在接受域内,则作出的结论可能犯“取伪”错误,而且犯“取伪”错误的概率β是不可知的。

如果统计量的数值落在接受域内,则作出的结论可能犯“取伪”错误,而且犯“取伪”错误的概率β是不可知的。但是,在实践中,有些决策既需要控制犯“弃真”错误的概率α,也需要控制犯“取伪”错误的概率β。在这种情况下,可以通过样本容量的改变来满足这种要求。

例如,我们假设

H0:μ=μ0;H1:μ>μ0

如果σ已知,n为大样本(或正态总体),则可以确定

2016100801

上式即为在α和β都确定后的样本容量计算公式。在使用上式时还需注意,当假设为H0:μ=μ0; H1:μ<μ0时,上式中的分母为(01)2,其值与(10)2相等,因此n不变。当假设为H0:μ=μ0; H1:μ≠μ0时,公式中的Zα用Zα/2代替。

2016100802

下面我们通过一个例题来说明n的确定方法。

例题:有人说某学院学生平均每天的锻炼时间至少30min。随机在该学院中选取100名学生,他们每天平均的锻炼时间为31min,已知学生锻炼时间的标准差为12min。试在α=0.05的显著性水平下,检验该人的说法是否可信。

解:本例是对总体均值的单侧检验问题。

根据题意假设

H0:μ=30; H1:μ>30。

已知n=100为大样本,样本均值为31min,标准差为12min,根据上式可以构造统计量,即

2016100803

查标准正态分布表得Z0.05=1.64。所以Z=0.833落在接受域内。即接受原假设,拒绝备择假设,此人的说法不可信。

上面这个例子中的结论有可能犯“取伪”错误,即真实的运动时间已经超过了30min,但却没有得到证明。现在我们来重新对上例进行检验。仍然假设H0:μ=30; H1:μ>30,给定α=0.05。β也可同时给出,但β是与真实的总体的均值联系在一起的。因此当我们无法知道真实的总体均值时,可以逐一假设真实总体均值,从而得出不同的β值。在本例中,先假设真实总体的均值μ1=33min。首先有公式计算:

2016100804

由标准正态分布表中可查到临界点0.86到0点的概率为0.3051.所以由-0.86到-∞的概率为β=0.5-0.3051=0.1949。

依此类推,可以通过计算得到在不同假设真值μ条件下的β值。如下表所示:

μ值zβ1-β
30.11.5560.94060.0594
310.80660.7910.209
32-0.030.4880.512
33-0.860.19490.8051
34-1.6930.04550.9545
35-2.5260.00570.9943

上表中的1-β表示原假设不真时,被拒绝的概率;1-β也称为功效函数。可以看到,当μ值离30很近时,1-β值很小,并且以原假设的30为极限;当μ离30较远时,1-β值逐渐增加。这就是说,如果真实的μ值离原假设的30相距不远时,犯“取伪”的错误的可能性是很大的;反之,相距较远时,则犯“取伪”的错误的可能性就很小。本例中当μ1=35时,β=0.0057,即取伪的错误概率只有0.57%,几乎不可能发生。

根据给定α以及确定样本容量n以后,就可以知道在不同真实总体均值的情况下,β值的大小。在上表中,当μ1=33时,β=0.1949。但如果在检验中,我们希望μ1=33时,犯“取伪”错误的概率β=0.1,而不是0.1949。就是说在检验时,如果学生锻炼时间是33min,那么检验者只想冒β=0.1的风险接受H0为假时的假设,而不是β=0.1949。对此,只能通过调整样本容量来完成。如检验前确定α=0.05,μ1=33时,β=0.1,则根据公式计算n,即

2016100805

即满足上述要求的样本容量是137人,比原来调查的100人增加了37人。

有本例可以看到,当n一定时,α增大,β将减小;α减小,β将增大。当α一定时,n增大,β将减小;n减小,β将增大。所以,在实际检验中,当n一定时,研究者并不是选择很小的α。因为这样的选择虽然可以使“弃真”错误减少,但同时也增加了“取伪”错误的概率。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

返回顶部