1. 数据分析网首页
  2. 大数据
  3. 统计学

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

均值的抽样分布类型

抽样分布的定义、作用和主要种类已经介绍过(回顾点击:通俗解释“大数据”及推断性统计学:抽样分布),本篇介绍均值的抽样分布。均值抽样分布根据样本量的情况分为均值的理论抽样分布和均值的经验抽样分布。

均值的理论抽样分布

通俗的解释:有总体N,每次从中抽取固定容量为n的样本并计算出该样本的均值,如果将所有可能抽取的样本列出,并计算均值,这些均值的频率分布就称为理论抽样分布。

均值的经验抽样分布

与均值的理论抽样分布不同,均值的经验抽样分布并没有抽取所有可能样本,并计算均值,将这样的部分样本均值的频率分布称为均值的经验抽样分布。随着样本个数逐渐趋近“所有可能样本”,均值的经验抽样分布越来越接近均值的理论抽样分布。

两个例子

例1:有数字总体:0,1,2,3,4;用有放回抽样得到容量为2的样本,所有可能的样本有5*5=25个(见表1,[(样本)均值]),这25个样本的均值出现概率(相对频数)就组成了均值的理论抽样分布(见表2);如果样本个数不足25个(所有可能样本),则称这样的样本均值出现频率为均值的经验抽样分布。

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

例2:有数字总体:0,1,2,3,4;用无放回抽样得到容量为2的样本,所有可能的样本有5*4=20个,其中一半(10个)与另一半仅仅是取值顺序不同(例如(0,1)和(1,0)),对均值的频数没有影响,所以所有可能样本为10个(见表3,[(样本)均值]),这10个样本的均值出现概率(相对频数)就组成了均值的理论抽样分布(见表4);如果样本个数不足10个(不考虑取值顺序),称这样的样本均值出现频率为均值的经验抽样分布。

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

均值的理论抽样分布参数特性(均值、方差和标准差)

1、均值理论抽样分布(所有抽样类型:无限总体抽样、有限总体有放回抽样和有限总体无放回抽样)的均值与总体均值相等,是无偏性的。计算过程简单,以例1和例2进行推导验证,结果都等于2;无偏性表达式:

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

2、均值的理论抽样分布的方差与总体方差有如下关系:

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

以例1和例2进行推导,过程如下:

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

3、从2中的方差公式可以得出:样本容量n越大,均值的抽样分布的方差(标准差)越小,样本均值作为总体均值的误差就越小,也就越精密。

中心极限定理

在假定抽样总体服从正态分布的条件下,可以证明,如果容量为n的所有的可能样本(理论抽样)取自正态分布总体,并且从每个样本计算出均值,则得到的均值的连续型理论抽样分布服从正态分布。(如果是离散型总体,则得到的均值的离散型理论抽样分布可以用正态分布拟合)

如果总体分布情况未知,或者总体具有偏态或多峰,不是正态总体呢

对于应用中遇到的所有这类总体分布,如果样本容量“足够大”,由此导出的均值的理论抽样分布可以认为近似服从正态分布,这是推断性统计学的一个重要定理——中心极限定理的基础。

证明过程可以参见上面的例1(有放回有限总体)和例2(无放回有限总体),总体(0,1,2,3,4)是离散型平均分布总体,不是正态总体,得到的均值的理论抽样分布可以用正态分布近似(见例1和例2柱型图);而且随着n增大,这种近似越来越好,见下图:

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

中心极限定理的表述

之前我们介绍过,可以将总体抽样类型分为:无限大总体抽样;有限总体有放回抽样;有限总体无放回抽样。总体抽样类型不同,中心极限定理的表述也不同。

1、有限总体有放回抽样

在数学上可以证明如果所有容量为n的随机样本,均有放回地取自容量为N,具有有限参数(μ,σ,σ2)的有限总体,并对每一样本计算出均值,则如果n足够大,均值的理论抽样分布近似服从有以下参数的正态分布

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

2、无限大总体(有放回或无放回)

在数学上可以证明如果所有容量为n的随机样本,均取自(有放回或无放回)一个有有限参数(μ,σ,σ2)的无限总体,并对每一样本计算出均值,则如果n足够大,均值的理论抽样分布近似服从有以下参数的正态分布

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

可以看出,有限总体有放回抽样和无限总体的理论抽样分布的参数关系式是一样的。

3、有限总体无放回抽样

中心极限定理同样适用于有限总体无放回抽样,不过和上面两种抽样情况有不同。表述为:在数学上可以证明如果所有容量为n的随机样本,均无放回地取自容量为N,具有有限参数(μ,σ,σ2)的有限总体,并对每一样本计算出均值,而且N至少为n的2倍(N≥2n),则如果n足够大,均值的理论抽样分布近似服从有以下参数的正态分布

小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

如果n≤0.05N,则不必适用有限总体的修正因子。

多大是“足够大”

在中心极限定理的三种形式中,均要求n“足够大”,均值的理论抽样分布近似服从正态分布。对“足够大”不存在绝对的统一规则。有两种情形:

1、如果已知总体是正态总体(或接近正态),所需的样本容量n则比较小,n=25或n=20的样本即足够大,可以使用中心极限定理。

2、对任何类型的总体分布,通常可接受的规则是:如果n≥30,即认为样本容量足够大,可使用中心极限定理。

所以,30常作为大样本统计和小样本统计的分界线。如果n≥30,则可以使用中心极限定理要求的大样本方法,如果n<30,则使用小样本方法。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

QR code