小白学统计（36）样本容量的确定—总体均值的样本容量确定

在抽样之前，确定适当的样本容量是必须的。因为样本容量直接影响到抽样的误差大小以及抽样费用的多少。如果样本容量较大，就会减少抽样误差，提高估计总体参数的精度，但是抽样的费用就会相应增加；反之，样本容量较小，抽样费用可以降低，但抽样误差就会增大。所以，在抽样之前必须确定一个适当的样本容量。

所谓适当的样本容量，就是指能够满足研究者对抽样误差要求的应抽取的最少样本单位。这里所说的抽样误差是指由于被抽取样本的代表性所产生的误差，具体是指样本统计量的实际数值与总体参数之间的差值。例如，`X表示一个实际的样本均值，表示总体均值，则`X－就是抽样误差。一般意义上，我们用Δ_`_X表示总体均值允许的抽样误差，Δ_`_p表示总体成数允许的抽样误差，即有|`X－|＝Δ_`_X，|`P－p|＝Δ_`_p。根据抽样误差的定义可知，抽样误差的值可正可负，实际是指围绕总体参数左右波动的范围。

在确定样本容量时，需要考虑以下因素的影响：

（1）总体中变量值的离散程度大小。在相同条件下，离散程度越大，则需抽出的样本容量就越多。一般用总体标准差表示离散程度的大小。

（2）置信度1－α的大小。置信度越高，需抽出的样本容量就越多。反之，则越少。

（3）允许的抽样误差大小。研究者如果能够允许较大的抽样误差，则可以减少抽样的数目，降低精度；如果研究者要求的抽样误差较小，则必须增加样本抽样数目。

估计总体均值时的样本容量

如果抽样的目的是为了估计总体均值的置信区间，则在给定Δ_`_X和置信度1－α的条件下，可用

在上面公式中，都含有总体标准差σ。如果σ已知，则可带入公式计算。如果σ未知，则可按以下方法近似确定σ值。

（1）用以前类似研究的数值最大的样本标准差代替，这样可以使n较大。

（2）做一次试点调查，用调查所得的样本标准差代替σ。

（3）对σ进行最优估计。如已知变量的极大值和极小值，可以用极值差除以4作为σ估计，即σ＝(X_max– X_min)/4

这样估计的理论基础是，如果总体是正态分布，则约有95.45%的概率保证变量值是在的±2σ范围内，也即4σ范围。当然，理想的情况是变量值在±3σ范围内，也即6σ范围内，此时概率为99.74%。但是，在实践中，很少有这样完美的分布。所以，使用4σ比较合理。

例：假设我们要估计一家化工厂某种产品的平均日产量，已知日产量变动的标准差为±2t。如果要求估计平均日产量的置信度为95%，估计允许的误差为0.5t。求应抽取多少工作日进行调查？

解：本例是估计时确定n的问题。已知总体是无限的，所以可以用公式计算。σ＝±2t，Δ_`_X＝0.5t，1－α＝95%，查正太分布表，得Z_α/2=1.96。将这些数据带入公式

由此可见，误差减少一半，n将是原来的4倍。这说明在置信度1－α不变时，若要提高抽样的精度，则必须付出增加费用的代价。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

小白学统计（36）样本容量的确定—总体均值的样本容量确定

你可能也喜欢这些文章