1. 数据分析网首页
  2. 大数据
  3. 统计学

小白学统计(61)多项分布的卡方检验

在二项分布试验中,每次试验的可能结果只有两个:成功或失败。

小白学统计(61)多项分布的卡方检验

我们知道在二项分布试验中,每次试验的可能结果只有两个:成功或失败。现在将二项分布进行扩展,即在每次试验中可能出现的结果多于两个,对于实际结果多余两个的概率分布一般称为多项分布。多项分布试验的结果虽然有多个,但每次有且仅有一个结果发生,并且在每次进行相互独立的试验时,每种可能出现结果的概率都应保持不变。例如,企业按规模大小可以分为大型企业、中型企业和小型企业三种。我们在对企业进行研究时,如果每次调查是随机进行的,而且在大型企业、中型企业和小型企业每次出现的概率都相等,那么,这样的分布就是多项式分布。类似的问题还有,当我们对居民收入进行研究时,居民收入可以按高低分为高收入、中等收入和低收入三种。对国民经济进行研究时,国民经济也可分为农业、采掘业、制造业、建筑业等多个行业。在对上述的多项分布进行研究时,一般需要使用χ2统计量进行检验,这种检验也被称为χ2检验。下面我们通过一个例子来说明使用χ2检验的方法。

例题:某大型超市在去年全年饮料的销售中,A/B/C三种饮料的销售比例分别是58%,33%和9%。今年C品牌的厂家在进行了一系列的促销活动后,要求超市提供更多的货架位置以摆放更多的C品牌饮料。为此超市对C品牌促销活动后销售的270瓶饮料进行了统计分类,统计结果如下:A种150瓶,B种85瓶,C种35瓶。根据这样的数据,超市能否判断销售比例发生了变化?

解:本例中要检验的是个多项分布。顾客在购买每一瓶饮料时都相当于做一次试验,每次试验都有三种可能的结果:购买A品牌,购买B品牌或是购买C品牌。我们以PA、PB、PC是否发生了改变。对此问题,可以建立如下假设:

H0😛A=0.58, PB=0.33, PC=0.09;

H1:销售比例不是PA=0.58, PB=0.33,PC=0.09.

现在来分析在270瓶的销售中,A、B、C的销售比例是否与原假设相符。我们首先按原假设计算出270瓶中各品牌期望的销售数量,如下表

按原假设各品牌期望的销售量
品牌 原假设 期望的销售量
A 0.58 0.58×270=156.6
B 0.33 0.33×270=89.1
C 0.09 0.09×270=24.3

如果期望的销售量与实际的销售量相差不大,则说明销售比率没有发生变化,如果相差很大,就说明比率发生了较大的改变,对于这样多项差值的检验,可以构造χ2统计量,即

小白学统计(61)多项分布的卡方检验

式中:ni=第i类的实际频数,ei=H0为真时的第i类期望频数,k=类别总数。根据Pearson定理可知,当n充分大时,χ2~χ2 (k-1)。现将本例χ2统计量的计算过程列入下表中:

χ2统计量的计算过程
品牌(k) 原假设(H0) 实际频数(ni) 期望频数(ei) (ni-ei)2 (ni-ei)2/ei
A 0.58 150 156.6 43.56 0.278
B 0.33 85 89.1 16.81 0.189
C 0.09 35 24.3 114.49 4.711
合计 1.00 270 270 5.178

由上表的计算结果可知χ2=5.178。如果实际频数与期望频数差别较大,则χ2值应大于给定的χα2临界值。这时的拒绝域是χ2α2(k-1),这与第六章的假设检验有所不同。在本章进行检验时,虽然假设是双侧检验,但拒绝域却永远是右侧检验。本例中,如果给定的α=0.05,则查χ2分布表,得χ0.052(2)=5.991,将统计量的值与临界值进行比较,有χ2=5.178<5.991=χ0.052(2),落在接受域。所以接受H0,拒绝H1,即C品牌进行促销活动并没有使销售比例发生明显改变,由此超市可以拒绝C品牌提出的更多货架的要求。

χ2检验方法主要是用来检验频数问题的,即检验各类实际观察的频数是否显著不同于建设的期望频数。使用χ2检验需要满足以下的假定:

1、每次的试验是独立进行的;

2、如果试验有k个类别,那么每次试验的结果是k个类别中的某一个;

3、每次试验时每个类别发生的频率都保持不变。

为了满足上述的条件,在进行χ2检验时,应使试验次数n较大,且每一类别的期望频数都要大于等于5。如果在检验中期望频数小于5时,一般可以选择以下三种方法解决:

1、去掉期望值小于5的类别,这种方法会使研究范围减少;

2、增加试验次数n,也就是增大样本容量,使期望频数增加;

3、合并类别,将期望频数小于5的合并到相邻的类别中,使期望频数大于等于5;

这三种方法经常被使用,但要注意,合并之后的类别也要有意义。

χ2检验只适用于频数检验,而不适用于比率的检验。例如,在上例中,如果超市实际销售的数量是2700瓶而不是270瓶,而销售比例仍然保持不变,即A种1500瓶,B种850瓶,C种350瓶。下面在α=0.05的显著性水平下,检验与上例相同的假设。

H0😛A=0.58, PB=0.33, PC=0.09;

H1:销售比例不是PA=0.58, PB=0.33,PC=0.09.

我们可以列出下表:

χ2统计量的计算过程
品牌(k) 原假设(H0) 实际频数(ni) 期望频数(ei) (ni-ei)2 (ni-ei)2/ei
A 0.58 1500 1566 4356 2.782
B 0.33 850 891 1681 1.887
C 0.09 350 243 11449 47.115
合计 1.00 2700 2700 51.784

从上表可以得到,因为χ2=51.784>5.991=χ0.052(2),所以落在拒绝域。因此拒绝H0,接受H1,即超市销售三种饮料的比例已经发生明显改变。

通过这两个例子的比较可以看出,虽然两种情况下的销售比例没有改变,但χ2检验的结果却截然相反。其主要原因就是各类别的频数发生了较大的变化,导致结论的相反。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

QR code