1. 数据分析网首页
  2. 大数据
  3. 统计学

小白学统计(60)非参数方法:卡方检验的运用

非参数方法不是关于总体参数的估计和假设,而是通过样本信息来检验未知总体是否为某一种分布(正态分布,均匀分布或任意分布)。

基础准备

  • 单样本估计和假设检验:估计理论:详述总体均值的单样本估计原理;不同条件的总体均值单样本估计方法总述;假设检验的“前世今生”;单样本的假设检验;单样本假设检验范例分析及违背假定的情况;
  • 两样本估计和假设检验:两样本估计和假设检验基础;两样本估计和假设检验范例分析
  • 多样本估计和假设检验:多样本的参数估计与假设检验基础;
  • 卡方检验:正态分布的卡方检验;独立性的卡方检验;多项分布的χ2检验;一致性的卡方检验;

非参数方法与参数方法

前面介绍的单样本、两样本和多样本的参数估计和假设检验都是在一些假定条件下(例如:正态总体,总体方差已知,样本容量大于30等),运用样本信息对总体参数(例如:均值和方差)进行估计和假设检验。

非参数方法不是关于总体参数的估计和假设,而是通过样本信息来检验未知总体是否为某一种分布(正态分布,均匀分布或任意分布)。

非参数方法原理

非参数方法是通过对比样本的频数与期望频数(目标分布的频数)的差距来判断抽取样本的总体分布是否为目标分布。

非参数方法主要有两种:卡方检验和秩次检验。今篇介绍卡方检验的应用。

卡方检验

卡方统计量

在参数估计和假设检验中,介绍过卡方检验可以用来对总体方差进行区间估计和假设检验(抽样分布:卡方分布),这是运用了卡方分布的统计量:

小白学统计(60)非参数方法:卡方检验的运用

非参数方法卡方检验的卡方统计量:

小白学统计(60)非参数方法:卡方检验的运用
当观测频数接近于期望频数时,该检验统计量的抽样分布近似于自由度为v的单参数的卡方分布。同参数方法一样,当自由度小于10时,卡方分布向右偏斜,而当自由度增大时,卡方分布渐进于正态分布。

卡方检验步骤

由总体的随机样本得到观测值,由所假设的总体分布算得期望值,最后由上面的卡方统计量算出卡方值。观测频数与期望频数的差越大,卡方统计量值也越大,将该值与卡方分布的值比较来确定一个卡方统计量取该值的概率,当该值大于某显著水平和自由度下的卡方分布临界值时,拒绝原假设。

三个运用

非参数方法卡方检验的三个运用:拟合优度,变量的独立性和比率的齐性。

拟合优度的卡方检验:检验单个变量的k类频数的分布是否与理论分布相同。

独立性的卡方检验:判断两个变量是相互独立,还是相互关联的。

k个二项比率齐性的卡方检验:检验k个总体的二项比率是否相同。

运用范例分析

卡方拟合优度检验

一位历史学教授从周一到周五每天都给某个大班讲课,想知道每天的出席率是否相同,他检查了一周内每天学生出席人数,结果发现:星期一出席283人,星期二出席332人,星期三出席360人,星期四出席307人,星期五出席243人。给定显著水平为0.05,利用临界值决策规则,判断出席人数是否服从平均分布(即每天的出席人数均相同),做卡方检验。

基础准备:均匀分布回顾:通俗归纳连续型概率分布;题中变量为每天的出席人数;自由度为5-1=4(周一到周五)。
小白学统计(60)非参数方法:卡方检验的运用

独立性的卡方检验

两个变量的独立性检验需要用列联表分析(回顾:独立性和一致性的卡方检验—列联表分析方法):一个变量的类按列排列(r),而另一个变量的类按行排列(c),大小为r*c;列联表给出两个变量类的同时也给出了观测频数和期望频数;期望频数来自边际频数(可以简单理解成按比例分配),求解公式如下:

C” />

例如下面例题中青年人和蓝色交叉的格子,期望频数为180*200/500=72。

范例:某汽车厂家想知道顾客的年龄是否会影响其所购车辆的颜色,随机抽取500名购车者,记录下它们的年龄和所购车辆的颜色(蓝、红、白、黑),他将年龄分成三类:青年人(低于30岁),中年人(30到50岁),老年人(50岁以上),结果如下表。给定显著水平0.05,利用临界值决策规则,对零假设:所购车的颜色与顾客年龄独立,做卡方检验。

小白学统计(60)非参数方法:卡方检验的运用
小白学统计(60)非参数方法:卡方检验的运用

二项比率齐性的卡方检验

贝努里试验(回顾:离散型随机变量概率分布— —二项分布)只有两个可能的结果:成功与失败。二项比率是一系列贝努里试验中成功或失败出现的比率。二项比率齐性的卡方检验就是验证k个总体的二项比率是否相同(例如:试验的不同温度对试验结果成功与否是否有影响的检验)。

范例:一个棒球帽的营销者想知道他在棒球比赛时的潜在市场是否随赛季的进展而变化,他随机抽取100人,在5月,6月、7月、8月、9月他们进入棒球场地时,记录下它们是否戴棒球帽,结果发现戴棒球帽的人数分别是:59,61,65,68,47。给定显著水平0.01,利用临界值决策规则,对零假设:戴棒球帽的人数比例不随季节中月份的变化而变化,做卡方检验。

小白学统计(60)非参数方法:卡方检验的运用

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

联系我们

如有建议:>>给我留言

QR code