小白学统计(72)一元(简单线性)回归方程的假设检验

基础准备

回归与相关分析的历史文章:

  • 相关与回归分析基础;
  • 一元(简单线性)相关分析与回归分析;
  • 回归参数的区间估计;

上面文章介绍了简单线性相关与回归分析的两个主要模块:回归方程建立及回归参数的区间估计,但是它们都是建立在假定因变量和自变量线性相关的基础上。因此,对相关程度进行检验也是重要的,相关程度的检验方法主要有三种:

  • 相关系数的检验
  • 回归方程的检验
  • 回归系数的检验

相关系数的检验

变差关系

先来一张图:

如上图所示:当给定X0时,Y的实际值与均值的差值就是Y值随X值的全部变化,称之为总变差。在总变差中,一部分变差可以用设定的回归方程解释,称之为回归变差;另一部分变差是回归方程不能解释的,称为剩余变差,它们之间有下面等式:


如果在总变差Y中,回归变差所占的比例越大,则说明Y值随X值的变化越显著,或者说X解释Y的能力越强。反之,回归变差在总变差中所占比例越小,则说明Y值随X值的变化越不显著,或者说X解释Y的能力越差。

对于所有数据点,变差之间的关系可以用离差平方和表示:


它们从左到右分别称为:总离差平方和、剩余平方和和回归平方和。

决定系数与相关系数

回归变差所占的比例越大,则说明Y值随X值的变化越显著。利用回归平方和与总离差平方和的比值来说明X与Y的相关性,称为决定系数,即有:


决定系数的开方被称为相关系数,前面介绍过相关系数r(Excel数据分析工具:协方差与相关系数),计算公式为:

两者的计算结果是完全一致的。

相关系数与决定系数都能表示变量之间的线性相关程度,但是相关系数计算更简便且能表示相关关系的方向。

相关系数的检验

当已求得r值时,这个r值是真正刻画了两个变量之间的线性关系呢,还是仅仅由于样本的偶然相关而引起的?仅凭相关系数的大小,不能直接说明变量之间是否存在线性相关,通过对r的检验,确定样本是否抽自一个总体相关系数为0的总体,可以解答这个问题。可以证明r的t统计量服从自由度为n-2的t分布:

范例分析

某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入下表中,根据这些数据对回归方程相关系数r在显著水平0.05做双侧检验。


解:运用Excel对数据进行回归分析,得到回归方程和决定系数R平方;


决定系数为0.9149,相关系数r=0.9565;相关系数r的假设检验过程如下:

回归方程的检验

对回归方程进行显著性检验,就是看自变量从总体上是否对因变量有明显的影响。有回归方程y=a+bx,如果b=0,则Y等于一个常数a,X与Y没有任何关系,故方程不存在。如果b不等于0,则Y随着X的变化而变化,说明方程有意义。

为了对b=0进行检验,需要构造一个检验的统计量。可以证明:在一元线性回归中,当b=0时,有以下结论:

范例分析

某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入下表中,根据这些数据对回归方程在显著水平0.05做单侧检验。

解:运用Excel对数据进行回归分析,得到回归方程和决定系数R平方;

回归系数的检验

上面回归方程的检验是利用b=0时,回归方程的特性建立F统计量,进而进行假设检验。也可以构造另一个统计量t,如下:


利用上述t统计量即可对b进行假设检验。

范例分析

再次使用上面的例题:某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入表8-1中,根据这些数据对回归系数b在显著水平0.05做双侧检验。

解:运用Excel对数据进行回归分析,得到回归方程和决定系数R平方;

三种检验方法虽然各有侧重,但在一元线性回归方程的检验中,三种检验的作用是相同的,因此对于一元线性回归方程而言,只要选择一种方法进行检验即可。

注:数据分析网遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏,请联系主编邮箱:afenxi@afenxi.com

生活统计学
认证作者

1、让统计知识通俗、生活化。 2、分析软件使用简化工作。 3、书籍资源快乐分享。微信公众号:SPSS生活统计学,更多精彩内容请关注“SPSS生活统计学”微信公众平台。

分享到:更多

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址