摘要:介绍线性关系的两个变量,可以通过回归分析(最小二乘法)得到带有回归参数的回归方程,通过回归方程,当已知自变量的值时,预测相应的因变量的值。

基础准备

  • 文章:一元(简单线性)相关分析与回归分析;

介绍线性关系的两个变量,可以通过回归分析(最小二乘法)得到带有回归参数的回归方程,通过回归方程,当已知自变量的值时,预测相应的因变量的值。假设得到的一元(简单线性)回归方程如下:

小白学统计(71)回归参数的区间估计-数据分析网

回归分析结束了吗?其实还没有。因为计算得到的回归系数是根据样本数据计算的点估计值,如果收集的样本数据不同,则求得的回归系数的数值也会不同。因此,如果为避免样本数据产生的误差,可以对它们进行区间估计。(区间估计请回顾:估计理论:详述总体均值的单样本估计原理)

区间估计

总方差值

首先引入一个总方差值,它的计算公式及注释如下:

小白学统计(71)回归参数的区间估计-数据分析网

回归系数的均值与方差

小白学统计(71)回归参数的区间估计-数据分析网

回归系数的方差推导过程略过不表。

回归系数的置信区间

对回归系数进行区间估计,需要知道它们服从什么概率分布。因为假设了所有的变量(X和Y)都服从正态分布,而回归系数与变量Y是线性关系,所以回归系数也服从正态分布。由于总体方差不得而知,此时t分布适用,所以,回归系数的置信区间为:

小白学统计(71)回归参数的区间估计-数据分析网

因变量Y的置信区间

小白学统计(71)回归参数的区间估计-数据分析网

范例分析

某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将近10年的数据列于下表。请根据数据建立回归方程,计算回归参数95%的置信区间。当工业总产值为500亿元,置信度为0.95时,预测货运总量的双侧置信区间。

小白学统计(71)回归参数的区间估计-数据分析网
解:1、回归分析:应用Excel画出散点图、添加趋势线,并得到回归方程和相关系数,过程略。

小白学统计(71)回归参数的区间估计-数据分析网

2、回归系数置信区间

小白学统计(71)回归参数的区间估计-数据分析网

3、货运总量置信区间

将工业总产值500亿元带入回归方程,得到货运总量为4.3949;利用公式计算货运总量的95%置信区间;

小白学统计(71)回归参数的区间估计-数据分析网
即当工业总产值为500亿元时,预测该市货运总量在3.9801亿吨至4.8057亿吨之间,概率为95%。