教学目的:1. 使学生理解随机变量与普通变量间的相关关系;
2. 使学生理解与间的一元线性回归模型;
3. 使学生掌握未知参数和的最小二乘估计方法;
4. 使学生掌握线性假设的显著性检验方法。
教学重点:使学生理解与间的一元线性回归模型,掌握未知参数和的最小二乘估计方法。
教学难点:使学生理解与间的一元线性回归模型。
教学时数:3学时。
教学过程:
第九章 回归分析
§9.1回归分析的基本概念
客观世界中普遍存在着变量间的关系,而变量间的关系一般可分为两类:确定性关系和非确定性关系。
确定性关系:可以用函数来表示的变量间关系。
非确定性关系:不能用函数来表示的变量间关系,也称为相关关系或统计关系。 如身高与体重之间的关系。一般来说,人高一些,体重要重一些,但同样身高的人,体重往往不相同。又如人的血压与年龄之间的关系,树高与生长时间之间的关系,商品的销售量与单价之间的关系等都是相关关系。
所谓回归分析是指通过试验和观测去寻找隐藏在变量间相关关系的一种数学方法,是研究变量间相关关系的一种有力的数学工具。
设随机变量(因变量)与普通变量(自变量)之间存在着某种相关关系,由于是随机变量,对于的各个取值,有它的分布,我们不妨用表示取确定值时,对应的的分布函数。可以想象如果我们掌握了随着取值的变化而变化的规律,那么就能完全掌握与之间的关系了,然而这样做往往非常复杂,甚至是不可能的。作为一种近似,我们转而去考察取确定值时的数学期望,若此时的数学期望存在,则其值随的取值而定,它是的函数。将这一函数记为,称为关于的回归函数。这样,我们就将讨论与的相关关系的问题转化为讨论与的函数关系问题了。
我们先看一个例子。
例1 为研究某一化学反应过程中,温度对产品得率的影响,测得数据如下:
| 温度 | 100 | 110 | 120 | 130 | 140 | 150 | 160 | 170 | 180 | 190 |
| 得率 | 45 | 51 | 54 | 61 | 66 | 70 | 74 | 78 | 85 |
由散点图大致可以看出与的相关关系可用线性函数近似地描述,其中为取确定值时的数学期望。
§9.2 一元线性回归分析
1.一元线性回归模型
设随机变量与普通变量间存在相关关系,且假设对于的每一个取值有
其中、及都是不依赖于的未知参数。记,则对做这样的正态假设,相当于假设
(1)
其中未知参数及都是不依赖于。(1)式称为一元线性回归模型,其中称为回归系数。
(1)式表明,因变量由两部分组成,一部分是的线性函数,另一部分是随机误差,是人不可控制的。
下面的任务是对、的估计。
2.参数、的最小二乘估计
取的个不全相同的取值,作次试验,得到样本
(2)
和样本观测值
(3)
把样本观测值(3)代入(1)得
而使
达到最小为原则对未知参数和的估计称为未知参数和的最小二乘估计,估计值记为和。这时称
为关于的经验回归方程,简称回归方程。其图象称为回归直线。
下面求未知参数和的最小二乘估计。
求的极值点有
得方程组
解方程组得唯一解
(4)
其中,和为未知参数和的最小二乘估计值,而
(5)
中的和为未知参数和的最小二乘估计量,。
回归方程也可写成,这表明,关于样本值的回归直线通过散点图的几何中心。
为了计算上的方便,我们引入记号
这样,和的估计值可写成
例2 求例1中变量关于的线性回归方程。
解 ,经计算得
故得
于是得到回归直线方程
或写成
3.的估计
由于
记,称为处的残差。平方和
称为残差平方和。
为了计算,将做如下分解
再由得的另一个分解式
相应的统计量为
可以证明
(6)
于是
即
这样就得到了的无偏估计量
(7)
例3 求例2中的无偏估计。
解 由例2中的计算结果得
又已知,,故
,
4.线性假设的显著性检验
在以上的讨论中,我们假定关于的回归函数具有形式,在处理实际问题时,是否为的线性函数,首先要根据有关专业知识和实践来判断,其次就要根据实际观察得到的数据运用假设检验的方法来判断。这就是说,求得的线性回归方程是否具有实用价值,一般来说,需要经过假设检验才能确定。若线性假设(1)符合实际,则不应为零,因为若,则就不依赖于了。因此,我们需要检
验假设。
用检验法来进行检验,可以证明:
又由(6)式和(7)式知,
且与相互,故有
即
其中。
当为真时,此时
且,即得的拒绝域为
(8)
此处为显著性水平。
当假设被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。回归效果不显著的原因可能有如下几种:
(1)影响的取值,除了及随机误差外还有其它不可忽略的因素;
(2)不是的线性函数,而是其它形式的函数;
(3)与不存在关系。
例4 检验例2中回归方程的回归效果是否显著,取。
解 由例2和例3知。查表得
由(8)式知假设的拒绝域为
现在
故拒绝,认为回归效果是显著的。下载本文