基本要求:
1、理解多元线性回归模型的定义
2、理解多元线性回归模型的假定
3、掌握参数估计的计算
4、理解参数统计性质
第一节 多元线性回归模型及假定
一、多元线性回归模型
许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。
多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量与多个解释变量之间存在线性关系。
假定被解释变量与多个解释变量之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。即
(3-1)
其中为被解释变量,为个解释变量,为个未知参数,为随机误差项。
被解释变量的期望值与解释变量的线性方程为:
(3-2)
称为多元总体线性回归方程,简称总体回归方程。
对于组观测值,其方程组形式为:
(3-3)
即
其矩阵形式为
=+
即
(3-4)
其中
为被解释变量的观测值向量;为解释变量的观测值矩阵;为总体回归参数向量;为随机误差项向量。
总体回归方程表示为:
(3-5)
与一元线性回归分析一样,多元线性回归分析仍是根据观测样本估计模型中的各个参数,对估计参数及回归方程进行统计检验,从而利用回归模型进行经济预测和分析。多元线性回归模型包含多个解释变量,多个解释变量同时对被解释变量发生作用,若要考察其中一个解释变量对的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变量对因变量的均值的影响。
由于参数都是未知的,可以利用样本观测值对它们进行估计。若计算得到的参数估计值为,用参数估计值替代总体回归函数的未知参数,则得多元线性样本回归方程:
(3-6)
其中为参数估计值,为的样本回归值或样本拟合值、样本估计值。
其矩阵表达形式为:
(3-7)
其中为被解释变量样本观测值向量的阶拟合值列向量;为解释变量的阶样本观测矩阵;为未知参数向量的阶估计值列向量。
样本回归方程得到的被解释变量估计值与实际观测值之间的偏差称为残差。
(3-8)
二、多元线性回归模型的假定
与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计时,有如下假定:
假定1 零均值假定:,即
(3-9)
假定2 同方差假定(的方差为同一常数):
假定3 无自相关性:
(3-10)
假定4 随机误差项与解释变量不相关(这个假定自动成立):
假定5 随机误差项服从均值为零,方差为的正态分布:
假定6 解释变量之间不存在多重共线性:
即各解释变量的样本观测值之间线性无关,解释变量的样本观测值矩阵的秩为参数个数k+1,从而保证参数的估计值唯一。
第二节 多元线性回归模型的参数估计及统计性质
一、多元线性回归模型的参数估计
(一)回归参数的最小二乘估计
对于含有个解释变量的多元线性回归模型
设分别作为参数的估计量,得样本回归方程为:
观测值与回归值的残差为:
由最小二乘法可知应使全部观测值与回归值的残差的平方和最小,即使
(3-11)
取得最小值。根据多元函数的极值原理,分别对求一阶偏导,并令其等于零,即
(3-12)
即
化简得下列方程组
(3-13)
上述个方程称为正规方程,其矩阵形式为
(3-14)
因为
设为估计值向量
样本回归模型两边同乘样本观测值矩阵的转置矩阵,则有
得正规方程组:
(3-15)
由假定(6),,为阶方阵,所以满秩,的逆矩阵存在。因而
(3-16)
则为向量的OLS估计量。
以二元线性回归模型为例,导出二元线性回归模型的OLS估计量的表达式。由(3-3)式得二元线性回归模型为
为了计算的方便,先将模型中心化。
设,则二元回归模型改写为中心化模型。
(3-17)
记
(3-18)
将代入得
(3-19)
因为
(3-20)
则
由(3-16)式得
(3-21)
其中
由(3-21)式可知
得
(3-22)
(3-23)
(3-24)
(二)随机误差项的方差的估计量
样本回归方程得到的被解释变量估计值与实际观测值之间的偏差称为残差
则
设,可以得出是阶对称幂等矩阵,,。于是
而残差的平方和为
其中“”表示矩阵的迹,即矩阵主对角线元素的和。于是
随机误差项的方差的无偏估计量,记作,即,,为残差的标准差(或回归标准差)。
因此
(3-25)
其中
(3-26)
例如,对于二元线性回归模型()
(3-27)
(3-28)
二、估计参数的统计性质
1、线性性
指最小二乘估计量是被解释变量的观测值的线性函数。
由于
设,则矩阵为一非随机的阶常数矩阵。所以
(3-29)
显然最小二乘估计量是被解释变量的观测值的线性函数。
2、无偏性
将代入(3-16)式得
(3-30)
则
所以是的无偏估计量。
3.最小方差性
设为阶数值矩阵,为阶随机矩阵(随机变量为元素的矩阵),为阶数值矩阵,则
下面我们推导的方差、协方差矩阵。
定义:
由(3-30)式得
所以
(3-31)
这个矩阵主对角线上的元素表示的方差,非主对角线上的元素表示的协方差。例如是位于的第行与第列交叉处的元素(主对角线上的元素);是位于的第行与第列交叉处的元素(非主对角线上的元素)
在应用上,我们关心的的方差,而忽略协方差,因此把(3-31)式记作
(3-32)
记,则,所以是的最小方差线性无偏估计。这说明,在(3-1)式系数的无偏估计量中,OLS估计量的方差比用其它估计方法所得的无偏估计量的方差都要小,这正是OLS的优越性所在。
用代替则得的标准估计量的估计值,乃称为标准差。
(3-33)
其中
对于二元回归模型(),求估计量的方差,由(3-32)式得
其中
于是
所以
(3-34)
(3-35)
(3-36)
(3-37)
其中
第三节 显著性检验
一、拟合优度检验
(一)总离差平方和分解
设具有个解释变量的回归模型为
其回归方程为
离差分解:
总离差平方和分解式为:
(3-38)
即
(3-39)
总离差平方和分解为回归平方和与残差平方和两部分。
(二)样本决定系数
对于多元回归方程,其样本决定系数为复决定系数或多重决定系数。
,简记为。
(3-40)
根据式(3-39)
(3-41)
因为
由(3-26)式知
所以
(3-42)
作为检验回归方程与样本值拟合优度的指标:越大,表示回归方程与样本拟合的越好;反之,回归方程与样本值拟合较差。
具体的,当时,求样本决定系数
由(3-28)式,得 ,因此有
(3-43)
(三)调整后的样本决定系数
在使用时,容易发现的大小与模型中的解释变量的数目有关。如果模型中增加一个新解释变量,总离差不会改变,但总离差中由解释变量解释的部分,即回归平方和将会增加,这就是说与模型中解释变量个数有关。但通过增加模型中解释变量的数目而使增大是错误的,显然这样来检验被回归方程与样本值拟合优度是不合适的,需要对进行调整,使它不但能说明已被解释离差与总离差的关系,而且又能说明自由度的数目。
以表示调整样本决定系数,
(3-44)
其中
这里是残差平方和的自由度,是总离差平方和的自由度。
由(3-44)式得
其中,是样本观测值的个数,是解释变量的个数。从式中可以看出,当增加一个解释变量时,由前面分析可知会增加,引起减少,而增加,因而不会增加。这样用判定回归方程拟合优度,就消除了对解释变量个数的依赖。
或只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭或来选择模型,必须对回归方程和模型中各参数的估计量做显著性检验。
二、方程显著性检验
由离差平方和分解(3-39)式可知,总离差平方和的自由度为,回归平方和是由个解释变量对的线性影响决定的。因此它的自由度为。所以,残差平方和的自由度由总离差平方和的自由度减去回归平方和的自由度,即为。
检验回归方程是否显著,
第一步,作出假设
备择假设H1:b1 、 b2 、…、bk不同时为0
第二步,在成立的条件下,计算统计量
第三步,查表临界值
对于假设,根据样本观测值计算统计量给定显著水平,查第一个自由度为,第二个自由度为的分布表得临界值。当时,拒绝,则认为回归方程显著成立;当时,接受,则认为回归方程无显著意义。
三、参数显著性检验
回归方程显著成立,并不意味着每个解释变量对被解释变量的影响都是重要的。如果某个解释变量对被解释变量的影响不重要,即可从回归模型中把它剔除掉,重新建立回归方程,以利于对经济问题的分析和对进行更准确的预测。为此需要对每个变量进行考查,如果某个解释变量对被解释变量的作用不显著,那么它在多元线性回归模型中,其前面的系数可取值为零。因此必须对是否为零进行显著性检验。
由(3.44)式
(3-45)
其中
对回归系数进行显著性检验,步骤如下:
(1)提出原假设;备择假设。
(2)构造统计量,当成立时,统计量。这里是的标准差,为解释变量个数,计算由式(3-45)给出。
(3)给定显著性水平,查自由度为的分布表,得临界值。
(4)若,则拒绝,接受,即认为显著不为零。若,则接受,即认为显著为零。
四、利用多元线性回归方程进行预测
对于多元线性回归模型
其中
,,
根据样本观测值利用最小二乘法求得回归方程
预测就是给解释变量某一特定值对被解释变量的值进行估计,作为的预测值。设,称其为预测误差。为一随机变量,可以证明服从正态分布,即
将式中用它的估计值代替,则得的标准差
其中
统计量
对于给定置信水平,预测值置信区间为
即为
五、多元线性回归分析实例
第四节 最大似然估计
一、似然函数
(一)基本假定
对于所研究的模型,给定如下基本假设:
(1)
(2)
(3)
(4)随机抽样总是生产单一的最可能结果:任意样本都是其所属总体的代表。这个强假定是针对小样本而言的。
(二)似然函数
确定随机变量的任一观测样本的联合概率的函数,就称为的似然函数。
一般表达式为:
(3-47)
二、极大似然估计法的基本思想
极大似然估计法(maximum likelihood estimation,MLE)需要对随机扰动项的分布做出假定,通常选择正态分布假定。在极大似然估计中,假定样本是固定的,个观测值都是观测的,这个样本可由各种不同的总体生成,而每个样本总体都有自己的参数。那么在可供选择的总体中,哪个总体最可能生成所观测到的个样本值?为此需要估计每个可能总体取得这个观测值的联合概率,选择其参数能使观测样本的联合概率最大的那个总体。
三、线性回归模型的最大似然估计
一元随机扰动变量的正态分布密度函数为
(3-48)
相互的多元随机扰动变量的正态分布密度函数为
(3-49)
定义被解释变量的概率密度函数,要根据与的关系进行变换
式中的是的偏微分矩阵的行列式的绝对值,该值就是Jacobean变换行列式的绝对值
对于上面所研究的线性回归方程来说,Jacobean矩阵为单位矩阵,相应行列式值是1。因而
的似然函数
(3-50)
设,求似然函数的极大值
由于是的单调函数,所以使极大的参数值也将使极大,即。
简化似然函数为对数表达式,为:
(3-51)
求上式对和的偏导数,并令其等于零,可以求出有关估计参数和。
(3-52)
(3-53)
这个方程的解为
显然,参数估计式是的无偏估计式,而则是的小样本有偏估计式,由于
仅当时,,所以是的渐近无偏估计式。
本章小结:本章重点研究了一个经济变量受多个因素影响的多元线性回归模型。介绍了多元线性回归模型的建立及其假定条件,应用普通最小二乘法进行多元线性回归模型的参数估计及参数的统计性质和回归方程的显著性检验,利用实例讲述了计量经济学软件包EViews在多元线性回归分析中的应用;最后介绍了最大似然估计法,拓宽模型回归参数估计的思路。下载本文