一元,多元线形回归分析:
一. 请分别叙述变量间统计关系与函数关系的区别,以及相关分析与回归分析的联系与区别。
答:各自然现象或社会现象之间普遍存在着各种联系,根据这些联系的紧密程度不同,可将之分为函数关系与统计关系。
一种情况下某变量Y能被其余的一类变量完全决定,这时两者之间存在着完全的确定性关系,这种关系可以通过一个函数 表示。这样的确定性关系被称为函数关系。
另一种情况下变量之间虽然存在紧密的联系,但并不能互相唯一确定,这种非确定性的紧密联系被称为统计关系。
相关分析与回归分析都是研究两边统计关系的方法,在实际问题的处理中往往结合使用两者。两者的区别主要在于:1.目标不同:相关分析主要用于刻画X,Y两变量间的联系的密切程度,而回归分析除此之外,还关心对未观察Y值的预测与控制。2.角度不同:相关分析中X,Y两变量地位相同,因此假设两者都是随机变量;而回归分析中只将变量Y作为主要研究对象,因而往往假设Y是随机变量,而X是非随机变量。
二. 请叙述(一元)多元线性回归模型及其基本假设
答:1.一元线性模型的基本形式是:
,其中称为回归系数,称为随机误差。
其基本假设为:
G-M假设:
或者更强的正态性假设:
同分布, 。
2.多元线性模型的基本假设是:
称为回归系数阵,称为随机误差.
其基本假设为:
a. G-M假设:
或者更强的正态性假设:
同分布, 。
b.rank(X)=p+1 答: 1.最小二乘法的基本思路是通过最小化残差平方和 求得回归系数的估计值。其理论基础是函数极值理论。 2.最大似然法的基本思路是最大化似然函数 求得回归系数的估计值。其理论基础是函数极值理论。 3.两者对的估计结论是一致的,且结果均具有线性,无偏性,稳定性(在G-M假设下是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计,具体参见问题四)。 4.相对来说,使用最大似然法需要的假设较强,需要正态性假设,而最小二乘法本身不需要任何假设。但是,最大似然法可以得到的估计,而最小二乘法不行。 四. 假设通过最小二乘估计得到回归方程 的估计,请叙述估计量以及残差的定义及其性质。 答:1.估计量具有线性,无偏性,稳定性,即: a. 是y的线性变换 b. 是无偏的。 c.在G-M假设下是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计。。 2.残差,它具有以下性质 a. b. ,即 c. d. ,且正态性假设下两者 e.服从自由度为n-p-1的开方分布,即 五、叙述多元线性回归中常见的显著性检验方法及其关系。 答:常见的显著性检验方法有t检验,F检验,偏F检验三种。假设检验水平为。 1.F检验 检验统计量: 判断法则:时拒绝原假设。 2.t检验 检验统计量: 判断法则:时拒绝原假设。 3.偏F检验 检验统计量: 判断法则:时拒绝原假设。 4.三者的关系。 t检验与偏F检验等价,F检验与另两者不同(实质上是另两者的前提),通常先做F检验,再做t检验或偏F检验。 六、给出一元回归模型估计值的点估计与区间估计(置信度) 答:1.在未观测点处,y的点估计为。 2.在未观测点处,的区间估计为(预测区间) n相当大时(n>15),可以简化为。 3. 在未观测点处,的区间估计为(置信区间) 。 3.给定置信上界与置信下界时,的取值范围为 七.叙述样本数据与回归系数标准化的意义与方法 答:多元线性回归模型中,由于自变量的数量级差异较大,因而舍入误差将对估计的精度造成较大的影响;同时自变量的单位不同也会造成回归方程的解释比较困难,因而通常需要对样本数据进行预处理,即数据的标准化。 数据的标准化通常这样进行: 利用标准化样本数据的得到的回归方程系数称为标准化回归系数,其满足: . 八.给出偏决定系数、偏相关系数的定义 答:1.当其余自变量固定时,对y的影响程度称为的偏决定系数,定义为 2. 当其余自变量固定时,与的相关程度称为两者的偏相关系数,定义为 。 计算: 1. (20分)近来某时尚杂志进行了一项关于高清数字电视的调查。对于各不同品牌不同型号的数字电视,该杂志基于画面质量给出了一个测试总分(i=1,2,…24),同时,该杂志也收集了这些数字电视的平均市场售价。数据显示 假设样本数据符合正态性假设,随机项的方差为。根据以上条件,请 (1)(5分)建立y关于x的一元线性回归方程 (2)(5分)给出作的无偏估计。 (3)(5分)在的显著性水平下,检验变量之间的显著性。(已知:) (4)(5分)假设某种新上市的数字电视的评分为45分,请给出其市场建议价,并作该价格的置信水平为95%的区间估计。 解:(1)根据题意,有: -----------1分 ----------1分 ------------1分 从而 所以回归方程为 ---------2分 (2) ------3分 所以 -------2分 (3)建立假设为: ------1分 构造检验统计量: ------3分 由于,所以拒绝原假设 ------1分 即认为变量之间存在显著的线性关系。 (4)的估计值为 ------1分 由于样本量较大,所以可以用近似公式计算预测区间 ------1分 即价格的预测区间为 ------3分 2.(15分)某市最近进行的一项有关公共交通的调查发现,公交车的维护费用与其已使用月数之间的关系可以用一元线性回归模型描述,其误差项满足,其中随机项满足G-M假设。实验的实际观测数据(10组)由下表给出,请根据数据给出该回归模型的估计,并预测某辆已使用了4年的公交车的维护费用。 对原样本数据做一阶差分,得到差分数据样本 由于差分数据必然已中心化,所以差分回归模型为 ,其中 ------4分 从而回归方程为 ------4分 将带入上述方程,得: ------2分 3.非参数检验(异方差) 证明:1.对一元线性模型证明三种检验统计量等价 证:对于一元线性回归模型来说,F检验、t检验、相关性检验的原假设与备择假设相同,均为 ------2分 而三者的检验统计量分别为:,,。 ------1分 ------3分 所以 ------2分 ------2分 所以,即三种检验完全等价。 2. 在正态性假设下,求证 (一元)/ (多元)是的无偏估计 a. 记,则。再记。则 ------4分 ------4分 所以 ------2分 从而 ------5分 即是的无偏估计,证毕。 b. 记. 则. -----1分 从而 ----2分 由正态性假设, ----3分 ----4分 从而 ----1分 ---3分 所以是 的无偏估计 ----1分 3计算多元线性模型下,的期望阵与方差 4. 证明数据标准化后参数估计值之间的转化关系 5.证明dw的取值范围(0<=dw<=4) --------2分 --------2分 样本充分大时,可以认为 --------1分 从而 --------3分 所以 --------1分 又,从而 其余: 一.叙述全模型、选模型的优缺点 答:设全模型为,选模型为(p a. 设与至少一个相关,则是有偏的,即。 b. 选模型的预测值是有偏的,即。 2. 选模型的优点为: a. 选模型回归参数的方差较小(稳定性较高),即 b. 选模型的预测值的残差方差更小,即 ,其中 c. 选模型的预测值的均方误差更小,即 二.叙述变量选择的基本准则 答:通常根据以下三种准则进行变量选择。 1.自由度调整的复决定系数最大 自由度调整的复决定系数是基于拟合效果提出的变量选择参数,定义为 ,其中是回归方程的决定系数(拟合优度)。 2.赤池信息量(AIC)或SBC最小 赤池信息量是基于最大似然原则提出的变量选择参数,定义为 。 SBC是对AIC的修正,定义为 。 3. Mallows统计量最小 Mallows统计量是基于预测效果(均方误差)提出的变量选择参数,定义为 。 三.叙述变量选择的基本方法及其比较 答:变量选择的基本方法有以下三种: 1.前进法,具体步骤为: a. 对所有可选变量作一元线性回归,对这p个回归方程分别作F检验,选择其中统计量最大值。若,则将选作回归自变量。 b. 对所有的二元变量对作二元线性回归,对这p-1个回归方程分别作(偏)F检验,选择其中统计量最大值。若,则将选作回归自变量。 c. 以此类推,直到引入q个自变量后所有q+1元回归方程的F统计量值均小于。 2. 后退法,具体步骤为: a. 对全部可选变量作P元线性回归,对该回归方程作t检验,选择其中统计量最小值。若,则将删除。 b. 对剩余自变量作p-1元线性回归,对该回归方程作t检验,选择其中统计量最小值。若,则将删除。 c. 以此类推,直到所有剩余自变量均能通过t检验。 3.逐步回归法,具体步骤为: a. 使用前进法选择自变量。 b. 每选入一个自变量,则利用后退法删除所有需要删除的自变量。 c. 以此类推,直到剩余自变量均不能被选入。 由于前进法有进无出(自变量被选入之后无法被删除),后退法有出无进(自变量被删除后无法被再次选入),所以在选择效果上通常都不如逐步回归。 四.叙述所有违背基本假设的情形及其检验、改进方法 答:违背基本假设的情形一共有四种:异方差性、自相关性、异常值以及多重共线性。 1.异方差性: a.可以通过spearman等级相关系数检验,其方法为: , 其中,是的等级差。 检验统计量: 判断法则:时拒绝原假设。 b.可以通过加权最小二乘法改进 2.自相关性 a.自回归阶数为1时可以通过D-W检验法检验,其方法为: 根据样本容量n与解释变量个数p+1查得dw下届与dw上界。计算D-W统计量,其定义为 若 b.可以通过迭代法或者差分法改进 3.异常值 异常值可以简单分为y的异常值与x的异常值两种。 a. y的异常值可以用残差大小判断,通常认为学生化残差或者标准化残差即说明是异常值;精确的判断可以用学生化删除残差进行,其中。 b. x的异常值可以用库克距离判断,其定义为 通常认为说明不是异常值,说明是异常值。 b’ 对于x还有强影响点的概念,是否属于强影响点可以通过杠杆值判断,通常认为说明是强影响点。 3.多重共线性 多重共线性可以通过方差扩大因子或者条件数进行检验。 a.方差扩大因子法: 即认为与其余自变量之间存在着多重共线性。 也可用均值判断,若即认为自变量整体存在着较强的多重共线性。 b.条件数法 条件数。 若,则认为无多重共线性; ,则认为有较强的多重共线性; ,则认为有严重的多重共线性。 改进方法通常为改用有偏估计值估计回归系数。 五.叙述BOX-COX变换的定义与基本思路 答:BOX-COX变换是处理异方差性与自相关性的有效手段,基本思路是通过对y进行变换使其满足正态性假设以保证最小二乘法的优良性。 具体的方法为: 其中a为任意选取的正常数,以保证BOX-COX的合理性。称为变换参数,可以通过最大似然法估计。通常取。 六.叙述岭参数k选择方法 答:通常有三种选择方法 1.通过岭迹法选择参数k。 2.通过使所有的方差扩大因子来选择参数k,其中是矩阵的主对角线元素。 3.通过不等式来选择参数k,其中c是预先指定的大于1的常数。 七.当自变量或因变量是定性变量时,回归方程的拟合方法 答:当自变量是定性变量时,我们通过引入虚拟变量来建立回归方程,方法为: 设定性自变量X可以取值,则引入如下的k-1个自变量: 当因变量为只能取两值的定性变量时,我们改用逻辑回归模型拟合,回归方程为:
解:由于误差项满足,而满足G-M假设,所以可以通过差分法来消除自相关性。 ------1分已使用月数 61 45 48 55 29 43 60 维护费用 4968 6317 5198 5048 9182 5696 4858 65 29 31 8319 4571 6887
------4分自变量差分 -16 3 7 -26 14 17 5 因变量差分 1349 -1119 -150 4134 -3486 -838 3461 -36 2 -3748 2316