2012年数学建模竞赛
第一次实战训练(一)第一题论文
题 目 多元非线性回归拟合模型
姓 名 郜红霞 杨环 刘发稳
2012年8月20日
多元非线性回归拟合模型
摘要:本文推论了多元非线性数据拟合的通用数学模型,利用最小二乘法和极值原理,导出求解多元非线性回归方程的规范方程组。并用矩阵形式对规范方程组进行表述,在所表述的诸矩阵中,结构矩阵是其基础。用它可方便地转化出其他矩阵,这将大大简化程序的编制和规范方程组的解算。计算机根据输入数据自变量的个数和实验所作次数的多少,求解出相应的多元非线性回归方程及其评估方程质量的数据。
关键字: 规范方程;非线性回归方程;最小二乘法;结构矩阵;极值原理;对称矩阵;数据分析;计算机拟合;矩阵形式自变量。
1 问题重述
| 行 | Y | X1 | X2 | X3 | X4 | X5 | X6 |
| 1 | 443 | 49 | 79 | 76 | 8 | 15 | 205 |
| 2 | 290 | 27 | 70 | 31 | 6 | 6 | 129 |
| 3 | 676 | 115 | 92 | 130 | 0 | 9 | 339 |
| 4 | 536 | 92 | 62 | 92 | 5 | 8 | 247 |
| 5 | 481 | 67 | 42 | 94 | 16 | 3 | 202 |
| 6 | 296 | 31 | 54 | 34 | 14 | 11 | 119 |
| 7 | 453 | 105 | 60 | 47 | 5 | 10 | 212 |
| 8 | 617 | 114 | 85 | 84 | 17 | 20 | 285 |
| 9 | 514 | 98 | 72 | 71 | 12 | -1 | 242 |
| 10 | 400 | 15 | 59 | 99 | 15 | 11 | 174 |
| 11 | 473 | 62 | 62 | 81 | 9 | 1 | 207 |
| 12 | 157 | 25 | 11 | 7 | 9 | 9 | 45 |
| 13 | 440 | 45 | 65 | 84 | 19 | 13 | 195 |
| 14 | 480 | 92 | 75 | 63 | 9 | 20 | 232 |
| 15 | 136 | 27 | 26 | 82 | 4 | 17 | 134 |
| 16 | 530 | 111 | 52 | 93 | 11 | 13 | 256 |
| 17 | 610 | 78 | 102 | 84 | 5 | 7 | 266 |
| 18 | 617 | 106 | 87 | 82 | 18 | 7 | 276 |
| 19 | 600 | 97 | 98 | 71 | 12 | 8 | 266 |
| 20 | 480 | 67 | 65 | 62 | 13 | 12 | 196 |
| 21 | 279 | 38 | 26 | 44 | 10 | 8 | 110 |
| 22 | 446 | 56 | 32 | 99 | 16 | 8 | 188 |
| 23 | 450 | 54 | 100 | 50 | 11 | 15 | 205 |
| 24 | 335 | 53 | 55 | 60 | 8 | 0 | 170 |
| 25 | 459 | 61 | 53 | 79 | 6 | 5 | 193 |
| 26 | 630 | 60 | 108 | 104 | 17 | 8 | 273 |
| 27 | 483 | 83 | 78 | 71 | 11 | 8 | 233 |
| 28 | 617 | 74 | 125 | 66 | 16 | 4 | 265 |
| 29 | 605 | 121 | 71 | 8 | 8 | 283 | |
| 30 | 388 | 30 | 81 | 10 | 10 | 176 | |
| 31 | 351 | 34 | 44 | 65 | 7 | 9 | 143 |
| 32 | 366 | 71 | 34 | 56 | 8 | 9 | 162 |
| 33 | 493 | 88 | 30 | 87 | 13 | 0 | 207 |
| 34 | 8 | 112 | 105 | 123 | 5 | 12 | 34 |
| 35 | 449 | 57 | 69 | 72 | 5 | 4 | 200 |
| 36 | 340 | 61 | 35 | 55 | 13 | 0 | 152 |
| 37 | 292 | 29 | 45 | 47 | 13 | 13 | 123 |
| 38 | 688 | 82 | 105 | 81 | 20 | 9 | 268 |
| 39 | 408 | 80 | 55 | 61 | 11 | 1 | 197 |
| 40 | 461 | 82 | 88 | 54 | 14 | 7 | 225 |
2.正态性检验;
3.相关性检验;
4.自变量的多重共线性检验;
5.残差的相关性分析,模型的合理分析。
6.预测=(470 81 82 50 13.7 225)'。
2 问题分析
先建立基础的多元线性回归方程,以初步确定输入变量与输出变量的关系,若预测效果不理想,则需要对方程进行进一步优化,考虑建立非线性回归方程模型或其他更优模型,反复进行判断和优化,最后得到较理想的预测方程。并用一定的评价标准对得出的预测方程进行判定,最后,用实验数据对模型预测的精度进行验证。3 基本假设与符号说明
| 符号 | 说明 |
| 多元线性回归的输入变量 | |
| 多元线性回归的输出变量 | |
| 多元非线性回归的输入变量 | |
| 多元线性回归的输出变量 | |
| 回归系数 | |
| 回归系数估计值 | |
| 输出变量估计值 | |
| Q | 残差平方和 |
| E | 拟合误差 |
| 无偏估计值 | |
| 方差 | |
| R | 复相关系数 |
| SE | 标准误差 |
3.1 问题分析
3.2 模型建立
(1)我们先假设输入变量和输出变量之间的关系是线性函数关系,建立多元线性回归模型。
{
(2)为了在研究两个指定变量之间的相关关系的同时,控制可能对其产生影响的其他变量,我们在研究任意两个输入变量的相互作用的判断中,运用了偏相关分析先对任意两个输入变量之间是否有交互作用进行判断。
设随机变量X、Y、Z之间彼此存在着相关关系,为了研究X和Y之间的关系,就必须在假定Z不变的条件下,计算和Y的偏相关系数,记为。
在考察多个变量时,(i=1,2...,p)之间的p-1阶偏相关关系可由如下的递推式定义:
计算得出输出变量的相关性检验。
(3)我们建立部分多元非线性回归模型,来判断在Y与的模型中有交互作用的的形式。
其中,
在判断出的形式的形式后,我们建立所有与Y的多元非线性回归模型。
(4)
将数据录入后,用SPSS13.0软件得出未知系数,从而得出之间的函数关系。然后再进行参数估计,统计分析,假设检验,回归系数检验,相关系数检验,如果通过检验,则得到较优模型,若未通过检验,则进行进一步调整优化。
(5)参数估计
在得出函数关系后,我们要对其进行参数估计。
假设有n个观测的数据要确定回归系数
由最小二乘法,即
求出估计值
Y的估计值为:
拟合误差称为残差平方和
(6)统计分析
首先,求残差平方和Q,并由此得的无偏估计。
然后,对Y的样本方差进行分解。
(7)假设检验
构造F-统计量及检验的拒绝域:
拒绝域
(8)回归系数的检验
判断每个自变量对的影响是否显著。
其中,
(9)相关系数检验
复相关系数R是衡量y与相关程度的指标,R的值越接近于1,它们的相关程度越密切。
5问题求解
问题1.首先用spss13.0画出箱图,粗略分析出强影响点有3,12,34。
然后再用马氏距离和cook精确的计算强影响点。
马氏距离公式:
Cook公式:
用spss13.0录入数据结果如下:
| 序号 | 马氏距离 | cook距离 | 序号 | 马氏距离 | cook距离 | |
| 1 | 3.48134 | 0.00124 | 21 | 2.85948 | 0.00919 | |
| 2 | 6.76013 | 0.00118 | 22 | 5.82088 | 0.00797 | |
| 3 | 14.18495 | 0.00081 | 23 | 5.13328 | 0.00125 | |
| 4 | 3.1681 | 0.0093 | 24 | 3.47549 | 0.04237 | |
| 5 | 4.82977 | 0.00097 | 25 | 1.98853 | 0.01923 | |
| 6 | 4.19383 | 0 | 26 | 6.97558 | 0.00032 | |
| 7 | 7.0377 | 0.0028 | 27 | 0.47806 | 0.00485 | |
| 8 | 10.62387 | 0.00036 | 28 | 7.33676 | 0.00398 | |
| 9 | 4.66919 | 0.03478 | 29 | 5.268 | 0.00278 | |
| 10 | 9.56781 | 0.00002 | 30 | 2.54373 | 0.00128 | |
| 11 | 2.74957 | 0.00155 | 31 | 2.40454 | 0.01858 | |
| 12 | 9.86694 | 0.09157 | 32 | 2.44946 | 0.00372 | |
| 13 | 5.31018 | 0.0088 | 33 | 6.65523 | 0.01903 | |
| 14 | 7.20365 | 0 | 34 | 38.01355 | 822.2362 | |
| 15 | 9.52252 | 0.80856 | 35 | 3.05365 | 0.00568 | |
| 16 | 5.91237 | 0.00399 | 36 | 4.37417 | 0.01539 | |
| 17 | 4.49265 | 0.04509 | 37 | 3.38432 | 0.00037 | |
| 18 | 4.51472 | 0.00635 | 38 | 5.2569 | 0.0791 | |
| 19 | 2.13536 | 0.00031 | 39 | 2.82814 | 0.02569 |
| 20 | 0.98876 | 0.01049 | 40 | 2.49016 | 0.04144 |
diag(p)
ans =
0.1143
0.1983
0.3887
0.1062
0.1488
0.1325
0.2055
0.2974
0.1447
0.2703
0.0955
0.2780
0.1612
0.2097
0.2692
0.1766
0.1402
0.1408
0.0798
0.0504
0.0983
0.1743
0.1566
0.1141
0.0760
0.2039
0.0373
0.2131
0.1600
0.0902
0.0867
0.0878
0.1956
0.9997
0.1033
0.1372
0.1118
0.1598
0.0975
0.08
问题2.用spss13.0画出柱状直方图如下:
近似可以观察出服从正态分布。
问题3.运用eviews检测相关性如下:
(相关系数矩阵)
问题4:用spss13.0对多重共线性分析如下:
(多重共线性分析图)
经检测具有多重共线性。消除多重共线性后运用eviews建立模型如下所示:
最小二乘拟合结果
ASSIGN.@ALLF
问题5:运用eviews对残差自相关性检验如下:
(图为残差线图)
先做序列e为残差序列,由图可知残差不具有自相关性。
问题6.将已知值与所建立模型值画图,如图所示:
经过分析,所建模型与实际问题偏差不大,所以对=(470 81 82 50 13.7 225)的预测值Y为1404.9.
参考文献
[1]王璐.SPSS统计分析基础、应用与实践[M].北京:化学工业出版社,2010
[2]杜强.SPSS统计分析从入门到精通[M].北京:人民邮电出版社,2009
[3]姜启源.数学模型[M].北京:高等教育出版社,2008
附件:
1. [x,textdata]=xlsread('a.xls');
x=[]
y=[]
[b,bint,r,rint,stats]=regress(y,X)
[b,bint,r,rint,stats]=regress(y,x)
z=[]
stepwise(z,y,[1,2,3,4,5])下载本文