实验报告
课程名称: 统计学 学年、学期: 2014年秋季
实验学时: 16 实验项目数: 四
实验人姓名: 专业班级:
| 实验一:统计软件Spss、Excel介绍;数据的图表展示 | ||||||||
| 实验日期: 2014 年 11 月 20 日 | 第 十三 教学周 | |||||||
| 主要实验内容 统计软件Spss、Excel的应用介绍;利用软件进行统计数据的整理和绘制各种统计图表。作业:练习题2.1、2.2、2.3、2.4 | ||||||||
| 实验操作记录: 2.1(1)用Excel绘制频数分布表:选择【插入】菜单中的【数据透视表或数据透视图】 (2)用Excel绘制条形图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【条形图】 (3)用Excel绘制帕累托图:绘制好条形图,然后将条形图中的数据按升序或降序顺序重新排列 (4)用Spass绘制饼图:【Graphs】—>【Interactive-Pie-Clustered】,第2步将某个分类变量选入【Slice】点击【Pies】 2.2(1)用Excel生成定量数据的频数分布表:【数据】——>【数据分析】——>【直方图】,选择【图表输出】单击【确定】 (2)用Excel绘制直方图:输入输出区域,然后选择【数据】——>【数据分析】——>【直方图】 (3)用Spass绘制茎叶图:【Analyze】——>【Descriptive statistics-Explore】第2步:将变量选入【Variables】 2.3(1)用Excel绘制环形图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【环形图】再选【环形图】 (2)用Excel绘制雷达图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【其他图表】再选【雷达图】 2.4 用Excel绘制箱线图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【其他图表】再选【箱线图】 | ||||||||
| 实验总结:通过此次试验,加深了我对Excel和Spass操作软件的应用了解,同时能更好的把实践与理论相结合。首先进行的就是对统计数据的输入与分析。这个输入过程,既要细心也要用心。画图时,不仅是仔细的输入一组数据就可以,还要考虑到整个数据模型的要求,合理而正确的分配输入数据。 | ||||||||
| 教师评语: | ||||||||
| 本次实验成绩 | 项目 | 预习 | 实验过程 | 作业 | 报告书写 | 出勤和课堂纪律 | 其他 | |
| 得分 | ||||||||
| 成绩合计: | ||||||||
| 教师签字: | 批改日期: | |||||||
(1)制作一张频数分布表。
| 家电行业售后服务质量评价等级频数表 | ||
| 评价等级 | 频数 | 频率 |
| A | 14 | 14% |
| B | 21 | 21% |
| C | 32 | 32% |
| D | 18 | 18% |
| E | 15 | 15% |
| 总计 | 100 | 1 |
(3)绘制评价等级的帕累托图。
(4)制作一张饼图,反映评价等级的构成。
2.2为确定灯泡的使用寿命(单位:小时),在一批灯泡中随机抽取100只进行测试,所得数据如下:(数据略)
(1)以组距为10进行分组,整理成频数分布表。
| 灯泡使用寿命频数分布表 | ||
| 按销售额分组(万元) | 频数 | 频率 |
| 650-660 | 2 | 0.02 |
| 660-670 | 5 | 0.05 |
| 670-680 | 6 | 0.06 |
| 680-690 | 14 | 0.14 |
| 690-700 | 26 | 0.26 |
| 700-710 | 18 | 0.18 |
| 710-720 | 13 | 0.13 |
| 720-730 | 10 | 0.10 |
| 730-740 | 3 | 0.03 |
| 740-750 | 3 | 0.03 |
| 合计 | 100 | 1.00 |
答:从直方图可以直观地看出,灯泡使用寿命的分布基本上是对称的,右边的尾部稍长一些,灯泡使用寿命接近正态分布。
(3)制作茎叶图,并与直方图作比较。
使用寿命 Stem-and-Leaf Plot
Frequency Stem & Leaf
1.00 Extremes (=<651)
1.00 65 . 8
2.00 66 . 14
3.00 66 . 568
3.00 67 . 134
3.00 67 . 679
7.00 68 . 1123334
7.00 68 . 555
13.00 69 . 0011112223344
13.00 69 . 556667788
8.00 70 . 00112234
10.00 70 . 56667788
6.00 71 . 002233
7.00 71 . 56778
4.00 72 . 0122
6.00 72 . 5679
1.00 73 . 3
2.00 73 . 56
1.00 74 . 1
1.00 74 . 7
1.00 Extremes (>=749)
Stem width: 10
Each leaf: 1 case(s)
答:比较直方图与茎叶图:直方图的数据分布很方便,但原始数据看不到了,茎叶图则不同,不仅可以看出数据的分布,还能保留原始数据的信息。
2.3甲、乙两班有40名学生,期末统计学考试成绩的分布如下:
(1)画出两个班考试成绩的环形图,比较它们的构成。
(2)画出雷达图,比较两个班考试成绩的分布是否相似。
答:从图中可以看出甲、乙两班的成绩分布不相似,没有相似性。
2.4 下表是我国10个城市2006年各月份的气温(°C)数据:(数据略)
绘制各城市月气温的箱线图,并比较各城市气温分布的特点
答:从箱线图可看出,这10个城市的月气温存在较大差异,离散程度高的城市为沈阳、北京、郑州、武汉;离散程度低的为海口、昆明、广州。月气温较高的城市主要为中位数较大的海口、广州,月气温较低的为城市中位数较小的沈阳;月气温分布较对称的城市主要有北京、沈阳;月气温分布不对称的城市主要有:海口;月气温存在极值的城市有沈阳、北京、重庆。
| 实验二:用统计量描述数据;概率分布;参数估计 | ||||||||
| 实验日期: 2014 年 11 月 27 日 | 第 十四 教学周 | |||||||
| 主要实验内容 利用Spss、Excel软件对数据进行概括性度量、计算概率分布的概率及概率值,进行参数估计。作业:练习题3.5、4.4、5.3、5.7 | ||||||||
| 实验操作记录: 3.5 用Excel计算描述统计量: 【工具】——>【数据分析】——> 【描述统计】——>【确定】——>【输入区域】——>【输出选项】——>【汇总统计】 4.4 用Spass绘制正态概率图:第1步:【Analyze】——>【Descrictive Statistics】——>【P-P Plot】或【Q-Q Plot】 5.3 用Spass求置信区间:第1步:选择【Analyze】然后选择 【Descriptive statistics-Explore】选项进入主对话框 5.7 用Spass求两个总体均值之差的区间估计:【Analyze】——>【Compare Means—Paired- Samples T Test】将两个样本同时选入【Paired Variables】 | ||||||||
| 实验总结:实验二主要是对描述统计量的计算,像众数,中位数,标准误差,方差,峰度,偏度,置信度等等。通过这次试验,我进一步熟悉了这些描述统计量的计算公式,懂得了该怎么算这些描述统计量,此外,我还掌握了一些数据统计方面的技能:利用EXCEL进行数据处理、描述性统计及区间估计。在具体的操作过程中,我感受到,合理并充分利用EXCEL对我们进行数据统计具有很大的作用,能够使我们更加直观地看到数据,一目了然。 | ||||||||
| 教师评语: | ||||||||
| 本次实验成 绩 | 项目 | 预习 | 实验过程 | 练习题 | 报告书写 | 出勤和实验纪律 | 其他 | |
| 得分 | ||||||||
| 成绩合计: | ||||||||
| 教师签字: | 批改日期: | |||||||
| 列1 | 列2 | 列3 | |||
| 平均 | 165.6 | 平均 | 128.7333 | 平均 | 125.5333 |
| 标准误差 | 0.550325 | 标准误差 | 0.452155 | 标准误差 | 0.716251 |
| 中位数 | 165 | 中位数 | 129 | 中位数 | 126 |
| 众数 | 1 | 众数 | 128 | 众数 | 126 |
| 标准差 | 2.131398 | 标准差 | 1.75119 | 标准差 | 2.774029 |
| 方差 | 4.542857 | 方差 | 3.066667 | 方差 | 7.695238 |
| 峰度 | -0.1345 | 峰度 | 0.454621 | 峰度 | 11.66308 |
| 偏度 | 0.351371 | 偏度 | -0.17448 | 偏度 | -3.23793 |
| 区域 | 8 | 区域 | 7 | 区域 | 12 |
| 最小值 | 162 | 最小值 | 125 | 最小值 | 116 |
| 最大值 | 170 | 最大值 | 132 | 最大值 | 128 |
| 求和 | 2484 | 求和 | 1931 | 求和 | 1883 |
| 观测数 | 15 | 观测数 | 15 | 观测数 | 15 |
(2)综合来看,应选择方法A,因为平均水平较高且离散程度小。
4.4由30辆汽车构成的一个随机样本,绘制正态概率图。
答:由正态概率图可以看出,汽车耗油量基本服从正态分布。
5.3某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到数据如下:(数据略)
求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。
| One-Sample Statistics | ||||||||
| N | Mean | Std. Deviation | Std. Error Mean | |||||
| 加班时间 | 18 | 13.56 | 7.801 | 1.839 | ||||
| One-Sample Test | ||||||||
| Test Value = 0 | ||||||||
| t | df | Sig. (2-tailed) | Mean Difference | 95% Confidence Interval of the Difference | ||||
| Lower | Upper | |||||||
| 加班时间 | 7.373 | 17 | .000 | 13.556 | 9.68 | 17.43 | ||
| 平均数 | 方差 | 标准差 | 置信水平 | 置信下限 | 置信上限 |
| 3.32 | 2.59 | 1.61 | 90% | 2.88 | 3.76 |
| 95% | 2.79 | 3.84 | |||
| 99% | 2.63 | 4.01 |
构建两种方法平均自信心得分之差μd=μ1-μ2的95%的置信区间。
| Paired Samples Statistics | |||||
| Mean | N | Std. Deviation | Std. Error Mean | ||
| Pair 1 | 方法1 | 72.60 | 10 | 14.073 | 4.450 |
| 方法2 | 61.60 | 10 | 14.759 | 4.667 | |
| Paired Samples Correlations | ||||
| N | Correlation | Sig. | ||
| Pair 1 | 方法1 & 方法2 | 10 | .8 | .000 |
| Paired Samples Test | |||||||||
| Paired Differences | t | df | Sig. (2-tailed) | ||||||
| Mean | Std. Deviation | Std. Error Mean | 95% Confidence Interval of the Difference | ||||||
| Lower | Upper | ||||||||
| Pair 1 | 方法1 - 方法2 | 11.000 | 6.532 | 2.066 | 6.327 | 15.673 | 5.325 | 9 | .000 |
| 实验三:假设检验; 分类变量的推断;方差分析与实验设计 | ||||||||
| 实验日期: 2014 年 12 月 4 日 | 第 十五 教学周 | |||||||
| 主要实验内容 利用Spss、Excel软件对数据进行假设检验、分类变量的推断、方差分析与实验设计。作业:练习题6.9、7.2、7.4、8.3、8.6 | ||||||||
| 实验操作记录: 6.9(1)1)用Excelt-检验:双样本等方差假设:第1步:将原始数据输入到Excel工作表格中, 选【工具】——>【数据分析】——>【t-检验:双样本等方差假设】 2) 用Excelt-检验:双样本异方差假设:第1步:将原始数据输入到Excel工作表格中, 选【工具】——>【数据分析】——>【t-检验:双样本异方差假设】 (2)用Excelt-检验:F-检验 双样本方差:第1步::【工具】——> 【数据分析】——>【F-检验 双样本方差】 7.2 Spass—期望频数不等拟合优度:先指定“频数”变量,【Analyze】→【NonparametricTest】→【Chi Square】将频数变量选入【Test Variable List】 7.4 Spass性检验:将列联表中的数据转换为原始数据形式,【Analyze】→【Descriptive Statistics-Crosstabs】,行变量【Row(s)】,列选入【Column(s)】 8.3 Excel单因素方差分析:选择“工具 ”下拉菜单,【数据分析】,然后选择【单因素方差分析】选择【确定】,出现 对话框 8.6 Excel: 可重复双因子分析:选择“工具”下拉菜单,并选择【数据分析】选项,在分析工具中选择【方差分析:可重复双因子分析】 Spass:可重复双因子分析:选择【Analyze】,并选择【General Linear Model-Univaiate】进入主对话框。 | ||||||||
| 实验总结:实验三是对正态整体的均值,比例和方差进行假设检验,在实验过程中,许多地方让我卡住了,后来通过与老师的交流得知了正确的方法,这才知道是课本知识掌握的不够好。除此之外,实验三还进行了方差分析, 这与之前的实验比较相似,都是用到数据分析这个工具,主要的工作量集中在数据的输入和数据的分析方面,比较难的就是就是在根据输入的数据作出数据表,然后要进行数据分析。 | ||||||||
| 教师评语: | ||||||||
| 本次实验成 绩 | 项目 | 预习 | 实验过程 | 练习题 | 报告书写 | 出勤和实验纪律 | 其他 | |
| 得分 | ||||||||
| 成绩合计: | ||||||||
| 教师签字: | 批改日期: | |||||||
(1)新肥料获得的平均产量是否显著地高于旧肥料?假设条件为:
1)两种肥料产量的方差未知但相等,即σ1²=σ2²。
2)两种肥料产量的方差未知且不相等,即σ1²≠σ2²。
解:(1)设μ1=新肥料,μ2=旧肥料。H0: μ1-μ2≥0;H1: μ1-μ2<0。
| t-检验: 双样本等方差假设 | ||
| 变量 1 | 变量 2 | |
| 平均 | 100.7 | 109.9 |
| 方差 | 24.115747 | 33.357474 |
| 观测值 | 20 | 20 |
| 合并方差 | 28.73684211 | |
| 假设平均差 | 0 | |
| df | 38 | |
| t Stat | -5.427106029 | |
| P(T<=t) 单尾 | 1.73712E-06 | |
| t 单尾临界 | 1.68595446 | |
| P(T<=t) 双尾 | 3.47424E-06 | |
| t 双尾临界 | 2.0243941 | |
| t-检验: 双样本异方差假设 | ||
| 变量 1 | 变量 2 | |
| 平均 | 100.7 | 109.9 |
| 方差 | 24.115747 | 33.357474 |
| 观测值 | 20 | 20 |
| 假设平均差 | 0 | |
| df | 37 | |
| t Stat | -5.427106029 | |
| P(T<=t) 单尾 | 1.87355E-06 | |
| t 单尾临界 | 1.68709362 | |
| P(T<=t) 双尾 | 3.74709E-06 | |
| t 双尾临界 | 2.026192463 | |
| F-检验 双样本方差分析 | ||
| 变量 1 | 变量 2 | |
| 平均 | 100.7 | 109.9 |
| 方差 | 24.115747 | 33.357474 |
| 观测值 | 20 | 20 |
| df | 19 | 19 |
| F | 0.722940991 | |
| P(F<=f) 单尾 | 0.243109655 | |
| F 单尾临界 | 0.4612010 | |
由于P=0.243109655>0.025,不拒绝原假设,没有证据表明两种肥料的方差有显著差异。
7.2一家电视台为了解观众对某档娱乐节目的喜欢程度,对不同年龄段的男女观众进行了调查。
| 男性 | ||||
| Observed N | Expected N | Residual | ||
| 5 | 5 | 7.0 | -2.0 | |
| 6 | 6 | 28.1 | -22.1 | |
| 12 | 12 | 13.2 | -1.2 | |
| 16 | 16 | 10.5 | 5.5 | |
| 25 | 25 | 5.3 | 19.7 | |
| Total | ||||
| Test Statistics | ||||
| 男性 | ||||
| Chi-Square | 94.942a | |||
| df | 4 | |||
| Asymp. Sig. | .000 | |||
| a.0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 5.3. 解:提出假设:H0:男性观众喜欢该档娱乐节目的比例和女性一致;H1:男性观众喜欢该档娱乐节目的比例和女性不一致 由于P=0.858>0.05,不拒绝原假设,表明男性观众喜欢该档娱乐节目的比例和女性一致。 | ||||
| Case Processing Summary | ||||||
| Cases | ||||||
| Valid | Missing | Total | ||||
| N | Percent | N | Percent | N | Percent | |
| 汽车价格 * 地区 | 400 | 100.0% | 0 | .0% | 400 | 100.0% |
| Value | df | Asymp. Sig. (2-sided) | |
| Pearson Chi-Square | 29.991a | 6 | .000 |
| Likelihood Ratio | 30.683 | 6 | .000 |
| N of Valid Cases | 400 | ||
| a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 21.00. | |||
| 汽车价格 * 地区 Crosstabulation | ||||||
| 地区 | Total | |||||
| 东部地区 | 西部地区 | 中部地区 | ||||
| 汽车价格 | 10—20万元 | Count | 50 | 50 | 60 | 160 |
| Expected Count | 56.0 | 48.0 | 56.0 | 160.0 | ||
| 10万元以下 | Count | 20 | 40 | 40 | 100 | |
| Expected Count | 35.0 | 30.0 | 35.0 | 100.0 | ||
| 20—30万元 | Count | 30 | 20 | 20 | 70 | |
| Expected Count | 24.5 | 21.0 | 24.5 | 70.0 | ||
| 30万元以上 | Count | 40 | 10 | 20 | 70 | |
| Expected Count | 24.5 | 21.0 | 24.5 | 70.0 | ||
| Total | Count | 140 | 120 | 140 | 400 | |
| Expected Count | 140.0 | 120.0 | 140.0 | 400.0 | ||
由于P值接近于0,拒绝原假设,表明地区与所购买的汽车价格不。
8.3 某家电制造公司准备购进一批5#电池,现有A、B、C三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(单位:h)数据如下。试分析三个企业生产的电池的平均寿命之间有无显著差异(α =0.05)。如果有差异,试用多重比较检验哪些企业之间有差异?
解:单因素方差分析:提出假设:
H0 : α1= α2 = α3 ; H1 : α1,α2 ,α3 不全为0
| SUMMARY | ||||||
| 组 | 观测数 | 求和 | 平均 | 方差 | ||
| 列 1 | 5 | 222 | 44.4 | 28.3 | ||
| 列 2 | 5 | 150 | 30 | 10 | ||
| 列 3 | 5 | 213 | 42.6 | 15.8 | ||
| 方差分析 | ||||||
| 差异源 | SS | df | MS | F | P-value | F crit |
| 组间 | 615.6 | 2 | 307.8 | 17.06839 | 0.00031 | 3.885294 |
| 组内 | 216.4 | 12 | 18.03333 | |||
| 总计 | 832 | 14 |
多重比较检验:
一:提出假设:
检验1:H0 :α1 =α2 H1: α1≠α2
检验2:H0 :α1 =α3 H1: α1≠α3
检验3:H0 :α2=α3 H1: α2≠α3
二:计算检验的统计量:
|y1-y2|=14.4 |y1-y3|=1.8 |y2-y3|=12.6
三:计算LSD
根据方差分析表可知,MSE=18.03333。t分布的自由度为n-k=12,根据LSD计算公式计算LSD=5.85
四:做出决策
|y1-y2|=14.4 >5.85,拒绝H0 ,A企业和B企业的电池的平均寿命之间有显著差异
|y1-y3|=1.8<5.85, 不拒绝H0 ,A企业和C企业的电池的平均寿命之间没有显著差异
|y2-y3|=12.6>5.85拒绝H0 ,B企业和C企业的电池的平均寿命之间有显著差异。
8.6城市道路交通管理部门为研究不同的路段和不同的时段对行车时间的影响,让一名交通分别在 3 个路段的高峰期与非高峰期亲自驾车进行试验,通过试验共获得 30 个行车时间的数据单位:分。试分析路段、时段以及路段和时段的交互作用对行车时间的影响 α =0.05。
Exel:
| 方差分析:可重复双因素分析 | ||||
| SUMMARY | 路段1 | 路段2 | 路段3 | 总计 |
| 高峰期 | ||||
| 观测数 | 5 | 5 | 5 | 15 |
| 求和 | 181.4 | 151.8 | 172.2 | 505.4 |
| 平均 | 36.28 | 30.36 | 34.44 | 33.69333 |
| 方差 | 2.267 | 2.518 | 2.723 | 8.702095 |
| 非高峰期 | ||||
| 观测数 | 5 | 5 | 5 | 15 |
| 求和 | 150 | 121 | 141.4 | 412.4 |
| 平均 | 30 | 24.2 | 28.28 | 27.49333 |
| 方差 | 5.265 | 6.025 | 5.797 | 11.22067 |
| 总计 | ||||
| 观测数 | 10 | 10 | 10 | |
| 求和 | 331.4 | 272.8 | 313.6 | |
| 平均 | 33.14 | 27.28 | 31.36 | |
| 方差 | 14.30267 | 14.33733 | 14.32711 | |
| 方差分析 | ||||||
| 差异源 | SS | df | MS | F | P-value | F crit |
| 行 | 355.7787 | 9 | 39.53096 | 23.00888 | 4.18E-08 | 2.456281 |
| 列 | 180.5147 | 2 | 90.25733 | 52.53402 | 3.06E-08 | 3.554557 |
| 误差 | 30.92533 | 18 | 1.718074 | |||
| 总计 | 567.2187 | 29 |
1. 路段对行车时间的影响
P=4.18E-08<α=0.05,表明路段对行车时间的影响显著。
2. 时段以对行车时间的影响
P=3.06E-08<α=0.05,表明时段以对行车时间的影响显著。
3.路段和时段的交互作用对行车时间的影响
F=0.026956< F crit=3.885294,表明路段和时段的交互作用对行车时间的影响显著。
Spass:
| Between-Subjects Factors | ||
| N | ||
| 时段 | 非高峰期 | 15 |
| 高峰期 | 15 | |
| 路段 | 路段1 | 10 |
| 路段2 | 10 | |
| 路段3 | 10 | |
| Tests of Between-Subjects Effects | |||||
| Dependent Variable:行车时间 | |||||
| Source | Type III Sum of Squares | df | Mean Square | F | Sig. |
| Corrected Model | 468.815a | 3 | 156.272 | 41.290 | .000 |
| Intercept | 28078.561 | 1 | 28078.561 | 7418.830 | .000 |
| 时段 | 288.300 | 1 | 288.300 | 76.174 | .000 |
| 路段 | 180.515 | 2 | 90.257 | 23.848 | .000 |
| Error | 98.404 | 26 | 3.785 | ||
| Total | 285.780 | 30 | |||
| Corrected Total | 567.219 | 29 | |||
| a. R Squared = .827 (Adjusted R Squared = .806) | |||||
| 实验四:一元线性回归;多元线性回归;时间序列预测及对实际数据进行分析 | ||||||||
| 实验日期: 2014 年 11 月 11 日 | 第 十六 教学周 | |||||||
| 主要实验内容 利用Spss、Excel软件进行一元线性回归、多元线性回归、时间序列预测及对实际数据进行综合分析。作业:练习题9.2、9.3、11.1、11.3 | ||||||||
| 实验操作记录: 9.2:选择【Analyze】 【Correlate - Bivariate】,将两个变量(本例为销售收入和 广告费用)分别选入【Variables】,点击【OK】。 9.3:选择【工具】下拉菜单,并选择【数据分析】选项在分析工具中选择【回归】,选择【确定】。 11.1:选择【工具】→数据分析。在分析工具中选择【移动平均】,单击确定。 11.3:选择【Analyze-Forecasting】 【Create models】,进入主对话框,将预测变量选入【Dependent Variables】。在【Method】下选择【Exponential Smoothing】,点击【Criteria】,在【Model Type】下选择【Simple】(进行简单指数平滑预测),点击【Continue】返回主对话框。 | ||||||||
| 实验总结:通过本次实验,我不仅仅是掌握操作步骤完成了实验任务,更重要的是在实验中验证自己的所学知识的掌握和运用。统计学的学习就是对数据的学习,而通过实验可以加强我们对统计数据的认知和运用,更好的学习统计学的知识。经过了几节课的实验,我发现做实验有许多需要注意的地方,尤其输入数据时不能出错,只有掌握了这些技巧才能让实验结果变的更加准确和方便。 | ||||||||
| 教师评语: | ||||||||
| 本次实验成 绩 | 项目 | 预习 | 实验过程 | 练习题 | 报告书写 | 出勤和实验纪律 | 其他 | |
| 得分 | ||||||||
| 成绩合计: | ||||||||
| 教师签字: | 批改日期: | |||||||
(1)绘制散点图,计算相关系数,说明二者之间的关系。
(2)以人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(3)计算判定系数和估计标准误差,并解释其意义。
(4)检验回归方程线性关系的显著性。(ɑ=0.05)
(5)如果某地区的人均GDP为5000元,预测其人均消费水平。
(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
| Model Summaryb | ||||||||||||||||
| Model | R | R Square | Adjusted R Square | Std. Error of the Estimate | ||||||||||||
| 1 | .998a | .996 | .996 | 247.303 | ||||||||||||
| a. Predictors: (Constant), 人均GDP(元) | ||||||||||||||||
| b.Dependent Variable: 人均消费水平(元) ANOVAb | ||||||||||||||||
| Model | Sum of Squares | df | Mean Square | F | Sig. | |||||||||||
| 1 | Regression | 8.144E7 | 1 | 8.144E7 | 1331.692 | .000a | ||||||||||
| Residual | 305795.034 | 5 | 61159.007 | |||||||||||||
| Total | 8.175E7 | 6 | ||||||||||||||
| a. Predictors: (Constant), 人均GDP(元) | ||||||||||||||||
| b. Dependent Variable: 人均消费水平(元) | ||||||||||||||||
| Coefficientsa | ||||||||||||||||||
| Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||||||||||||||
| B | Std. Error | Beta | ||||||||||||||||
| 1 | (Constant) | 734.693 | 139.540 | 5.265 | .003 | |||||||||||||
| 人均GDP(元) | .309 | .008 | .998 | 36.492 | .000 | |||||||||||||
| a. Dependent Variable: 人均消费水平(元) | ||||||||||||||||||
| Residuals Statisticsa | ||||||||||||||||||
| Minimum | Maximum | Mean | Std. Deviation | N | ||||||||||||||
| Predicted Value | 1556.41 | 11398.76 | 4515.57 | 3684.313 | 7 | |||||||||||||
| Std. Predicted Value | -.803 | 1.868 | .000 | 1.000 | 7 | |||||||||||||
| Standard Error of Predicted Value | 93.871 | 210.510 | 127.368 | 38.209 | 7 | |||||||||||||
| Adjusted Predicted Value | 1539.17 | 11011.39 | 4473.54 | 3583.076 | 7 | |||||||||||||
| Residual | -341.707 | 290.035 | .000 | 225.756 | 7 | |||||||||||||
| Std. Residual | -1.382 | 1.173 | .000 | .913 | 7 | |||||||||||||
| Stud. Residual | -1.612 | 1.268 | .053 | 1.094 | 7 | |||||||||||||
| Deleted Residual | -4.815 | 534.613 | 42.035 | 350.168 | 7 | ||||||||||||
| Stud. Deleted Residual | -2.079 | 1.376 | .006 | 1.237 | 7 | ||||||||||||
| Mahal. Distance | .007 | 3.490 | .857 | 1.184 | 7 | ||||||||||||
| Cook's Distance | .010 | 1.693 | .359 | .608 | 7 | ||||||||||||
| Centered Leverage Value | .001 | .582 | .143 | .197 | 7 | ||||||||||||
| a.Dependent Variable: 人均消费水平(元) (1)由excel的CORREL函数计算相关系数=0.998128,说明人均GDP和人均消费水平高度相关。 | |||||||||||||||||
y =734.6928+0.308683x
回归系数的含义:人均GDP每增加1元,人均消费增加0.309元。
(3)判定系数R²=0.996,估计标准误差=247.303
意义:人均GDP对人均消费水平的影响达到99.6%。
(4)设H0:β1=0,人均消费水平与人均GDP之间的线性关系不显著。
F=1331.6921,Fɑ=6.61,F>Fɑ,拒绝原假设,即线性关系显著。
(5)y =734.6928+0.308683x=734.6928+0.308683×5000=2278.1078(元)
(6)置信区间为(1990.74915,2565.46399)
9.3随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数金子那个调查,所得数据如下:(数据略)
(1)用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解释其意义。
(2)检验回归系数的显著性。(ɑ=0.05)
(3)如果航班的正点率为80%,估计顾客的投诉次数。
| Model Summaryb | ||||||||||||||||
| Model | R | R Square | Adjusted R Square | Std. Error of the Estimate | ||||||||||||
| 1 | .869a | .755 | .724 | 18.887 | ||||||||||||
| a. Predictors: (Constant), 航班正点率(%) | ||||||||||||||||
| b.Dependent Variable: 投诉次数(次) ANOVAb | ||||||||||||||||
| Model | Sum of Squares | df | Mean Square | F | Sig. | |||||||||||
| 1 | Regression | 8772.584 | 1 | 8772.584 | 24.592 | .001a | ||||||||||
| Residual | 2853.816 | 8 | 356.727 | |||||||||||||
| Total | 11626.400 | 9 | ||||||||||||||
| a. Predictors: (Constant), 航班正点率(%) | ||||||||||||||||
| b. Dependent Variable: 投诉次数(次) | ||||||||||||||||
| Coefficientsa | ||||||||||||||||
| Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||||||||||||
| B | Std. Error | Beta | ||||||||||||||
| 1 | (Constant) | 430.1 | 72.155 | 5.962 | .000 | |||||||||||
| 航班正点率(%) | -4.701 | .948 | -.869 | -4.959 | .001 | |||||||||||
| a. Dependent Variable: 投诉次数(次) | ||||||||||||||||
| Residuals Statisticsa | ||||||||||||||||
| Minimum | Maximum | Mean | Std. Deviation | N | ||||||||||||
| Predicted Value | .55 | 108.20 | 73.60 | 31.221 | 10 | |||||||||||
| Std. Predicted Value | -2.340 | 1.108 | .000 | 1.000 | 10 | |||||||||||
| Standard Error of Predicted Value | 5.975 | 15.5 | 7.957 | 2.988 | 10 | |||||||||||
| Adjusted Predicted Value | -41.80 | 102.99 | 69.49 | 42.144 | 10 | |||||||||||
| Residual | -24.678 | 24.615 | .000 | 17.807 | 10 | |||||||||||
| Std. Residual | -1.307 | 1.303 | .000 | .943 | 10 | |||||||||||
| Stud. Residual | -1.451 | 1.710 | .075 | 1.127 | 10 | |||||||||||
| Deleted Residual | -30.425 | 59.804 | 4.115 | 28.047 | 10 | ||||||||||
| Stud. Deleted Residual | -1.581 | 2.009 | .100 | 1.220 | 10 | ||||||||||
| Mahal. Distance | .001 | 5.474 | .900 | 1.657 | 10 | ||||||||||
| Cook's Distance | .001 | 3.551 | .441 | 1.096 | 10 | ||||||||||
| Centered Leverage Value | .000 | .608 | .100 | .184 | 10 | ||||||||||
| a. Dependent Variable: 投诉次数(次) | |||||||||||||||
回归系数的意义:回归系数-4.701表示航班正点率每增加1%,顾客投诉次数平均下降4.7次。
(2)检验回归系数显著性:P=0.0011<0.05,表明回归系数显著,即航班正点率对投诉次数有显著影响。
(3)航班正点率为80%时估计投诉次数为54.139;
航班正点率为80%时,平均投诉次数预测区间为(54.139±16.479);
航班正点率为80%时,某一特定航空公司投诉次数预测区间为(54.13±46.567);
11.1下表是1991-2008年我国小麦产量(单位:万吨)数据:(数据略)
(1)分别采用3期移动平均法和指数平滑法(ɑ=0.3)预测2009年的小麦产量。将实际值和预测值绘图进行比较。
(2)分析预测误差,说明哪种方法预测更合适?
解:(1)
| 年份 | 小麦产量 | 移动平均法 | 指数平滑法 | ||
| K=3 | 预测误差 | ɑ=0.3 | 预测误差 | ||
| 1991 | 9595.3 | ||||
| 1992 | 10158.7 | 9595.3 | 563.4 | ||
| 1993 | 10639.0 | 10131.0 | 508.0 | 97.3 | 874.7 |
| 1994 | 9929.7 | 10242.5 | -312.8 | 10026.7 | -97.0 |
| 1995 | 10220.7 | 10263.1 | -42.4 | 9997.6 | 223.1 |
| 1996 | 11056.9 | 10402.4 | 654.5 | 100.5 | 992.4 |
| 1997 | 12328.9 | 11202.2 | 1126.7 | 10362.2 | 1966.7 |
| 1998 | 10972.6 | 11452.8 | -480.2 | 10952.2 | 20.4 |
| 1999 | 11388.0 | 11563.2 | -175.2 | 10958.4 | 429.6 |
| 2000 | 9963.6 | 10774.7 | -811.1 | 11087.2 | -1123.6 |
| 2001 | 9387.3 | 10246.3 | -859.0 | 10750.2 | -1362.9 |
| 2002 | 9029.0 | 9460.0 | -431.0 | 10341.3 | -1312.3 |
| 2003 | 88.8 | 9021.7 | -372.9 | 9947.6 | -1298.8 |
| 2004 | 9195.2 | 57.7 | 237.5 | 9558.0 | -362.8 |
| 2005 | 9744.5 | 9196.2 | 548.3 | 9449.1 | 295.4 |
| 2006 | 10846.6 | 9928.8 | 917.8 | 9537.7 | 1308.9 |
| 2007 | 10929.8 | 10507.0 | 422.8 | 9930.4 | 999.4 |
| 2008 | 11246.4 | 11007.6 | 238.8 | 10230.2 | 1016.2 |
| 2009 | 11088.1 | 10535.1 | |||
| 预测误差和 | 1170.0 | 3132.6 |
(2)移动平均法的预测误差比指数平滑法的小,所以前者更合适。
11.3下表是某只股票连续35个交易日的收盘价格。分别拟合回归直线
ˆYt=b0+b1t、二阶曲线ˆYt=b0+b1t+b2t²和三阶曲线ˆYt=b0+b1t+b2t²+b3t³,并对结果进行比较。
| 直线 | 二阶曲线 | 三阶曲线 | |||
| Intercept | 374.1613 | Intercept | 381.42 | Intercept | 372.5617 |
| X Variable 1 | -0.6137 | X Variable 1 | -1.8272 | X Variable 1 | 1.0030 |
| X Variable 2 | 0.0337 | X Variable 2 | -0.1601 | ||
| X Variable 3 | 0.0036 | ||||
线性趋势:
二阶曲线:
三阶曲线:
根据趋势方程求得的预测值和预测误差如下表:
| 时间t | 观测值Y | 直线 | 二阶曲线 | 三阶曲线 | |||
| 预测 | 误差平方 | 预测 | 误差平方 | 预测 | 误差平方 | ||
| 1 | 372 | 373.5 | 2.4 | 379.9 | 61.6 | 373.4 | 2.0 |
| 2 | 370 | 372.9 | 8.6 | 378.1 | 66.0 | 374.0 | 15.6 |
| 3 | 374 | 372.3 | 2.8 | 376.5 | 6.1 | 374.2 | 0.1 |
| 4 | 375 | 371.7 | 10.8 | 374.9 | 0.0 | 374.2 | 0.6 |
| 5 | 377 | 371.1 | 34.9 | 373.4 | 13.3 | 374.0 | 8.9 |
| 6 | 377 | 370.5 | 42.5 | 371.9 | 26.1 | 373.6 | 11.6 |
| 7 | 374 | 369.9 | 17.1 | 370.5 | 12.2 | 373.0 | 1.1 |
| 8 | 372 | 369.3 | 7.6 | 369.2 | 7.9 | 372.2 | 0.0 |
| 9 | 373 | 368.6 | 19.0 | 367.9 | 25.7 | 371.2 | 3.1 |
| 10 | 372 | 368.0 | 15.8 | 366.7 | 27.6 | 370.2 | 3.3 |
| 11 | 369 | 367.4 | 2.5 | 365.6 | 11.4 | 369.0 | 0.0 |
| 12 | 367 | 366.8 | 0.0 | 3.6 | 5.9 | 367.7 | 0.6 |
| 13 | 367 | 366.2 | 0.7 | 363.6 | 11.6 | 366.4 | 0.3 |
| 14 | 365 | 365.6 | 0.3 | 362.7 | 5.4 | 365.1 | 0.0 |
| 15 | 363 | 365.0 | 3.8 | 361.8 | 1.4 | 363.7 | 0.5 |
| 16 | 359 | 3.3 | 28.5 | 361.0 | 4.2 | 362.3 | 11.1 |
| 17 | 358 | 363.7 | 32.8 | 360.3 | 5.4 | 361.0 | 8.9 |
| 18 | 359 | 363.1 | 16.9 | 359.7 | 0.5 | 359.7 | 0.5 |
| 19 | 360 | 362.5 | 6.3 | 359.1 | 0.8 | 358.4 | 2.4 |
| 20 | 357 | 361.9 | 23.9 | 358.6 | 2.5 | 357.3 | 0.1 |
| 21 | 356 | 361.3 | 27.8 | 358.1 | 4.6 | 356.3 | 0.1 |
| 22 | 352 | 360.7 | 75.0 | 357.8 | 33.2 | 355.4 | 11.3 |
| 23 | 348 | 360.0 | 145.1 | 357.5 | .3 | 354.6 | 43.7 |
| 24 | 353 | 359.4 | 41.4 | 357.2 | 17.7 | 354.0 | 1.1 |
| 25 | 356 | 358.8 | 7.9 | 357.0 | 1.1 | 353.7 | 5.5 |
| 26 | 356 | 358.2 | 4.9 | 356.9 | 0.9 | 353.5 | 6.3 |
| 27 | 356 | 357.6 | 2.5 | 356.9 | 0.8 | 353.6 | 5.9 |
| 28 | 359 | 357.0 | 4.1 | 356.9 | 4.4 | 353.9 | 25.8 |
| 29 | 360 | 356.4 | 13.2 | 357.0 | 9.0 | 354.5 | 29.8 |
| 30 | 357 | 355.7 | 1.6 | 357.2 | 0.0 | 355.5 | 2.3 |
| 31 | 357 | 355.1 | 3.5 | 357.4 | 0.2 | 356.7 | 0.1 |
| 32 | 355 | 354.5 | 0.2 | 357.7 | 7.2 | 358.3 | 11.0 |
| 33 | 356 | 353.9 | 4.4 | 358.1 | 4.2 | 360.3 | 18.4 |
| 34 | 363 | 353.3 | 94.2 | 358.5 | 20.4 | 362.7 | 0.1 |
| 35 | 365 | 352.7 | 151.8 | 359.0 | 36.2 | 365.4 | 0.2 |
| 合计 | — | — | 854.9 | — | 524.7 | — | 232.1 |
直线:
二阶曲:
三阶曲线:
比较各预测误差可知,直线的误差最大,三阶曲线的误差最小。
从不同趋势方程的预测图也可以看出,三阶曲线与原序列的拟合下载本文