| 实验主题 | 专业统计软件应用 | ||||||||
| 实验题目 | 相关分析 | ||||||||
| 实训时间 | 2011 学年 2 学期 15 周 (2011年 5月30日—31日) | ||||||||
| 学生姓名 | 官其虎 | 学号 | 2009211467 | 班级 | 0360901 | ||||
| 实训地点 | 信息管理实验室 | 设备号 | B25 | 指导教师 | 刘进 | ||||
衡量事物之间,或称变量之间线性相关程度的强弱并用适当的统计指标表示出来,这个过程就是相关分析。相关系数是衡量变量之间相关程度的一个指标,总体的相关系数用ρ表示,样本的相关系数用r表示。
理解和学会使用相关分析方法解决问题。
二 实验内容
第一题:K.K.Smith在烟草杂交繁殖的花上收集到如表8.16所示的数据,要求对以上3组数据两两之间进行相关分析,以0.05的显著性水平检验相关系数的显著性。(数据来源:《统计软件SPSS系列应用实践篇》 苏金明 ,电子工业出版社;数据文件:data8-5.sav)
表8.16 K.K.Smith所调查的长度资料
| 花瓣长 | 49 | 44 | 32 | 42 | 32 | 53 | 36 | 39 | 37 | 45 | 41 | 48 | 45 | 39 | 40 | 34 | 37 | 35 |
| 花枝长 | 27 | 24 | 12 | 22 | 13 | 29 | 14 | 20 | 1 | 21 | 22 | 25 | 23 | 18 | 20 | 15 | 20 | 13 |
| 花萼长 | 1 | 16 | 12 | 17 | 10 | 19 | 15 | 14 | 15 | 21 | 14 | 22 | 22 | 15 | 14 | 15 | 15 | 16 |
是分析两个变量变量之间的相关关系,称为单相关,三个或以上变量之间的相关关系称为相关,这种相关涉及一个因变量与两个以上的自变量,在实际工作中,如果存在多个自变量与一个因变量的关系,则应抓住其中最主要的因素,研究其相关关系。调用Bivariate过程时允许同时输入两个变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。检测的零假设是两个变量的相关系数为0。
2、实验步骤:
第1步 分析:分析三组数据的两两之间的相关性,而且给出的是具体的数值,这是一个二元相关性问题;
第2步 数据组织:将三个变量分别定义为花瓣、花枝和花萼;
第3步 按Analyze|Correlate|Bivariate顺序打开二元变量的分析主对话框Bivariate Correlations;运行即可(你再单击Options按钮,打开Bivaiate Correlations:Option对话框,选择Statistics方框内的两个复选框,看效果又如何。)
3、实验结果:
| Descriptive Statistics | |||||||||
| Mean | Std. Deviation | N | |||||||
| 花瓣长 | 40.44 | 5.973 | 18 | ||||||
| 花枝长 | 19.67 | 5.029 | 18 | ||||||
| 花萼长 | 16.17 | 3.294 | 18 | ||||||
| Correlations | |||||||||
| 花瓣长 | 花枝长 | 花萼长 | |||||||
| 花瓣长 | Pearson Correlation | 1 | .955** | .797** | |||||
| Sig. (2-tailed) | .000 | .000 | |||||||
| Sum of Squares and Cross-poducts | 606.444 | 487.667 | 266.667 | ||||||
| Cvariance | 35.673 | 28.686 | 15.686 | ||||||
| N | 18 | 18 | 18 | ||||||
| 花枝长 | Pearson Correlation | .955** | 1 | .678** | |||||
| Sig. (2-tailed) | .000 | .002 | |||||||
| Sum of Squares and Cross-products | 487.667 | 430.000 | 191.000 | ||||||
| Covariance | 28.686 | 25.294 | 11.235 | ||||||
| N | 18 | 18 | 18 | ||||||
| 花萼长 | Pearson Correlation | .797** | .678** | 1 | |||||
| Sig. (2-tailed) | .000 | .002 | |||||||
| Sum of Squares and Cross-products | 266.667 | 191.000 | 184.500 | ||||||
| Covariance | 15.686 | 11.235 | 10.853 | ||||||
| N | 18 | 18 | 18 | ||||||
| **. Correlation is significant at the 0.01 level (2-tailed). | |||||||||
第二题:试确定1962-1988年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关性,数据如表8.17所示。(数据来源:《数据统计与管理》 1990年第5期,中国商场统计研究会主办;数据文件:data8-6.sav)
表8.17 1962-1988年安徽省国民收入数据表
| 年份 | 1962 | 1963 | 19 | 1965 | 1966 | 1967 | 1968 | 1969 | 1970 | 1971 | 1972 | 1973 | 1974 | 1975 |
| 国民收入(亿元) | 34.61 | 35.67 | 39.52 | 47.32 | 54.14 | 50.86 | 49.69 | 51.61 | 65.06 | 72.57 | 77.72 | 83.57 | 82 | 87.44 |
| 存款余额(亿元) | 0.59 | 0.1 | 0.85 | 1 | 1.22 | 1.14 | 1.32 | 1.28 | 1.35 | .6 | 1.87 | 4.2 | 2.55 | 2.61 |
| 年份 | 1976 | 1977 | 1978 | 1979 | 1980 | 1981 | 1982 | 1983 | 1984 | 1985 | 1986 | 1987 | 1988 | |
| 国民收入(亿元) | 95.63 | 97.23 | 103.81 | 116.29 | 127.87 | 150.29 | 161.47 | 180.2 | 221.17 | 271.81 | 310.53 | 357.86 | 444.78 | |
| 存款余额(亿元) | 2.74 | 3.13 | 3.91 | 5.75 | 8.76 | 12.19 | 16.36 | 20.95 | 28.32 | 38.43 | 55.43 | 74.2 | .83 |
是分析两个变量变量之间的相关关系,称为单相关,三个或以上变量之间的相关关系称为相关,这种相关涉及一个因变量与两个以上的自变量,在实际工作中,如果存在多个自变量与一个因变量的关系,则应抓住其中最主要的因素,研究其相关关系。调用Bivariate过程时允许同时输入两个变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。检测的零假设是两个变量的相关系数为0。
2、实验步骤:
第1步 分析:分析三组数据的两两之间的相关性,而且给出的是具体的数值,这是一个二元相关性问题;
第2步 数据组织:将2个变量分别定义为国民收入与城乡居民储蓄存款余额;
第3步 按Analyze|Correlate|Bivariate顺序打开二元变量的分析主对话框Bivariate Correlations;运行即可(你再单击Options按钮,打开Bivaiate Correlations:Option对话框,选择Statistics方框内的两个复选框,看效果又如何。)
3、实验结果:
| Descriptive Statistics | ||||||||
| Mean | Std. Deviation | |||||||
| 国民收入 | 128.5452 | 106.18753 | 27 | |||||
| 存款余额 | 14.1219 | 23.79693 | 27 | |||||
| Correlations | ||||||||
| 国民收入 | 存款余额 | |||||||
| 国民收入 | Pearson Correlation | 1 | .976** | |||||
| Sig. (2-tailed) | .000 | |||||||
| Sum of Squares and Cross-products | 293170.567 | 137.265 | ||||||
| Covariance | 11275.791 | 2466.818 | ||||||
| N | 27 | 27 | ||||||
| 存款余额 | Pearson Crrelation | .976** | 1 | |||||
| Sig. (2-tailed) | .000 | |||||||
| Sum of Squares and Cross-products | 137.265 | 14723.639 | ||||||
| Covariance | 2466.818 | 566.294 | ||||||
| N | 27 | 27 | ||||||
| **. Correlation is significant at the 0.01 level (2-tailed). | ||||||||
第三题:某高校抽样得到10名短跑运动员,测出100米的名次和跳高的名次如表8.18,问这两个名次是否在0.05的显著性水平下具有相关性。(数据来源:《应用统计学:数据统计方法、数据获取与SPSS应用》 马庆国,科学出版社;数据文件:data8-7.sav)
表8.18 10名运动员的100米及跳高名次
| 百米名次 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 跳高名次 | 4 | 3 | 1 | 5 | 2 | 7 | 10 | 8 | 9 | 6 |
2、实验步骤:
第1步 分析:分析三组数据的两两之间的相关性,而且给出的是具体的数值,这是一个二元相关性问题;
第2步 数据组织:将2个变量分别定义为百米名次和跳高名次
第3步 按Analyze|Correlate|Bivariate顺序打开二元变量的分析主对话框Bivariate Correlations;运行即可(你再单击Options按钮,打开Bivaiate Correlations:Option对话框,选择Statistics方框内的两个复选框,看效果又如何。)
3、实验结果:
| Descriptive Statistics | ||||||||
| Mean | Std. Deviation | N | ||||||
| 百米名次 | 5.50 | 3.028 | 10 | |||||
| 跳高名次 | 5.50 | 3.028 | 10 | |||||
| Correlations | ||||||||
| 百米名次 | 跳高名次 | |||||||
| 百米名次 | Pearson Correlation | 1 | .697* | |||||
| Sig. (2-tailed) | .025 | |||||||
| Sum of Squares and Cross-products | 82.500 | 57.500 | ||||||
| Covariance | 9.167 | 6.3 | ||||||
| N | 10 | 10 | ||||||
| 跳高名次 | Pearson Correlation | .697* | 1 | |||||
| Sig. (2-tailed) | .025 | |||||||
| Sum of Squares and Cross-products | 57.500 | 82.500 | ||||||
| Covariance | 6.3 | 9.167 | ||||||
| N | 10 | 10 | ||||||
| *. Correlation is significant at the 0.05 level (2-tailed). | ||||||||
第四题:某公司太阳镜销售情况如表8.19所示,请分析销售量与平均价格、广告费用和日照时间之间的关系,并说明此题用偏相关分析是否有实际意义(显著性水平为0.05)。(数据来源:《SPSS for Windows统计分析(第3版)》 卢纹岱,电子工业出版社;数据文件:data8-8.sav)
表8.19 某公司销售太阳镜的数据
| 月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
| 销量 | 75 | 90 | 148 | 183 | 242 | 263 | 278 | 318 | 256 | 200 | 140 | 80 |
| 价格 | 6.8 | 6.5 | 6 | 3.5 | 3 | 2.9 | 2.6 | 2.1 | 3.1 | 3.6 | 4.2 | 4.2 |
| 广告费用 | 2 | 5 | 6 | 7 | 22 | 25 | 28 | 30 | 22 | 18 | 10 | 2 |
| 日照时间 | 2.4 | 4 | 4.2 | 6.8 | 8 | 8.4 | 10.4 | 11.5 | 9.6 | 6.1 | 3.4 | 2 |
2、实验步骤:
第1步 分析:这4个因素彼此均有影响,分析时应对生长量与4个因素分别求偏相关,在求销售量与一个因素的相关时控制其他因素的影响,然后比较相关系数,按4个因素对销售量的
影响的大小排序。
第2步 定义变量:销售量与平均价格、广告费用和日照时间;
第3步 按Analyze|Correlate|Partial顺序启动偏相关分析的主对话框,指定分析变量和控制变量,第一次分析变量为销售量与平均价格,其余为控制变量。在主对话框中使用系统默认的双尾检验,显示实际的显著性概率;在Option对话框中选择要求输出各变量的均值和标准差,显示Pearson相关系数矩阵,对缺失值的正理使用系统默认值。
3、实验结果:
| Correlations | ||||||||||
| Control Variables | 销量 | 价格 | ||||||||
| 广告费用 & 日照时间 | 销量 | Correlation | 1.000 | -.699 | ||||||
| Significance (2-tailed) | . | .024 | ||||||||
| df | 0 | 8 | ||||||||
| 价格 | Correlation | -.699 | 1.000 | |||||||
| Significance (2-tailed) | .024 | . | ||||||||
| df | 8 | 0 | ||||||||
| Correlations | ||||||||||
| Control Variables | 销量 | 广告费用 | ||||||||
| 日照时间 & 价格 | 销量 | Correlation | 1.000 | .666 | ||||||
| Significance (2-tailed) | . | .036 | ||||||||
| df | 0 | 8 | ||||||||
| 广告费用 | Correlation | .666 | 1.000 | |||||||
| Significance (2-tailed) | .036 | . | ||||||||
| df | 8 | 0 | ||||||||
| Correlations | ||||||||||
| Control Variables | 销量 | 日照时间 | ||||||||
| 价格 & 广告费用 | 销量 | Correlation | 1.000 | .866 | ||||||
| Significance (2-tailed) | . | .001 | ||||||||
| df | 0 | 8 | ||||||||
| 日照时间 | Correlation | .866 | 1.000 | |||||||
| Significance (2-tailed) | .001 | . | ||||||||
| df | 8 | 0 | ||||||||
销量和广告费用的偏相关分析表可得销量和广告费用无相关显著性;销量和日照时间的偏相关分析表可得销量和日照时间有相关显著性。
第五题:某动物产下3个幼仔,现分别对3个幼仔的长、体重、四肢总长、头重进行测量,试就这几个测量数据而言,用距离分析法分析3个幼仔的相似性,数据如表8.20所示。(数据文件为:data8-9.sav)
表8.20 三个幼仔的数据指标
| 序号 | 长 | 体重 | 四肢总长 | 头重 |
| 1 | 50 | 215 | 100 | 11 |
| 2 | 51 | 220 | 110 | 12 |
| 3 | 52 | 220 | 112 | 12 |
2、实验步骤:
第1步 分析:这是一个求个案间的相关性(相似性)问题。
第2步 按Analyze|Correlate|Distances打开Distance对话框,并选Between Cases(个案之间)和Similarities(相似性),其它不作任何设置,运行。
3、实验结果:
| Case Processing Summary | ||||||||||
| Cases | ||||||||||
| Valid | Missing | Total | ||||||||
| N | Percent | N | Percent | N | Percent | |||||
| 3 | 100.0% | 0 | .0% | 3 | 100.0% | |||||
| Proximity Matrix | ||||||||||
| Euclidean Distance | ||||||||||
| 1 | 2 | 3 | ||||||||
| 1 | .000 | 11.269 | 13.191 | |||||||
| 2 | 11.269 | .000 | 2.236 | |||||||
| 3 | 13.191 | 2.236 | .000 | |||||||
| This is a dissimilarity matrix | ||||||||||
| 分析:第二个和第三个极相似。 |
人们在实践中发现,变量之间关系分为两种类型:函数关系和相关关系。函数关系是变量间的一咱确定性关系。但是,在实际问题中,变量间的关系往往并不是那么简单,也就是说,变量之间有着密切关系,但又不能由一个(或几个)变量的值确定另一个变量的值,这种变量之间的关系是不确定性关系,称为相关关系。其特点是:一个变量的取值不能由另一个变量唯一确定,即当自变量x取某个值时,因变量y的值可能会有多个。这种关系不确定的变量显然不能用函数形式予以描述,但也不是杂乱无章、无规律可循的。因此在本章利用spss软件学习了相关分析后,事物之间的相互关系及相似性,就可以很好的通过定量的计算出来而来。
通过本次实验用spass统计分析软件来进相关分析后,感觉统计学中的很多问题不再像以前那么陌生了,同时也感觉统计学不再是想象中那么困难,之前学习统计学最怕的就是对数据进行求解与分析,现在使用这款软件后,让我从之前对统计学的陌生转变为熟悉,从此,在解决统计方面的问题又多了一项解决的工具:spss。下载本文