1.当今世界最流行的三大统计分析软件包:SPSS、SAS、BMDP
2.SPSS公司其英文全称以前是Statistical Package for the Social Science,现在变为Statistical Product and Service Solutions
SPSS 15.0 的特点和优势
3.可以同时打开多个数据文件
4.提供了2种作图方法:新的交互式作图法+原来的对话框作图。两种方法各有特点,但交互式作图法更直接、方便,
认识SPSS
1.数据窗口:系统按打开数据文件的顺序给个临时编号,例如[dataset 2]
2.变量窗口:类型为numeric的变量又分为三个测量层次,即nominal、ordinal、scale
3.数据文件窗口菜单常用功能简介《Y》P15-18
4.输出文件窗口:
(1)每执行一个需要记录的操作,系统会自动弹出一个记录操作过程的输出文件窗口,以供选择是否对该步操作进行记录。(一般只保存最重要的数据文件和输出结果文件,无需将所有的操作过程都保存下来。)
(2)系统会按输出文件窗口弹出的顺序给个临时编号,例如[document 3]
(3)左侧的目录树与右侧具体输出结果的一一对应关系
数据文件的建立
1.变量的属性及设置
(1)必须要自己设定的几个属性:变量名(Name)、变量类型(Type)、测量层次(Measurement)
●变量名(Name)必须以汉字或字母开头,且系统不区分大小写
●变量类型(Type)有若干:数值型(Numeric)、字符型(String,例如姓名类问题变量)、日期型(Date,例如出生年月类问题变量)等,本课程涉及最多的为数值型变量。(Y:展示各种类型的数据)
●测量层次(Measurement)分为三类:Nominal、Ordinal、Scale
(2)其他属性可采用系统默认,例如默认的缺失值为空格 《Y》P40
2.将问卷中的问题转换为数据文件中的变量
(1)单选题:通常用题号本身作变量名
(2)矩阵表格题:设计成可以属性不同的4个变量 《Y》P42
(3)多选题:设计成几个属性相同的变量,例如《Y》P43
3.数据的录入 (Y:休闲调查)
(1)用View菜单下的value label命令来变换数据录入窗口中的显示——变量的取值/取值标签
(2)查看变量的信息:用Utilities菜单下的Variables命令 / 通过变量窗口查看
4.Excel数据文件的导入 (T)
在SPSS中先新建一个空白数据文档 File-New-Data
选好要导入的Excel文档 File-Open-Data (注意该文档在Excel中不能是打开状态;且在导入前最好将该Excel文档中每个变量的取值性质统一,详见《Y》P47)
接下来的对话框中系统默认的选项为 Read variable names from the first row of data
练习:将“考试成绩”Excel文件导入SPSS中保存为数据文件
数据文件的管理、处理与整理
1.File菜单下的命令:新建、打开、保存、显示、预览、打印 《Y》P24-28
2.Edit菜单下的命令:Undo、Redo、Paste、Paste Variables、Clear、Insert Variables、Insert Cases、
Find、Go to Case等 《Y》P29
练习:主要练习操作以上下划线部分的命令
3.Data菜单下的命令:
(1)Identify Duplicate Cases 《Y》P31 《Z》P60-61
●如果某个案的信息的确被重复录入了,则删除
●T:用数据文件“数学和英语成绩”练习 □ Indicator of primary cases (1 = unique or primary,0 = duplicate) 功能
●有时用于开放式问题的归类整理,此时
a)可以勾选 □ Sequential count of matching case in each group ( 0 = nonmatching case )
□ Move matching cases to the top of the file
b) 但不要勾选 □ Display frequencies for created variables ,否则输出的频数统计表容易误导理解
●T(用于开放式问题的归类整理): 询问被访者关于应该如何控制房价方面的意见或建议,从开放式答案中可以归纳出意见比较集中的几种措施,在数据文件中设置一个nominal scale 的变量以便对该问题的答案进行归类和整理。
注:我的笔记本电脑E盘中该位置上有问题,还是用U盘操作练习吧。
(2)Sort Cases 与find case 练习(Y:考试成绩):先将Excel数据文件导入SPSS,再按“先数学,后语文”的多重变量排序
(3)Select Cases 《Y》P70-74 (Y:考试成绩1)
●Select cases中各选项间的关系为互斥,而非“在某选项操作的基础上可以再进行关于另一选项的操作”。
●使用If condition is satisfied功能时:
a)稍复杂一点的表达式软件是不认的;
b)变量的Type必须设为Numeric(设为String则不能用此功能),Measure的设置无所谓。
(4) Weigh Cases 《Z》P55-56
●如果若干不同个案的信息确实完全相同, 则只需录入一次, 并且要另设一个表明该记录出现频数的变量Count,用于在数据分析前进行Weigh Cases(加权) 过程。
●此后的数据分析均按此权重进行,除非再自行取消该加权功能。
●该功能选项框中Frequency (把哪个变量作为权重变量)一项要选Count,而非其他变量
●(T):计算在不加权和加权两种情况下的英语均值
(5)Transpose 《Y》P75-76
●该功能适用环境:除了对变量进行分析外,有时也需要对个案进行分析。这种情况下,就需要把个案转换为变 量。
●(T):无论原始数据文件中是否有序号变量(编号),都可以做转置。
●又例:几个知名的电器卖场在各个电器品牌上的销量数据表可以用来做品牌的销量分析,通过转置也可以后对几个卖场分别的销售情况进行分析。
(6)Merge Files 《Y》P55-67 《Z》P68-71 (T)填空选择
●纵向合并(Add cases)后的文件在变量上取的是两个数据文件变量的交集,而个案上取的却是两个数据文件各自个案的简单相加(非交集或并集的关系);而横向合并(Add variables)后的文件(可以理解为)取的是两个数据文件变量的并集,但只将外部数据文件与当前(原)数据文件中名称不同的变量合并进来,对于两个文件中名称相同的变量,只把原文件中的同名变量保存下来,而舍弃外部文件中的该同名变量(即便两个同名变量的属性设置不同),而将其放置到exclude variables 中。
●如果想避免简单执行Add variables后的文件中变量与个案达不成匹配而是阴差阳错,可以按关键变量合并,但必须先将两个数据文件按关键变量排序
●在□ Match cases on key variables 下,只有选择了○ Both files provide cases项,才能选择□ Indicate case source as variable [Source 01],则合并后的文件中该变量取值(0或1)表明:在当前数据文件(active data file)基础上新合并进来的变量在每个个案上的取值分别来自哪个数据文件(是来自active data file还是external data file)
●以Non-active dataset 为关键表时,合并后则当前文件中的个案将都被保留下来,外部文件中的新变量加入进来;以Active dataset 为关键表时,合并后则外部文件中的个案将都被保留下来,当前文件中的新变量加入进来。
●练习(Y:考试成绩1+考试成绩2):按讲过的各种方式合并,并观察结果。
(7)Split Files 《Y》P68-70直接输出结果
●其实就是对数据文件进行分组(分割),随后的分析将对每个组分别进行
●在Split File对话框中需要选择文件的排序状态,永远选Sort file by grouping variables 不会错(即系统默认);只有在进入分割程序前已经按分组变量(如果选择了多个分组变量,则是大组套小组的多层分组)的取值对文件进行排序的情况下,才可以选File is already sorted
●分组(分割)后的数据文件窗口右下角标有Split File on
●(T):a.按班级分组,计算各组英语均分
b.按性别分组,计算各组英语均分
c.按先班级后性别的原则分组,计算各小组英语均分
(8)Aggregate 《Y》P76-81要进行分析
●前面的处理与Split Files相似,即按照某分类变量的取值对数据文件进行分组(分类),再对各组进行针对另一个变量的描述统计分析;后面的处理是将该分析结果保存为一个新的数据文件(分类变量的每个类别/组将成为一个个案),以便再进一步进行统计分析。
●Break Variables(分类变量) 和Summaries of Variables(汇总变量,通常为尺度变量)都要求是Numeric型
●典型实例:某年级有若干个班,将其中所有学生的考试成绩录入成为一个数据文件。要求:计算出每个班各科的平均成绩,并对这些班各科的平均成绩进行比较分析。
●有些问题的分析,用Aggregate或Split file后再Descriptive Statistics两种方法都行;而对于有些问题而言,前者较后者适用范围更直接方便,只是输出为数据文件(.sav)而非后者的分析结果文件(.spo),例如:
a.解决(Y:贫困调查)中两城市出生在1930年-1940年间的贫困者占各自城市总贫困人口的比例问题,用aggregate功能则直接方便得多。
b.解决(Y:贫困调查)中类似“两城市的贫困者中男女各自的人数”问题,用aggregate功能直接方便得多。具体操作: 在Break Variables中选择“城市”和“性别”两个分类变量 (双重分组), 在Summaries of Variables中什么都不选,勾选□ Number of cases即可
●Summaries of Variables 下,如果想统计出分组的最终层次上(相对于多变量分组的情况)各组的频次,就勾选 □ Number of cases
●确定汇总后数据文件的文件名:用Write a new data file…… 选项下面的File按钮来实现
●Options for Very Large Datasets 下选 □ Sort file before aggregating,因为一般数据文件都没有按指定的分组变量取值预先排好了顺序的
●练习(Y:考试成绩3) :
① 《Y》P81
② 对各班男女生人数进行统计之后再比较分析 (多层分组,既Break Variables中所选为不只一个变量)
③ 对各班男女生的数学平均分进行统计之后再比较分析 (多层分组)
4.Transform菜单下的命令:Rank Cases 《Y》P51-55 (Y:考试成绩1)
●一般在Ties对话框里选Sequential ranks to unique values 的多
单变量的描述统计分析(Analyze—Descriptive Statistics)
1.频数分析-Frequencies 《Y》P99-103
●更多用于离散型数据,即定类(Nominal)和定序(Ordinal)变量的统计描述
●练习 (Y:休闲调查1) :对文化程度、职业状况、读书1、读书2 进行频数分析并输出图形
2.描述统计-Descriptives 《Y》P104-105
● 更多用于尺度变量(定距Interval和定比Rational)的统计描述
● 练习 (Y:休闲调查1) :对年龄、家庭月收入、住房面积 进行描述统计
均值分析输出结果
1.均值分析包括4方面内容:单样本均值检验,样本均值检验,配对样本均值检验,方差分析。
2.单样本T检验(One Sample T Test) 《Y》P121-123
(1) 基本思想:先根据经验或以往的调查结果对总体均值提出一个假设(即μ=μ0),然后用计算出来的样本均值X
检验一下:总体均值是否为μ0 ?
(2) 大样本可以用Z(为近似)检验或t检验(更精确)都可以;但小样本只能用t检验。后者的小样本检验需要满足两个前提:
●总体服从正态分布
●总体方差未知
(3) 实例详解,见《Y》P123 (Y:休闲调查 )
(4) 练习 (Y:休闲调查) :对家庭月收入为1500元进行检验
3.样本T检验 (Independent-Samples T Test) 《Y》P124-128
(1)基本思想:按照一定分组原则将所有个案分为两部分,将这两部分视为两个的样本。先对两样本进行方差齐性检验,确认具有等方差性后,再用T检验方法来检验两样本来自的总体的均值是否相等。
(2)上述检验的适用环境对应二版书P151表5.13中的情况③,其中包括三个前提:
●两总体为正态分布
●两总体方差未知
●两总体方差齐性(相等)
(3)分组变量的取值问题 《Y》P125
(4)实例详解,见《Y》P126-128 (Y:贫困调查+休闲调查 )
方差分析
1. 一元方差分析(One-Way ANOVA) 《Y》P134-138
●相对于进行多次双样本均值检验的优越性
●前提:因变量(Dependent)在影响因素(Independent或Factor)各个水平上都服从正态分布,彼此,且具有等方差性。因变量为尺度变量(Scale),影响因素(自变量)为定类(Nominal)或定序(Ordinal)变量。
●在Option对话框中,一般选这三项就可以了:Descriptive、Homogeneity of variances、Means plot
●练习 (Y:休闲调查1) :分别以“文化程度”和“职业类型”为影响因素,对“家月收入”进行方差分析
1.平均数的多重比较 《Y》P138-140
●方差分析结果只能告诉我们:各类别间的均值并不都相等。但究竟在类别间谁与谁存在显著的均值差异,这还要进行平均值的多重比较。
●原理简述:二版统计教材 P231
●实例详解 (T):二版统计教材P223行业因素对企业被投诉数的方差分析,并且有必要时做多重比较。
●Post Hoc对话框中,我们只需选择Equal Variances Assumed 下面的LSD选项;输出结果表中数据后面带“*” 的表示两类别间的均值差在0.05水平上是显著的。
●练习 (Y:休闲调查1) :分别以“文化程度”和“职业类型”为影响因素,对“家月收入”进行多重比较的方差分析。
注意:用“职业类型”为影响因素做时,输出结果有个warning(某类别的样本数太少),说明了为什么系统拒绝做此多重比较。
相关与回归分析表
1.Pearson线性相关分析 二版统计教材P258-260 +《Y》P141-144
2.一元线性回归分析 《Y》P144-152
●如果以回归分析为目的,则无需先进行相关分析再判断是否有回归的必要。直接做回归,从输出结果中即可方便地看到相关分析的结果,以此判断回归分析的结果是否有意义。
●对5个假定条件(二版统计教材P263-2)的检验和对方程本身的3方面检验(回归系数的显性检验、拟合度、回归方程的显性检验)分别通过哪些输出结果中的表和图来完成 《Y》P145
●对于一元线性回归来说,对回归系数(主要指β)的t检验等价于对整个回归方程显著性的F检验,因为只有一个自变量,两者的数量关系为t2 = F 《Z》P345
●给定自变量值,做因变量值的回归预测时要注意:一定要在运行回归分析功能之前就先在数据文件中输入好要做预测的自变量值,否则无法实现预测功能。
练习 (Y:休闲调查1) :预测自变量“家月收入”为1900时因变量“住房面积”为多少?
以下内容(图与表的做法和编辑)分派各小组学生讲
输出统计表的编辑 P183-188
●按照教材中的小标题(功能简介)逐一串讲下来
●输出结果表格上面的抬头叫Title,表格下面的注释叫Caption,再下面的关于表格中具体内容的解释叫Footnote
交互式作图法绘制统计图 P191-235知道图形类型即可
SPSS 15.0版本有两种作图法:以往的对话框作图法,也就是12.0以下版本的作图方法,模块比较多;另一种就是新增的交互式作图法,相对于前者简便、易行、直观。
1.条形图(Bar Chart) P191-202
●简单条形图的概念 P191
●在Bar Chart Options中Bar Labels的选择 P195
●练习(Y:休闲调查):P198—199 两个实例
●分类条形图的概念 P199
●无论是简单条形图还是分类条形图,系统都不会接受一个尺度变量作为(横轴的)分类变量
●练习(Y:休闲调查):P201—202 两个实例
2.饼图 / 圆形图 (Pie Chart) P208—215
●用于描述定类、定序变量或取值很少的尺度变量的分布
●练习(Y:贫困调查):P212 简单饼图实例 + P214 分类饼图实例
3.直方图 (Histogram) P215—219
●用于对尺度变量分布的描述
●做直方图时一定要选择二维平面图,因为三维坐标图或立体图很容易造成无法一目了然地看清分析变量的频率或频数分布情况
●如果需要自行确定组数或组距,用Histogram选项卡中的Number of interval 和 Width of interval 来实现 P217-218
●如果选择了Cumulative histogram一项,则做出的图只有累计(频率)直方图;如果想做出某变量的频率分布直方图,则不要选Cumulative histogram一项。
●练习(Y:休闲调查):P218 实例
4.散点图 (Scatterplot) P219—225
●用两个变量所确定的点在坐标系中的分布来反映变量之间的关系,例如是否线性、是否等方差性。
5.分类输出多个图形(一组图形) P226
6.图形编辑 P227—238 (细碎得没必要讲,让学生自己粗粗地看着书实践一下即可)
需求预测方法简介:
一.预测方法的选择取决于6方面因素:《管经》P90
二.定性方法(一般只适用于中短期)
1.调查、工商等部门单位的支出预算
2.调查消费者较大的开支意向(适用于对电器、汽车、住房、教育等大的消费项目的需求预测)
3.征询专家(德尔菲法是为了避免权威人士的意见左右其他人的意见)和销售人员(工作在第一
线,最了解销售状况)意见
4.小组访谈法、投射法等需要心理学人才参与的方法
三.定量方法
(一)时间序列
1.总趋势预测
(1)时距扩大法及其优缺点:预测长期趋势 《胡》P309
(2)领先指标法:预测经济周期或某行业的兴衰趋势 《管经》P101
2.季节性预测(短期)
(1)趋势比率法 《管经》P96
(2)亚变量法:有明显季节波动特征时,引入亚变量到回归方程中,但这种自变量与因变量之间不反映因果关系。 《管经》P86+97
3.简单平滑技术预测
前提:当时间序列数据无明显长期趋势或季节波动特征时,也就是说表现出的波动主要为随机性波动时,简单平滑技术预测很有效。
(1)移动/滑动平均法:赋予各期实际观察值以相同的权重 《管经》P98
(2)指数平滑法:越近的观察值,赋予越大的权重 《管经》P99
(二)回归预测
1.趋势模型法:包括线性与非线性两种情况,都是时间序列,也属于以时间t作为解释变量的回归分析。同于上述“亚变量法”的是,自变量与因变量之间不反映因果关系。 《统2版教材》P310
2.单方程法:引入了一系列影响需求的典型经济变量的多元回归,其中包括该产品自身价格、替代品价格、互补品价格、消费者可支配收入、人口规模、企业广告费用支出。预测时,各类自变量的数据获得来源参见《管经》P107;另外,可用最近一两期的历史数据来检验预测的可靠性,具体参见《管经》P107。
3.多方程法:不用于企业的产品需求预测,而是用于宏观的国民收入预测。 《管经》P107下载本文