习题2:
据说某地汽油的价格是115美分/gal,为了验证这种说法,一位司机开车随机择了一些加油站,得到某年1月和2月的数据如下(不完整):
| 1月 | 119 | 117 | 115 | 116 | … | 109 | 109 | 118 |
| 2月 | 118 | 119 | 115 | 122 | … | 126 | 118 | 125 |
2)分别给出1月和2月汽油价格的置信区间(α=0.05)
3)如何给出1月和2月汽油价格差的置信区间(α=0.05)
1.模型建立
本题中应该假设两个月该地区加油站的油价整体符合正态分布,可以进行正态性检验。随后进行假设检验:
为价格平均值,由此可以得到1月和2月汽油价格的置信区间;
对于两个月的价格差的区间估计问题,应该分两种情况进行讨论,一种是认为两个月的数据对应行是来自同一个加油站,则首先应求得两个月差价的20组数据,然后在显著性水平α下确定的置信区间:
如果认为两个月的数据是完全随机的,就不能采用1、2月对应数据的差作为新的数据,应采用两总体的t分布检验,可以利用假设检验的命令实现区间估计。
2.程序设计
问题1和问题2:
)对1月和2月的数据分别进行正态性检验:
x1=[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];
x2=[118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125];
mu=115; 原始数据
[h1,p1,lstat1,cv1]=lillietest(x1)
[h2,p2,lstat2,cv2]=lillietest(x2)
%进行Lilliefors检验,适用于一般的正态性检验,即Ho:总体服从正态分布,其中,为样本均值和方差估计。
)对1和2月的数据分别进行假设检验,并得到置信区间,由于总体方差未知,所以采用t检验法:
输出均值
[h1,sig1,ci1,z1]=ttest(x1,mu,0.05)
[h2,sig2,ci2,z2]=ttest(x2,mu,0.05)
针对数据的两种可能采用不同的方法对两个月的数据进行区估计,仍采用假设检验的命令:
假设两个月的数据是对应的:
,0.05);
假设两个月的数据是完全随机的:
]=ttest2(x1,x2,0.05); 两个总体的均值的假设检验
3.运行结果和分析
)对1月和2月的数据分别进行正态性检验:
h1 = 0
lstat1= 0.09399251105
cv1 = 0.192000000000000
lstat2= 0.131********4013
接受1、2月数据负总正态分布的假设,可以进行假设检验。
2)对1月和2月的数据分别进行假设检验
% mean(x1)
% mean(x2)
h 接受1月汽油价格为115美分/gal的假设
sig1 = 0.82160061275
%
ci1 =
1.0e+002 *
1.133388195729442 1.169611804270558
%1月汽油价格的置信区间,可以看到115在区间内。
z 统计量
h 拒绝接受2月汽油价格为115美分/gal的假设
sig2 = 1.3240735570471e-006
ci2 =
1.0e+002 *
1.1901262155904 1.224871037844096
%2月汽油价格的置信区间,可以看到115不在区间内
z2 =
tstat: 6.928134300817383
结果:
接受1月份价格为115美分/gal的假设,其置信区间为
[113.3388,116.9612];
不接受2月份价格为115美分/gal的假设,其置信区间为
[119.0129,122.4871]
3)针对数据的两种可能采用不同的方法对两个月的数据进行区估计,仍采用假设检验的命令:
◆假设两组数据来自同一个加油站
h
%拒绝x1-x2=0(1、2月份价格不变)的假设,实际上这一问是做区间估计,假%设检验的结果无所谓
.0392********
%x1-x2的置信区间
结果:
,即1、2月份汽油价格差在3.0393~8.1607区间内的概率是95%。
◆假设两组数据完全
h %拒绝1、2月份价格不变的假设
sig4 = 3.695200350359776e-005
ci4 = .027*********
%置信区间
结果:
,即1、2月份汽油价格差在3.1727~8.0274区间内的概率是95%。
两种计算得到的结果略有不同。
4.SIG参数的意义
进行假设检验时得到的参数sig,其意义为,可以自编程序实现对sig的重现:
t=(mean(x2)-mu)/(std(x2)/sqrt(20)) %统计量t(2月)
tt=tcdf(t,19); %,
ttt=tpdf(t,19); %t值对应的概率密度函数值
=2*(1-tt) %
x=-5:0.01:5;
plot(x,tpdf(x,19),t,ttt,'r*'); %绘制t(19)分布的图形,并标记出统计 %量t的位置
结果:
t = 6.928134300817383
同之前直接利用ttest命令得到的结果相同(蓝色标注)。
可以看到统计量的位置已经大大超过了的范围,sig 的值是上图中红点和其关于0点对称的绿点外侧对应的概率,根据其求解过程,可以将其定义为:在一组统计数据下,错误的否定正确的Ho假设的概率。这是建立在假设Ho恒成立的基本前提下的一种判别方法,事实上体现了假设检验的基本思想。
对1月数据进行同样的处理:
习题8:
20名学生参加了某课程进行的、考察同样知识的两次测验,成绩如下表,根据这些数据判断两次检验的难度是否相同。
表:20名学生的两次测验成绩(每列是同一名学生的两次成绩)
| 第一次 | 93 | 85 | 79 | 90 | … | 83 | 83 | 85 |
| 第二次 | 88 | 86 | 85 | … | 88 | 88 | 90 |
1)本题的两个样本不是的。首先应该检验两次测验成绩的差是否符合总体正态分布,如果符合,可以对差进行假设检验的方法进行处理。
[h0,p0]=lillietest(x(1,:)- x(2,:))
2)在正态检验合格的前提下,对两组数据的差,进行假设检验,其中,Ho: x1-x2=0:
mean(x(1,:)-x(2,:))
mu=0;alpha=0.05;
[h1,sig1,ci1,z1]=ttest(x(1,:)-x(2,:),mu,alpha)
2.运行结果和分析
1) 正态性检验的结果:
| 0.05 | 0.035 | 0.036 | 0.037 | |
| h0 | 1 | 0 | 1 | 1 |
2) 假设检验的结果:
h1 = 拒绝接受两次考试成绩相同(难度相同)的假设
sig1 = 考试难度相同但被错认为难度不同的概率,小于=0.05
c
%置信区间,因考试难度是不能完全的用成绩差的数字大小衡量,所以此指标实际意义不大
z1 = tstat: -2.170746061851117
df: 19
sd: 6.798606668397500
总之,不能接受前后两次考试难度一样的假设。下载本文