视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
数学实验 11:统计推断
2025-10-03 14:38:14 责编:小OO
文档
实验 11:统计推断

习题2:

据说某地汽油的价格是115美分/gal,为了验证这种说法,一位司机开车随机择了一些加油站,得到某年1月和2月的数据如下(不完整):

1月

119117115116109109118
2月

118119115122126118125
1)分别用两个月的数据检验这种说法的可靠性;

2)分别给出1月和2月汽油价格的置信区间(α=0.05)

3)如何给出1月和2月汽油价格差的置信区间(α=0.05)

1.模型建立

    本题中应该假设两个月该地区加油站的油价整体符合正态分布,可以进行正态性检验。随后进行假设检验:

为价格平均值,由此可以得到1月和2月汽油价格的置信区间;

 对于两个月的价格差的区间估计问题,应该分两种情况进行讨论,一种是认为两个月的数据对应行是来自同一个加油站,则首先应求得两个月差价的20组数据,然后在显著性水平α下确定的置信区间:

如果认为两个月的数据是完全随机的,就不能采用1、2月对应数据的差作为新的数据,应采用两总体的t分布检验,可以利用假设检验的命令实现区间估计。

2.程序设计

 问题1和问题2:

 )对1月和2月的数据分别进行正态性检验:

x1=[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];

x2=[118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125];

mu=115;    原始数据

[h1,p1,lstat1,cv1]=lillietest(x1)

[h2,p2,lstat2,cv2]=lillietest(x2)

%进行Lilliefors检验,适用于一般的正态性检验,即Ho:总体服从正态分布,其中,为样本均值和方差估计。

 )对1和2月的数据分别进行假设检验,并得到置信区间,由于总体方差未知,所以采用t检验法:

      输出均值

 [h1,sig1,ci1,z1]=ttest(x1,mu,0.05)

 

  [h2,sig2,ci2,z2]=ttest(x2,mu,0.05)

 针对数据的两种可能采用不同的方法对两个月的数据进行区估计,仍采用假设检验的命令:

 假设两个月的数据是对应的:

 ,0.05);

 假设两个月的数据是完全随机的:

 ]=ttest2(x1,x2,0.05);   两个总体的均值的假设检验

3.运行结果和分析

 )对1月和2月的数据分别进行正态性检验:

h1 =      0

lstat1= 0.09399251105

cv1 =     0.192000000000000

lstat2= 0.131********4013

 接受1、2月数据负总正态分布的假设,可以进行假设检验。

 2)对1月和2月的数据分别进行假设检验

      % mean(x1)

      % mean(x2)

h       接受1月汽油价格为115美分/gal的假设

sig1 =   0.82160061275        

ci1 =

  1.0e+002 *

   1.133388195729442   1.169611804270558 

%1月汽油价格的置信区间,可以看到115在区间内。

z  统计量  

h      拒绝接受2月汽油价格为115美分/gal的假设

sig2 =   1.3240735570471e-006

ci2 =

  1.0e+002 *

   1.1901262155904   1.224871037844096

%2月汽油价格的置信区间,可以看到115不在区间内

z2 =

    tstat: 6.928134300817383

结果:

接受1月份价格为115美分/gal的假设,其置信区间为

[113.3388,116.9612];

不接受2月份价格为115美分/gal的假设,其置信区间为

[119.0129,122.4871]

3)针对数据的两种可能采用不同的方法对两个月的数据进行区估计,仍采用假设检验的命令:

◆假设两组数据来自同一个加油站

h       

%拒绝x1-x2=0(1、2月份价格不变)的假设,实际上这一问是做区间估计,假%设检验的结果无所谓

.0392********

%x1-x2的置信区间

结果:

,即1、2月份汽油价格差在3.0393~8.1607区间内的概率是95%。

◆假设两组数据完全

h    %拒绝1、2月份价格不变的假设

sig4 =   3.695200350359776e-005

ci4 = .027*********

%置信区间

结果:

,即1、2月份汽油价格差在3.1727~8.0274区间内的概率是95%。

两种计算得到的结果略有不同。

4.SIG参数的意义

    进行假设检验时得到的参数sig,其意义为,可以自编程序实现对sig的重现:

 t=(mean(x2)-mu)/(std(x2)/sqrt(20))  %统计量t(2月)

 tt=tcdf(t,19);       %,

 ttt=tpdf(t,19);       %t值对应的概率密度函数值

      

 =2*(1-tt)       %

 x=-5:0.01:5;          

 plot(x,tpdf(x,19),t,ttt,'r*');     %绘制t(19)分布的图形,并标记出统计          %量t的位置

结果:

t =          6.928134300817383

同之前直接利用ttest命令得到的结果相同(蓝色标注)。

可以看到统计量的位置已经大大超过了的范围,sig 的值是上图中红点和其关于0点对称的绿点外侧对应的概率,根据其求解过程,可以将其定义为:在一组统计数据下,错误的否定正确的Ho假设的概率。这是建立在假设Ho恒成立的基本前提下的一种判别方法,事实上体现了假设检验的基本思想。

对1月数据进行同样的处理:

习题8:

20名学生参加了某课程进行的、考察同样知识的两次测验,成绩如下表,根据这些数据判断两次检验的难度是否相同。

表:20名学生的两次测验成绩(每列是同一名学生的两次成绩)

第一次938579 90838385
第二次888685888890
1. 程序设计

1)本题的两个样本不是的。首先应该检验两次测验成绩的差是否符合总体正态分布,如果符合,可以对差进行假设检验的方法进行处理。

[h0,p0]=lillietest(x(1,:)- x(2,:))

2)在正态检验合格的前提下,对两组数据的差,进行假设检验,其中,Ho: x1-x2=0:

mean(x(1,:)-x(2,:))

mu=0;alpha=0.05;

[h1,sig1,ci1,z1]=ttest(x(1,:)-x(2,:),mu,alpha)

2.运行结果和分析

1) 正态性检验的结果:

0.050.0350.0360.037
h01011
根据参数的意义,p0表示:x(1,:)-x(2,:),即成绩之差符合正态分布但是被错误决绝的概率;作为显著性水平,其越小允许错误筛去符合正态的数据的概率越小。对于默认的=0.05,不能接受数据为正态的假设,但是只要略微放宽约束, =0.35,即如果成绩之差的确为正态,仅有3.5%的概率被筛去,此时可以接受成绩之差符合正态分布的假设。由于值仍然不是太小,所以可以接受并继续运算。

2) 假设检验的结果:

h1 =       拒绝接受两次考试成绩相同(难度相同)的假设 

sig1 =    考试难度相同但被错认为难度不同的概率,小于=0.05

c     

%置信区间,因考试难度是不能完全的用成绩差的数字大小衡量,所以此指标实际意义不大

 z1 =     tstat: -2.170746061851117

     df: 19

     sd: 6.798606668397500

总之,不能接受前后两次考试难度一样的假设。下载本文

显示全文
专题