数据处理
现代测量误差分析及数据处理(二)
林洪桦
(北京理工大学,北京100081)
二、误差概率分布的估计与检验
1.研究的必要性
传统的误差分析多设定误差服从正态分布,由此导出许多良好统计特性的数据处理方法。于是形成多数误差具有正态性概念,其实不然。因为[2-1]:
(1)正态误差便于理论分析及统计处理,具有良好的统计特性,但需满足一定条件:理论上按中心极限定理,多而小的因素所引起的误差均服从正态分布。实际上许多误差未必均满足这样理想的条件。
(2)非正态误差客观存在,且并非罕见。如舍入、截断、量化、数显等误差服从均匀分布;偏心引起度盘的分度偏差呈反正弦分布,而偏心值本身则呈瑞利(Rayleigh)分布;高精度加工所检出的合格参数误差常呈截尾正态分布;超精加工参数误差常呈指数分布等等。
(3)非正态误差的统计处理有异于正态误差,至少需多考虑三阶矩——偏态和四阶矩——峰态,甚至更高阶矩的特征,以及在估算、合成等统计处理上的特点。
(4)随着数字计算机与最优化技术的广泛应用,非正态误差的统计处理已成为可实现的,并已作出许多有效而实用的数据处理方法。
可见,研究误差概率分布的估计与检验,及非正态误差的统计处理方法,不仅十分必要还是现实急待解决的问题。
2.现有常见的非正态误差
并非凡是多而小的因素引起的误差就有可能是非正态分布误差。究竟应从哪些方面来分析正态和非正态误差的概率分布形式?试概括如下:
(1)有界等可能性量化误差,如舍入误差、数显误差、近似截取误差(如多项式略去微小高阶项之类)等,以及高精度测量中定位与对准(不计及具体方式下)的误差,空回误差、回转间隙等,宜按均匀分布处理。
(2)高精度单向误差多为偏态分布,其中安装偏心,以及由此引起的径向跳动、周节或圆周齿距累积误差等宜按瑞利分布(或偏心分布)处理;中心要素的形状和位置误差,其公差带呈圆、圆柱形者,宜按非中心瑞利分布处理;非中心要素的形状和位置误差,其公差带呈平行线或面、或矩形者,宜按绝对正态分布(或差值摸分布)处理;公差带或允许误差范围呈球形的误差宜按马克斯威尔分布处理。
(3)非线性函数误差多为非正态分布,如所熟知的统计量中,正态误差的平方和呈 2分布;正态误差除以其标准差呈t分布;两方差之商呈F分布等;偏心引起的度盘分度偏差、齿轮周节偏差等宜按反正弦分布处理;投影类误差宜按投影分布处理等。
(4)有显著变化规律影响的随机误差,如正态误差在线性变量叠加下接近于均匀分布;在正弦变量叠加下接近于反正弦分布;在对数变量叠加下接近于指数分布等等。在测量中有零点漂移或有变量系统误差时宜予考虑。
(5)高精度加工和测量中的分类误差,其中验收的合格参数误差宜按截尾正态分布处理,而废品参数误差则接近于指数分布或直角分布;按精度要求分组参数误差接近均匀分布;超精加工误差接近指数分布(至最大实体尺寸即停止所致)等等。
(6)少数误差的合成易呈非正态分布。如数量少于4,不同误差的标准差之比中个别的达2∶1或3∶1,或存在相关性等,且合成分布常取决于其中最大标准差的误差分布。又如两个相同或不同大小的均匀分布误差合成后分别为三角分布或梯形分布误差等等。
3.常用的误差概率分布及其特性
误差的统计特性可用概率分布密度p (x )或其各阶矩等特征量来反映。对非正态分布常
用前四阶特征量:均值x 、标准差s 、偏态系数
s
和峰态系数 k 来分别表征其中心位置、离散
度、不对称度和单峰凸度,其统计量分别为:
x =
∑n
i =1x i /n
s =(∑n i =1(x i -x )2/n )1/2 s =∑n
i =1(x i -x s )3/n
k =
∑n
i =1
(
x i -x s )4
/n )-3 (2-1)
在误差分析中至少要表示出分布范围:对称分布类:x ±ks
非对称分布类:x +k U S -k L
S (2-2)式中k 或k U 和k L 为与p (x )或 s 和 k 有关的
分布系数。
常用的误差概率分布及其特性见表2-1[2-2~5]。
表中 为不对称系数,用于表示非对称分布误差的界限,即k U =(1- )k ;k L =-(1+ )
k ,或测量结果估计在x +(1- )ks -(1+ )ks 范围内。
例2-1 在!4+0.002
孔用气动量规加工
中,不可修复废品率q =25%。在试加工中得x =4.0014mm,s =0.3∀m 。按2-1中的 单边截尾正态分布查得:q =25时, =0.4;k =2.5,则估计该量规尺寸在如下范围内,即
x +(1- )ks -(1+
)ks =4.0014+(1-0.4)×2.5×0.0003
-(1+0.4)×2.5×0.0003=4.0014+0.00045
-0.00105(mm )
均为合格(在可修复下)。
表2-1
常用误差概率分布
(1)对称分布类:∀=0; s =0; =0
1)拖尾分布类:x ∈(-∞,+∞) 正态分布p (x )=N (∀,#2
)=
1
2∃#ex p 〔(x -∀)2
2#〕
#=
E [(x -∀)2
] k =3(p =0.9973) k =0
2)有界分布类:x ∈[-a ,+a ]
均匀分布:
p (x )=U (-a ,+a )=1/(2a )
#=a /
3 k =3=1.73
k =-1.2
三角分布(Simp son 分布):
p (x )=(a +x )/a 2
,x ∈〔
-a ,0〕(a -x )/a 2,x ∈〔0,+a 〕
#=a /6 k =
6=2.45
k =-0.6
!梯形分布:
p (x )=(a +x )/(a 2-b 2),x ∈〔-a ,-b )〕
1/(a +b ),x ∈〔-b ,+b 〕
(a -x )/(a 2-b 2),x ∈〔+b ,+a 〕
#=(
a 2+
b 26
)1/2
b /a k k 1/4-0.6 2.381/2-1.0 2.183/4
-1.1
1.97
∀椭圆分布:
p (x )=2
∃a 2
a 2-x 2
#=a /2 k =2
k =-1
#反正弦分布:
p (x )=
1
∃a 2-x 2
#=a /2 k =
2=1.41
k
=-1.5∃对称截尾正态分布:
p (z )=1
(1-q )2∃#N ex p(-z 2/2)
z =x -∀#N ;Z a =
a -∀#N
q =(1-p )=1-〔!(z a )-!(-z a )〕!(z )=
∫
z
0%(z )d z ;%(z )=N (0,1)#=k #N
k =1-z a %(z a
)
!(z a
)
q /2 k k 0.01-0.50 2.500.03-0.60 2.380.07-0.90 2.080.10-1.05 1.920.15
-1.10
1.86
(2)非对称分布类:
1)拖尾分布类:x 或r ≥0
%瑞利分布(偏心分布):p (r )=r #0ex p(-r 2/2#20)=∃2∀2exp 〔-∃r 24∀2
〕
r =x 2+y 2;#0=#21+#22;x ~N (0,#21
);y ~N (0,#2
2)∀=∃2#0=∃
4-∃# =-0.28#=4-∃2#0=4-∃
∃∀ k =2.63 s =0.631 k =0.245&非中心瑞利分布:
p (r )=r #20ex p(-r 20+r 22#20)I 0(r 0r
#20
)
=u ex p (-u 2+u 20
2
)I 0(u 0u )u =r /#0;u 0=r 0/#0;I 0(・)-贝塞尔函数;
r =(x -r 0)2+y 2;#0=#21+#2
2
x ~N (0,#21);y ~N (0,#2
2)∀=
∃2#0ex p (-u 20
2
)・A A =∑
∞
n =0(2n +1)!!n !(2n )!!
(u 02)n
#=2#20+r 20-∀
2
∀/# k
1.91-0.273
2.63
1.93-0.261
2.612.00-0.229 2.592.14-0.177 2.602.35-0.111 2.652.48-0.076 2.692.78-0.011 2.81
绝对正态分布(差值模分布)p (r )=12∃#0
{ex p 〔-(r -∀0)2
2#2
0〕+ ex p 〔-(r +∀0)2
2#0
〕}
=%(u -u 0)+%(u +u 0)
r = x 1-x 2 ;u =r /#0;u 0=r 0/#0;
x 1~N (∀1,#21);x 2~N (∀2,#2
2);
∀0=∀1-∀2;#0=#21+#2
2
∀=2〔∀0!(u 0)+#0%(u 0)〕
#=#20+∀20-2∀2
∀/# s k k 1.350.9160.60-0.45 2.451.390.820
0.33
-0.42
2.411.550.639-0.03-0.34 2.361.790.352-0.31-0.25 2.392.090.221-0.30-0.16 2.482.440.084-0.18-0.07
2.63
!
指数分布:p (x )=c exp(-cx ) (c >0)∀=1/c s =2 =-0.57#=
1/c 2
k =6
k =2.3
2)有界分布类:x ∈〔a 1,a 2〕 ∀
直角分布:p (x )=(a +x )/2a 2,a =(a 2-a 1)/2∀=0.667a s =-0.6 =0.33#=
2a /3
k =0.556
k =2.12
非对称截尾正态分布:
p (z )=
1
(1-q )#N %(z )
z =x -∀N
#N
,x ~N (∀N ,#2N ),q =1-p =1-
〔!(z 2)-!(z 1)〕
z 1=a 1-∀N #N ;z 2=a 2-∀N
#N ;%(z )=12∃ex p (-z 2
2)
∀=∀N +
%(z 1)-%(z 2)
1-q
#=#N
×1-〔%(z 1
)-%(z 2)1-q
〕2-z 2%
(z 2)-z 1%(z 1)1-q 单边截尾时z ∈〔z 1,∞)或 (-∞,z 2〕
q
k 0.050.25 2.560.100.31 2.540.250.40 2.500.500.47
2.48
4.误差分布的估计方法
确定误差概率分布摸式的方法有两类:实验估计法与经验设定法。后者主要靠长期积累
的实用经验结合概率统计理论分析而设定的,如参考2节中 ~#来设定误差分布摸式。前者主要依靠实验统计分析,按实验观测的样本统计其频率分布,借不同方法拟合适用的概率分布模式,并估计其参数或特征量,这是较合乎实际的主要方法。常用的概
率分布估计法有[2-5]:
图2-14
(1)直方图法
直方图法是众所熟知的传统方法,即取n ≥50的样本{x i ,i =1,2,…,n };按适当的分组间隔&x 对样本按大小值分为m 组:x min =x (0)~x (1)~x (2)…x (m )=x max ,m =(x max -x min )/&x ;
统计各分组数据出现的频数n i 或频率f i =n i /
n ,及其式(2-1)的诸特征量:x 、s 、 s 和 k ;作出其直方图或经验分布图:(x (k ),f k ),k =1,2…,
m ,见图2-14[2-4、5]
。这里仅强调&x 或m 选择
要适当,否则难显示出分布规律,通常可按表2-2选取。最后,按直方图形态采用拟合法及优度检验判定分布摸式。
表2-2 分组数m 或分组间隔&x 选择
n
≥50
~60
~100~200~500>500&x =(x m a x - x min )/(1+ 3.3log n )
m 6~87~109~1212~17~20m =2n 2/5或1.87(n -1)2/5图2-15
(2)概率纸法
概率纸法也是熟知的传统方法,即将样本{x i ,i =1,2,…,n }小于给定值x (k )(k =1,2,…,m )的数据出现的累积频数n k 或累积频率
F k =n k n 或n k -0.3
n +0.4
(2-2)所形成的诸点(x (k ),F k ),标示在经适当变换后的其种典型分布(如正态、均匀、指数、二项、或韦布示(Weibull)等分布)的概率纸上[2-4]
。再借回归分析或相应的显著性检验法来判别其概率分布模式。如图2-15所示,若(x (k ),F k )点未超出查得的上、下界限F k ,L 、F k ,U ,即为该典型分布。
(3)最大熵法
最大熵法是根据最大熵原理(Jay nes,1957)按实测数据求解其概率分布及其参数的一种实用而有效的现代方法[1-1]。熵是信息论中用于度量信源不确定性的唯一量,也是随机性取值不确定性的一种度量。取值的概率越小相应的熵就越大,熵最大就是最不确定性。对于离散情况,设随机变量X 取值为x 1,x 2,…,x n
的概率分别为p 1,p 2,…,p n ,且∑n
i =1
p i =1,定义熵为[2~5、
1-1]
H (X )=-
∑n
i =1
p i
log p
i
(2-3)
最大熵法就是除依据所得数据{x i ,i =1,2,…,n }含有的信息外,如其均值x 、
标准差s 及其三、四阶等高阶矩等,不再加任何主观假定,而按最不确定性即最大熵准则确定其概率分布。最大熵法的数学模型为
m ax(-
∑n
i =1
p i
log p i
s .t .∑n
i =1
p i x k
i
=∑n
i =1
x k i
/n ,k
=0,1,…,m )
(2-4)
式中,s .t .表示约束条件。由此可解得分布密度
为
[1-1]
p (x )=ex p(∑m
k =1
∋k x k
)/∑n i =1
ex p(∑m k =1
∋k x k
i )
(2-5)式中,{∋k ,k =1,2,…,m }为待求常数,可由约束条件即按各阶样本矩求出。估计出p (x )后即可据其再求得所需的特征量,如期望∀、方差#2、偏态系数 s 及峰态系数 k 等(详见(六))。
其它误差分布的统计处理方法见(三)。
5.误差分布的检验方法
对所估计的误差概率分布模式是否适用多需经过拟合优度检验来判定。检验方法可分两类:特种分布检验和一般分布检验。特种分布检验又分为:概率纸法(对某种分布的概率纸标示点作回归检验)和特征量(按某种分布的特征量及其的关系构造统计量,判别其是否在置信区间。如现代提出的各种正态性检验即此)。一般分布检验也由传统的皮尔逊(Pear son) 2检验和柯一斯( ! ∀ # ∃-%!∋ ∃)检验分别发展
而派生成两类: 2
检验和经验分布检验[2-6]。具体检验方法繁多,这里仅择常用者列于表2-2[1-1、2]并举例说明其应用。
例2-2在立式光学比较仪上检定10mm 5等量块,所用基准量块偏差为-0.1∀m,其检定误差为±0.5∀m ,共10次重复测量数据处理结果见表2-3。该例采用表2-2中的偏、峰态法和柯—斯法检验数据的正态性,所得结论不同。若用小样本下的中位数法和极差法分别为
m e x =0.50.55
=0.909 〔0.9,1.1〕和R n S =1.0-0.3
0.196=3.57∈〔2.67,3.69〕其结论也不同。这主要是因n 较小,且x 9
=1.0∀m 偏大所致。该数据已超出格拉布斯准则的异常数据判别界限g n, =2.18( =0.05),即u 9=2.296>2.18。若剔除x 9,则偏、峰态检验接受正态性,其它检验亦然。是否肯定应剔除
x 9,如何处理更妥见后述的(四)和(五)。
表2-3
误差分布的检验方法
检验方法
依 据
统 计 量
界 限
判 别
Ⅰ 正态性检验:(x 1,x 2,…,x n )
排序
→x (1)≤x (2)≤…≤x (n )(小样本n ≤50)
2.极差法
3.偏峰态法
4.W 检验法
m e =∀#=R n /d n s =0; k =0
正态样本顺序统计量方差与协方差关系 m e /x
d
n =R n /s (n =5~10) s ; k ;〔
式(2-1)〕W =∑n /2
i =1
a n ,i (x (n -i +1)-x (i ))2
∑n
i =1(x i -x )2
(a n ,i -查表系数)
〔0.9,1.1〕
〔d n ,L ,d n ,U 〕 s ,U ;〔 k ,L , k ,U 〕W
0.9≤m e /x ≤1.1
d n ,L ≤d
n ≤d n ,U s ≤ s ,U
6
n
k ∈〔 k ,U ,
k ,U 〕24n
W ≥W
Ⅱ 一般分布检验法:原假设H 0:P (X 2.柯一斯法 在直方图法下, z i = f i -np i np i ~N (0,1)∑m i =1z 21~ 2 m -1P n (x ) n →∞ →P (x ) 2 =n ∑ n i =1 (f i -p i )2 p i x ~p (x ),p i —i 组中值分布密度D n = max i P i -P (x (i )) 1)P i =∑i j =1 f j (直方图 法)2)P i =(i -0.03)/(n + 0.4), i =#{x r -分布参数数 1)∋ 2)D n , 2≤ 2(m -r -1), 1)n D n ≤∋ →H 02)n 查统计手册 n 1015202530354050 s ,U 0.9500.8620.7770.7140.60.6240.5870.534 k ,L -1.44-1.73-1.18-1.09-1.02-0.97-0.93-0.85 k ,U 0.95 1.18 1.17 1.16 1.11 1.10 1.060.99 D n , 0.258 0.2200.1900.180 0.161 0.886/n 表2-4 10mm +x i ∀m 0.50.70.40.50.30.60.50.6 1.00.4x =0.55(i =x i -x -0.050.15-0.15-0.05-0.250.05-0.05 0.050.45-0.15s =0.196u i =(i /s -0.2550.765-0.765 -0.255 -1.276 0.255 -0.255 0.255 2.296 -0.765 偏峰态检验 s = n 6 ∑n i =1 u 3i /n = 1.00> s ,U =0.95 k =(n 24∑n i =1u 4i /n )-3=2.05 〔 k ,L =-1.44, k ,U =0.95〕非正态性 正态分布u (i ) -1.276-0.765-0.2550.2550.765 2.296柯一斯检验法2):P (u (i ))=! (u (i )) 0.10100.22250.39700.60070.77790.91D n =0.151 经验分布P i 0.0670.2590.5480.7400.8370.933 P (u (i ))-P i 0.034 0.037 0.151 0.139 0.059 0.056 (待续) 参考文献 [2-1] 林洪桦.非正态误差的统计处理与估算方法简介, 测量不确定度(专辑).北京:国家计量局法规处,1985,67~74 [2-2] M an on kian.EB.M odern Concepts and T heorems of M athem atical S tatistics .New York :Springer -Ver-lag ,1986 [2-3] 李纯甫.尺寸链分析与计算.北京:中国标准出版 社,1990 [2-4] %(#)∃ ∗∋&+,,#&− # ./# 0∋&0&.#01./∃))∃/ !)/&+) 2 3.Ⅰ、 Ⅱ.M 45678,1963[2-5] Pug achev VS.Probab ility Th eory an d M ath ematical S tatistics for En gineers ,Oxford :Pergamon Pres s ,1984 [2-6] 杨振海.拟合优度检验.合肥:安徽教育出版社, 1994下载本文