在对研究对象的综合属性进行评价时,往往涉及到许多变量指标。它们有的有一定的信息重叠性,有的有一定的关联性。为了找出影响事物属性的关键本质变量指标,我们首先就需要剔除重叠性和关联性等,这就是所谓的变量之间的相关性分析。这种相关性分析主要包括:(1)两个变量的相关性分析;(2)多个变量的整体相关性(广义相关系数)分析;(3)一个变量与其余多个变量(一组变量)的复相关性分析;(4)两个变量在给定一组变量条件下的偏相关性分析;(5)两组变量(每组为多元变量)之间的典型相关性分析。
第一节引言
在研究、分析、评价实际问题时,研究对象属性往往由多元变量指标刻画。但是,有些指标太多,有些指标包含了部分重叠信息,有些指标强烈地依赖于其它指标,这时需要对指标进行筛选以确定不相关(或者相关性不大)的、包含最多研究对象信息的、指标维数尽量小的主要指标变量。指标筛选的主要办法就是指标的相关性分析。同时,相关性分析也是数据多元分析的重要技术手段。
变量间的相关性涉及到变量或变量组之间的多种相关性,下面分别阐述。
(1)两变量间的相关性。最简单的就是这种两个变量之间的相关性,通常定义一个相关系数来量化两个变量之间的相关程度。它常被用于衡量两个指标间的相关性或相似性,如在地震勘探中,要对比两个地震记录波形的相似性;在无线电技术中,要将接受信号与某已知信号对比,根据两者之间的相似性做出某种判断;更一般地,当我们观察到多个变量时,要分析多个变量间的相似性,进行根据一定的标准,对这些变量进行筛选。因此,两个变量之间的相关性是变量间相关性分析的基础。
(2)多元变量的整体相关性。如果考察的变量是一组变量(多于两个变量),则需要考察这一组变量总体的相关性,也可称为多元整体相关性分析。对于一组变量的多元整体相关性常常采用广义相关系数(相对于前面的两个变量间的相关系数而言)来量化,有时也将广义相关系数称为混合相关系数。例如,对于获得的描述研究对象属性的多个变量指标,首先需要知道的就是这组变量整体相关吗?从而确定是否需要对变量之间的相关性做进一步的其它相关性分析。
(3)复相关性。复相关性分析指多元变量组中某一变量与其余剩余变量之间的相关性的分析,其量化指标是复相关系数(或多重相关系数)。这种相关性显然不同于多于变量整体相关性,涉及的是一个变量与一组变量之间的相关性问题。
(4)偏相关性。在讨论一组变量内部之间的相关性时,涉及到讨论一组变量里的某两个变量与之间的相关性,但这种相关性又不同于单独只有两个变量之间的相关性问题。因为这两个变量的相关性有一部分可能是受到其余变量的共同影响而产生的,当把这种影响按照一定的统计原理从与中消除后所做的相关性分析,就是所谓的偏相关性分析,常用偏相关系数来量化这种偏相关性。
(5)典型相关性。最后一种相关性,就是将讨论的变量分为两组(一般每组变量多于两个),考察这两组变量之间的相关性。或者是,直接讨论两组变量之间的相关性,例如,讨论农作物生长状态指标体系(一组变量)与土壤、肥料、管理等状态指标体系(另一组变量)之间的相关性就属于典型相关性分析。典型相关性分析常用典型相关系数来量化。
明确了变量间各种相关性分析所讨论的范围、概念、本质,才知道如何应用这些相关性概念或者相关系数去分析问题,解决问题。
第二节二元简单相关
衡量两个变量之间的相关性利用相关系数,其价值在于定量刻画两个数据向量
的相似程度。从几何上粗略地讲,将两个向量平移至相同起点,如果它们位于同一直线上,则有理由认为二者完全相似。即使二者不重合,但如果两向量的夹角较小,则也可以认为二者较相似。因此,用两向量夹角(希尔伯特空间)的正弦衡量其相似性是科学的,即有
通常称(5.1)为两变量的相似系数。
另一方面,两个变量X和Y可能是两组数据向量,如和是取自某两个连续变量X和Y的地震波波形采样时间序列,或者是某两个随机变量X和Y的总体抽样数据等,这时衡量它们的线性关程度可以如下思考:先由一组数据如确定一条拟合直线,然后再考察数据组到该直线距离的平均值的最小性,
为了计算的方便,将绝对值符号去掉,代之以平方和,
如果找到某个参数a、b使得上式的值Q=0,则可以认为X和Y完全相同,否则以Q的大小来衡量二者的相关程度。为了求出Q的值,可应用微分中值定理求解。通过推导(这里略去推导过程,有兴趣的读者不妨参考文献[1]),问题等价于用公式
衡量X与Y的相关程度,(5.2)被称为相关系数。显然,,当的值越大,说明X和Y越相关(相似),当的值越小(越接近于零),说明X和Y越不相关(不相似)。尤其是,当时,与(是各分量为1的列向量,常称为1向量,表示为)线性相关,当时,与正交,即最不相关。
另外容易看出,当变量X、Y标准化后代入公式(5.2)计算的相关系数与(5.1)计算的结果相同。
最后,还可以从概率出发考察变量X与Y的相关性。此时将X看成是某一指标的随机变量,看成样本点。设X和Y是两个随机变量(相当于考察的因素与指标),从概率知道,两个变量之间的线性相关程度可以用相关系数
来度量。显然,当把数据和看成随机变量X和Y的样本点,则应用样本点计算(5.3)式中的相关系数就与公式(5.2)相同。由概率知:(1)当时,大的X值趋于同大的Y值相关联,小的X值趋于同小的Y值相关联,表明变量X与Y之间是正相关;(2)当时,大的X值趋于同小的Y值相关联,小的X值趋于同大的Y值相关联,表明变量X与Y之间是负相关;(3)当时,表明Y的取值几乎完全不受X值的影响,变量X与Y之间不存在线性相关;(4)当时,变量X与Y之间是完全正相关;(5)当时,变量X与Y之间是完全负相关。后两种情况表明变量X与Y之间实质上是函数关系。需要说明的是,即使是出现情形(3),也只能说明变量X与Y之间不存在线性统计关系,但可能存在非线性统计关系。
但在实际应用中要判断变量X和Y之间是否存在线性相关性,或相关程度有多大,需要通过统计样本计算判断。这种计算带有一定的随机性。样本容量越小,随机性越大。因此,相关系数的推断涉及到显著性检验问题。对总体相关系数的假设检验就是对总体是否相关做出推断。
有了这些理论基础,下面给出简单线性相关分析过程步骤:
(1)设假设检验问题::。
(2)用公式(5.2)计算相关系数。
(3)假设检验问题。计算统计量
则统计量。给定显著性水平,查分布表以确定相应的临界值。
(4)判断。如果通过(5.4)计算的值满足,则接受假设,表明变量X与Y之间没有线性相关关系。否则,拒绝假设,表明变量X与Y之间有线性相关关系。
判断出变量X与Y之间有线性相关关系后,可以应用一元线性回归方法具体找出它们之间的线性关系。然后,再应用这种关系做出预测,指导生产实践。
第三节多元广义相关
前一节仅考察两个变量之间的相关性,事实上,在解决实际问题时,常常需要考察多个变量整体的相关性。当然,我们可以讨论变量组中每两两之间的相关性,当这并不能代表其整体的相关性。
假设有p个变量
,
为了方便,也表示变量的样本数据,记其样本数据矩阵为
则称
为的无关系数,其中的符号
表示向量组的格兰姆矩阵(参见定义2.11),而称
为的广义相关系数。
如果数据矩阵A的变量是来自某个随机变量总体的样本数据矩阵,则容易验证样本数据相关矩阵R就是标准化后的格兰姆矩阵
即样本相关系数矩阵就是数据的列向量经标准化后的格兰姆矩阵,故有。
为了讨论广义相关系数性质的方便,不妨假设给定的变量数据
都已经标准化,则其广义相关系数和无关系数有如下一些性质:
(1)。
(2)两两正交。
(3)线性相关。
(4)设是的特征值,则
(5)为了在无关系数和广义相关系数中表示出涉及到的变量维数,现在特别记变量组的广义相关系数为和无关系数为,并将它分成两组和,其中
记这两组的无关系数和广义相关系数分别为、、、,则有
即整体变量组的广义相关系数不小于分组变量广义相关系数之积。
(6)设T为任意正交矩阵,记变量组通过正交矩阵变换后的向量组的无关系数和广义相关系数分别为和,则有
(7)对于变量组,存在一组数(规定,某一数为零,则其后的所有数都为零),使得任意,依次有
称数为关于向量组的无关系数。
这些性质的数学推导或论证可参考文献[1]。
第四节多元复相关与偏相关
对于给定的多元变量,如果利用广义相关系数论证了这组变量整体相关,则我们有时需要进一步知道是其中哪个变量与其余变量相关,以便剔除此变量实现变量筛选。例如,在分析预测石油产量时,我们知道石油产量与油藏孔隙度、渗透率、含水饱和度、注入水量、注入压力、注入速度等有相关关系。这种相关关系包含了单种因素对石油产量的影响,但更重要的可能是某些因素综合影响着石油的产量,这就是多元复相关分析。
现在用数学语言来描述这种多元复相关问题。假设给定一个变量(常称为因变量)和一组变量(常称为自变量)数据,k=1,2,…,p。考虑这p个变量的线性组合(称为综合因素)
则称
为Y与变量组的多重相关系数或称复相关系数。有时为了显示变量组中变量个数,也将其记为。
对于给定的变量,假设获得样本数据,记其相关矩阵为
容易证明,(5.6)式中的复相关系数为
显然,是变量Y与变量组的样本相关矩阵,是变量组的样本相关矩阵。
在多元相关性分析中,还有一种情况就是某两个变量的相关性分析。但这种分析应该不同于仅有两个变量的相关性分析,因为两者间的相关性可能部分是受到同组其余变量的影响造成的,这就是所谓的偏相关性分析。
用数学语言描述。设给定变量组,现在讨论剔出变量组的影响后,变量与的相关性,这就是偏相关性分析。常称为在变量组给定的条件下,变量与的偏相关系数,记为。
为了计算偏相关系数,将变量组的样本协方差矩阵S写成分块矩阵形式,
则有
如果将样本相关系数矩阵做类似的分块,则可得另一计算公式
例5.1 测得几个小学生的智力X1,体重X2,和年龄X3的数据,计算出其相关系数矩阵为
可见,体重和智力是高度相关的(相关系数为0.6162)。然而,根据公式(5.9)计算出的偏相关系数。这表明原来的高度相关是由于体重和智力同随年龄增长,当消除年龄的因素之后,体重和智力的相关系数非常小以至于接近于零,几乎不相关。这是符合事实的。
再根据公式(5.7)计算出智力和体重的复相关系数为,然而,智力和年龄的相关系数,由此可见,体重对于智力的进一步作用是微乎其微的。
第五节典型相关
典型相关分析是霍特林(Hotelling)于1935年提出的,它是研究两组变量之间相关关系的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系。在实际中应用非常广泛。例如,在地质勘探中,我们在两个相邻矿区各自选择了若干标本。对于每个标本测得一些含矿指标,需要从这两组标本来分析两个矿区地含矿指标的相依情况。在医学中,统计了引起某两种疾病的各自因素,而引起每种疾病的因素可能很多,我们需要研究这两组病因之间的关系。一般而言,假设测定了两组变量数据和,典型相关就是研究这两组变量之间的相关关系。
典型相关性分析常采用类似于主成分分析法的思想,找出第一组变量的某个线性组合,再找出第二组变量的某个线性组合。这样,把研究两组变量之间的相关性问题转化为研究两个变量u和v之间的相关问题,希望使得u和v的相关达到最大。这种相关就称为典型相关。
一、数学原理
设给定两组随机变量和,以及协方差矩阵,,,即随机变量组的协方差为
其中,。
典型相关分析就是要找到变量组X的适当线性组合与变量组Y的适当线性组合,使得变量u与v的相关系数最大,这里
,
为此,需要计算u与v的相关系数,因为
所以u与v的相关系数为
由于对任意非零常数、,有,所以,可u和v均已经标准化,即附加条件
也就是
因此,根据前面的分析与假设,结合式(5.10)、(5.11)、(5.12),问题变为求解下列极值
求解(5.13)获得的解后,将其代入(5.10)便得到相关系数。于是,此时称、为第一对典型相关变量,为第一个典型相关系数。
第一对典型相关变量提取了原始变量组X、Y之间相关的主要部分。如果这一部分还显得不够,则可以在剩余相关中再求出第二对典型相关变量、,当然要满足(5.12)式,且显然不能包含第一对典型相关变量所含的信息,即
因此,根据式(5.13)、(5.14)、(5.15),求解第二对典型相关变量就是求解下列极值问题
设式(5.16)的解为,则得到第二对典型相关变量、,并将代入(5.10)就获得第二个典型相关系数。由此递推下去,一般求第k对典型相关变量就是对问题(5.13)再加上与前k-1对典型相关变量正交,此即
设式(5.17)的解为,则得到第k对典型相关变量、,并将代入(5.10)就获得第k个典型相关系数。
应用最优化原理知,式(5.13)、(5.16)、(5.17)的最优解是存在的,在此不再推证。有兴趣的读者可参考一些参考书,如文献[2]就推证了(5.13)的最优解,文献[1]给出了一般性的证明,下面将以定理的形式直接叙述而不加证明。为此,先引进一些数学符号。
假设和是非奇异的,令
根据定理1.5.3(文[1])知,矩阵M和N有相同的非零特征根,而且由知,所有非零特征根都是正的。设这些所有正特征根为
并且是M对应于的标准特征向量(k=1,2,…,r),是N对应于的标准特征向量(k=1,2,…,r),则有
定理5.1 令
,………(5.21)
则有结论:
(1)、分别称为X、Y的第k对典型数值向量;
(2)线性组合、分别称为X、Y的第k对典型变量;
(3)为X、Y的第k个典型相关系数。
将定理5.1中这些所有典型相关系数、、…、称为典型相关分析中的总体相关系数。
二、数学性质
下面介绍典型变量的一些性质以便在应用时可以参考。
1.同一组典型变量的相关性
从前面的讨论知道,X、Y的第k对典型变量为
、,k=1,2,…,r
于是,
,,k=1,2,…,r
这些等式表明,由组成的第一组典型变量互不相关,且均有单位方差。同样由组成的第二组典型变量也互不相关,且均有单位方差。
2.不同组典型变量的相关性
应用定理5.1及其(5.17)知
于是
这些表明,对于不同组的任意两个典型变量,当属于同一对典型变量时,两者相关,相关系数为典型相关系数;当属于不同对典型变量时,两者不相关。
这一性质也可表示为如下定理。
定理5.2 记,,则有
其中,。
3.原始变量与典型变量之间的相关系数
写
以及原始变量和之间的协方差矩阵
则有
等价地重新表述上面的等式,前两个等式等价于
同样后两个等式等价于
所以,
4.典型相关与简单相关、复相关之间的关系
当时,X与Y之间的典型相关就是它们之间的简单相关;当或时,X与Y之间的典型相关就是它们之间的复相关。因此,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。从第一个典型相关的定义可以看出,第一个典型相关系数至少同X或Y的任一分量与Y或X的复相关系数一样大。即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大。同样从复相关的定义可以看出,当或时,X或Y与Y或X之间的复相关系数也不会小于X或Y与Y或X的任一分量之间的相关系数。即使所有这些相关系数都很小,复相关系数仍可能很大。
三、假设检验
设,并同时假设对随机变量X和Y获得了n组样本数据,其样本协方差记为S,且n>p+q,则这里涉及到两种情况的假设检验。一是讨论两组变量之间是否存在相关性,即所有的总体典型相关系数是否都为零;另一种是部分总体相关系数是否为零的检验。
1.总体相关性的检验
对于这种情况,假设检验问题为
如果检验结果为接受,则认为讨论两组变量之间地相关性没有任何意义;如果拒绝,则认为第一对典型变量是显著的。实际上,假设等价于如下的假设检验问题:
成立表明随机变量X与Y互不相关。似然比检验统计量为
其中为随机变量组X和Y的对应样本估计量(5.18)。对于充分大的n(样本量),当成立时,统计量
近似服从自由度为pq的分布。在给定的显著性水平下,如果
则拒绝原假设,认为典型变量与之间的相关性是显著的。否则,认为第一个典型变量相关系数不显著。
2.部分相关性的检验
由于对两组随机变量X、Y进行典型相关性分析采用的依然是降维技术,所以我们希望使用尽可能少的典型变量对数。这就需要对一些较小的典型相关系数是否为零进行假设检验。如果前面的假设被拒绝,则应进一步检验假设:
如果假设被接受,则认为只有第一对典型变量是有用的。如果假设被拒绝,则认为第二对典型变量也是有用的,并需要进一步检验假设:
如此继续下去,直到某个k,其假设
被接受,这时可认为只有前k对典型变量是显著的。
对于假设,其检验统计量为
对于充分大的n,当为真时,统计量
近似服从自由度为的分布。给定显著性水平,如果
则拒绝原假设,认为第k+1个典型相关系数是显著的,即第k+1对典型变量显著相关。
以上的一系列检验实质上是一个序贯检验,检验直到对某个k值的未被拒绝为止。事实上,检验的总显著性水平已不是了,且难以确定。另外,检验的结果易受样本容量大小的影响。因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为唯一的依据。
四、计算方法
下面具体列出对两组变量和进行典型分析的步骤。但对于解决实际问题时,往往很难估计随机变量X和Y的协方差矩阵或相关矩阵R,所以通常都用样本对参数进行估计。假设对原始变量X和Y获得了样本数据,计算出的协方差矩阵为
则S可用作的估计。当样本容量n满足时,在一般情况下,S是正定矩阵,故一般可认为、存在。这样在计算时,可将两组随机变量X和Y的相关统计参数用样本矩阵进行估计。此时,计算典型相关系数的特征根矩阵(5.19)为如下矩阵
,
同时再令
显然矩阵和都是阶矩阵,和都是阶矩阵,并且根据第二章定理(文[1]215页)知、、和都有相同的特征根。这样用(5.23)代替(5.19)依然可以获得与定理5.1相同的结论,由此总结典型相关分析计算步骤如下。
Step 1:将变量X和Y标准化,并计算其样本协方差矩阵S。
Step 2:计算(5.23)式中的特征根(此时参数用相应样本估计值)及其对应的标准正交特征向量、,k=1,2,…r。
Step 3:根据(5.21)式计算典型数值向量、。
Step 4:计算典型变量、。
Step 5:计算典型相关系数。
第六节 应用范例
本节仅给出典型相关的应用实例。
例5.1 为了分析训练对对人的作用,某康复俱乐部对20名中年人测量了三个生理指标:体重、腰围、脉搏,以及三个训练指标:引体向上、起坐次数、跳跃次数。测得的样本数据见表5-1。
生理指标和训练指标数据表5-1
序号 | x1 | x2 | x3 | y1 | y2 | y3 |
1 | 191 | 36 | 50 | 5 | 162 | 60 |
2 | 1 | 37 | 52 | 2 | 110 | 60 |
3 | 193 | 38 | 58 | 12 | 101 | 101 |
4 | 162 | 35 | 62 | 12 | 105 | 37 |
5 | 1 | 35 | 46 | 13 | 155 | 58 |
6 | 182 | 36 | 56 | 4 | 101 | 42 |
7 | 211 | 38 | 56 | 8 | 101 | 38 |
8 | 167 | 34 | 60 | 6 | 125 | 40 |
9 | 176 | 31 | 74 | 15 | 200 | 40 |
10 | 154 | 33 | 56 | 17 | 251 | 250 |
11 | 169 | 34 | 50 | 17 | 120 | 38 |
12 | 166 | 33 | 52 | 13 | 210 | 115 |
13 | 154 | 34 | 14 | 215 | 105 | |
14 | 247 | 46 | 50 | 1 | 50 | 50 |
15 | 193 | 36 | 46 | 6 | 70 | 31 |
16 | 202 | 37 | 62 | 12 | 210 | 120 |
17 | 176 | 37 | 54 | 4 | 60 | 25 |
18 | 157 | 32 | 52 | 11 | 230 | 80 |
19 | 156 | 33 | 54 | 15 | 225 | 73 |
20 | 138 | 33 | 68 | 2 | 110 | 43 |
计算(5.23)式中的特征根,分别为
、、
因此,典型相关系数分别为
、、
对应的典型数值向量为
因此,对应的第一对样本典型变量为
还可以计算第二对样本典型变量
其中的和表示对应的原始变量标准化后的变量。
参考文献
[1]胡国定,张润楚著..多元数据分析方法—纯代数处理..南开大学出版社,1990.
[2]王学民编著.应用多元分析(第二版).上海财经大学出版社,2005.下载本文