3.1 分量分析的概念
3.1.1 问题的提出
分量分析(ICA ),又叫做成份分析,它是解决盲源信号分离 (Blind Signal Separation, BSS)问题时逐渐发展起来的,BSS 是指仅从观测到的混合信号(通常是多个传感器的输出)中恢复出的源信号,这里的“盲”是指:源信号,混合系统均未知。在科学研究和工程应用中,很多观测信号都可以假设成是不可见的源信号的混合。例如三个人同时在会议室里发言,会议室里同时摆放三个录音机对这三个人进行录音。这里用1s ()t ,2()s t ,3()s t ,表示三个说话者的语音信号,用1()x t ,2()x t ,3()x t 表示三台录音机所记录的信号,其中t 是时间变量。容易理解每个录音机所记录的信号()i x t ,(i=1,2,3)是三个语音信号在不同权值下的混合。不考虑各路语音信号到各录音机的时间延迟,对上述问题可表示如下:
1111122133()s ()()()x t a t a s t a s t =++
2211222233()s ()()()x t a t a s t a s t =++ 公式(3-1) 3311322333()s ()()()x t a t a s t a s t =++
其中ij a 是和环境有关的未知常量参数。 我们的目的就是在仅仅知道1()x t ,2()x t ,3()x t 的条件下来估计出源语音信号1s ()t ,2()s t ,3()s t 。即:
1111122133s ()()()()t w x t w x t w x t =++
2211222233s ()()()()t w x t w x t w x t =++ 公式(3-2) 3311322333s ()()()()t w x t w x t w x t =++
把公式(3-1)和(3-2)表示成矩阵形式,分别有:
X=AS 公式(3-3)
S=WX 公式(3-4) 如何设法得到矩阵W ,从而能够从所观测到的混合信号X 中估计出源信号S ,这就是所谓的盲源分离问题(BSS ),其模型框图见图1-2。BSS 问题是信号处理中一个传统而又极具挑战性的课题,而分量分析是解决盲源分离问题的一个有效的数学工具,通常情况下只要能够构建数学模型,合理的运用分量分析则盲源分离问题就可有效的得到解决。
3.1.2 分量分析的定义
上述盲源分离问题中,当S (t )的各分量时,该问题就转化为ICA 问题。
源信号之间在统计上是相互的,这是一个非常重要的假设条件,如果源信号之间保持相互,则分离出来的信号同样应该满足相互这一条件,所以我们可以考虑从分离出来的信号之间的性程度来判定信号的分离是不是已经完成以及完成的效果如何。现在我们假设观察向量(混合后的信号)为1()((),...,())T n X t x t x t =,源信号假设为1()((),...,())T m S t s t s t =。如果能够找到矩阵W 使得其输出()()Y t WX t =的各个分量之间也两两相互,则()Y t 就是原始信号()X t 的很好的恢复。以上即为盲信号分离问题的求解方法,也就是通过对观察信号的随机矢量作适当的变换,以使得变换后的新矢量成为各个分量相互的随机矢量。将随机矢量作适当的变换使得各个分量之间尽可能的相互,也就是通常所说的分量分析问题。
而对于变换后的新矢量各个分量之间的性,可以用某一个目标函数来进行测定。所以分量分析实际上是一个优化问题,该问题没有唯一解,只能在某一衡量性的判据最优的意义下来寻求其近似的答案,使输出Y(t)中各分量尽可能达到。既然ICA 是在某一判据意义下进行的一种寻优计算,所以问题实际上也就包含两个部分,即:首先是采用什么判据来作为一组信号是否接近相互的准则;其次是用怎样的算法来达到这个目标。即:ICA=目标函数+优化算法。
3.2 性判据简介
由概率论的知识可知,衡量性最根本的准则是随机向量y(t)的联合概率密度函数()p y 等于各分量边际概率密度函数的乘积,即:
()()1m
i i p y p y ==∏ 公式(3-5)
但这一准则很难直接应用到ICA 中,因为其分离出的最后结果很难保证()p y 完全等于()1m
i i p y =∏,而且算法基本上都是一个迭代过程,因此我们需要一
个能够衡量性程度的高低而不仅仅是只能判定是否的函数来做目标函数。
1、互信息极小化(minimization of mutual information ,MMI )判据
随机向量y(t)的互信息表示为:
11()()[()|()]()ln ()N y y i i y N i y i i i p y I y KL p y p y p y dy p y ==⎡⎤
⎢⎥⎢⎥==⎢⎥⎢⎥⎣⎦
∏∫∏ 公式(3-6) 和信息熵之间的关系:
()()()m
i i=1 =-H y +H I y y ∑ 公式(3-7)
其中1[()|()]N
y i i i KL p y p y =∏为随机向量y(t)的联合概率密度函数()p y 和各分
量边际概率密度函数的乘积1()N
i i i p y =∏的K-L 散度,有关推导将会在第三章中详
细论述。
由公式(3-7)我们可看出如果()0I y =,则1()()N
y i i i p y p y ==∏,即当输出变
量的互信息能够达到极小时,则输出变量的各分量就能够保持,即通过求得互信息极小来作为ICA 算法的目标函数。
互信息极小化判据具体内容为:选择分离矩阵W ,由X 求Y=WX 使公式(3-6)达到极小。
2、信息极大化判据
此法简称为Infomax 或ME (maximization of entropy ),其方法过程为将输出随机向量y(t)逐个分量的引入到一个非线性函数()i i i r g y =,如图3-1所示。
图3-1 Infomax 法框图
信息极大化的判据为:在给定合适的()i i g y 后,使得输出[]12,,...,m r r r r = 的
总的熵量()1,...,m H r r 能够达到极大,该理论的创始者们虽然给出了该种方法原理的一些定性解释和仿真算例,但并没有对此做出严格的证明过程。
可以证明:在各()i i g y 取为各i y 的累积分布函数的条件下,这一算法与MMI 判据是一致的。
3、极大似然判据
设观测信号x 由信号s 经线性映射A 产生,即x=As ,选择A 使()ˆlog |p
x A 达到最大便称为极大似然估计。而它的期望值
()()()()ˆˆlog |log |def E p x A p x p
x A L A ==⎡⎤⎣⎦∫ 公式(3-8) 是工作时的目标函数。因此极大似然估计(maximum likelihood estimation,MLE )的含义是:选择A 使L(A)极大。
在ICA 问题中对MLE 的提法不止一种。下面简要介绍其中一种:
y(t)
()1y t ()2y t ()m y t …
()1
r t ()
2r t ()
m r t
设某一时刻解混过程y(t)=Wx(t)的输入和输出分别定义为x 和y ,则在给定W 且在y 各分量相互的条件下x 的对数似然函数即为log(x|W)。在此系统中有:
()1log (|)log log M
i i p x W W p y ==+∑ 公式(3-9)
实际估计时要对x(t)和y(t)进行采样(t=1,2,…,T ),再估计上式的均值:
()()()()111
1111log (|)log log 1log log T T M i t t i T M ij j t i j L W p x W W p y t T T W p w x t T =======+⎛⎞=+⎜⎟⎝⎠∑∑∑∑∑∑ 公式(3-10)
只要选择合适的W 能够使按上式求得的L(W)达到极大时即为ML 估计。
4、非高斯性极大化
概率论的中心极限定理表明,在一定条件下,多个随机分量和的分布更趋近于高斯分布。将这一结论应用到 ICA 问题中,可以得到这样的结论:观测信号是多个源信号的线性组合,所以其高斯性比源信号的强,换句话说,源信号的非高斯性比观测信号的强。粗略地讲就是非高斯性越强就越,这就启示我们将非高斯性作为估计 ICA 模型的判据。
a.峰度(Kurtosis )
经典的非高斯测量方法是峰度kurt 测量法,也被称为四阶累计量测量法,对随机任意变量y ,其峰度定义如下:
422kurt(y)= E{y }- 3(E{y }) 公式(3-11)
当变量y 服从高斯分布时,可以由四阶矩的定义知422E{y }=3(E{y }),此时峰度值刚好等于零,因此可以使用峰度来衡量变量非高斯性的一种测度。但并不是所有的峰度为零的分布都能看作是高斯分布。对有些非高斯分布其峰度也可能等于零,但一般情况下这种概率很小,不会影响峰度用作非高斯性程度测度方法的使用。
b.负熵(Negentropy )
另一个非常重要的非高斯测量方法是负熵,“熵”在信息理论中是非常常见
G
斯程度的一种度量,这通常被称为负熵(negentropy),用符号J[p (x)]或者J ( x )表示。从基本概念上说,负熵是最适当的非高斯程度的度量的一种形式。其公式可表示为:
J(y) =H (y )- H(y) 公式(3-12)
gauss
y是和y具有等方差的高斯随机变量。我们由熵极大定理可以知道,其中
gauss
负熵J(y)的值永远小于零,并且当且仅当随机分布为高斯分布时其值为零。负熵的一个重要性质是:它对于可逆的线性变换其值会永远保持不变。在ICA 中,该性质使得可以将边缘负熵J(y)作为代价函数,然后寻找线性变换W使其达到最大化。
以上判据中我们可以发现互信息是衡量性的最直接的依据,它能将很多的估计原理统一信息理论框架下。判据会决定ICA算法的统计特性,如一致性,渐进方差,鲁棒性等。
3.3 优化算法
解决ICA问题的优化算法有很多,通常情况下比较常用的有不动点算法,梯度算法(包括常规、随机、相对、自然等),牛顿法等。优化算法能够决定ICA 的某些算法性质,如收敛速度,数值稳定性,存储需求等等。
以上算法可简单的分为两类[13]:第一类,最大化和最小化一些相关准则函数,主要是上节提到的几种准则。这类算法的优点是对任何分布的分量都适合,但是要求非常复杂的矩阵运算或张量运算,计算量非常大;第二类,基于随机梯度方法的自适应算法,该类算法使用源信号的高阶统计信息,自适应地调整分离矩阵W使目标函数最大或者最小。其优点是简单、高效、易于硬件实现,能保证收敛到一个相应的解,但主要问题是收敛得慢,且其收敛与否很大程度上依赖
于学习速率参数的选择。
综合几种方法,本文采用自然梯度法,在第四章会对自然梯度法有比较详细的说明,由于其他算法与本文研究内容没有太大关系,本文将不做介绍。
3.4 预处理
一般情况下,观测到混合信号的数据都是具有相关性,在进行信号盲分离时,常常要对混合信号事先做一些预处理,这样可以使计算量得到简化,比较常见的预处理通常有两个:一个是将信号去均值(Centering),另一个是白化(Whitening),也称为预白化;下面分别对它们进行介绍。
3.4.1 信号去均值
大多数盲分离算法中要求源信号各分量是均值为零的随机变量,即通常要求在进行分离之前先要去掉信号的均值。一个随机变量x ,只需用 x = x-E(x)代替x 即可实现零均值化,这在实现起来较为简单。但通常在实际计算中,可以用时间平均值来代替统计平均值,即用算术平均值来代替数学期望值来实现。
设[]12N x(t)=x (t),x (t),...,x (t)T
,t = 1, 2,… ,n 是随机矢量 x 的n 个样本,则对其进行以下操作能够去均值 ()()()1
1 ,1,2,...,n
i i i i x t x t x t i N n ==−=∑ 公式(3-13) 3.4.2 信号的白化
对于一些信号盲分离算法,白化不仅仅是一个化简问题的步骤,有时还是必需的预处理过程。白化能够去除各观测信号之间的相关性,从而简化了后续分量的提取过程;而且,在通常情况下,对数据进行白化处理与不进行白化处理相比,其算法的收敛性会更好一些。
所谓信号的白化,就是指对一个N 维随机信号矢量x ,通过一个M ×N 维的白化矩阵V 的线性变换后,使输出的M 维随机信号矢量满足相关矩阵为单位矩阵的条件。即:
z=Vx 公式(3-14)
()T z R E zz I == 公式(3-15)
通常在盲分离问题中,对于观测到的混合信号进行预白化处理,就是去除信号中各分量之间的相关性,使得白化后的信号各分量之间呈现二阶统计性。将混合模型x=As 代入公式(3-14)有:
z=VAs 公式(3-16)
已知观测向量x 的相关矩阵()T x R E xx =,因为x R 通常是对称,非小于零的,通常它可以分解如下:
1212T T x R EDE ED D E ==
其中,{}12,,...,N D diag λλλ=是相应特征值的对角矩阵,为正交矩阵,E 是x R 的特征矢量矩阵,z 的相关矩阵为T z x R VR V =,则白化矩阵为:
1T V D E −= 公式(3-17)
此时能够保证z R I =。
再令A
VA = 代入公式(3-13)式,则有: z As
= 由于线性变换A
连接的是两个白化随机矢量z 和s ,因此A 一定是一个正交变换。如果把上式中的z 看作是新的观测信号,那么我们能够很明显的看出白化
过程使原来的混合矩阵A 简化成一个新的正交矩阵A
。 白化作为ICA 的预处理过程不仅可以有效地降低问题的复杂度,而且其算法非常简单,通常用传统的PCA 就可以完成。在情况下,混合矩阵A 是N
×M 维的,白化后新的混合矩阵A
是正交矩阵,同时其自由度就会降低,因此白化过程使得解决ICA 问题的工作量几乎减少了一半。另外,PCA 本身就具备降低维数的功能,所以当观测信号的个数大于源信号个数时,经过白化过程就可以自动将观测信号的数目降到与源信号维数相同,从而简化了问题的分析过程。
在实际计算过程中,混合信号相关矩阵的求解过程只能通过混合信号矢量的
样本来对其进行估计,即所谓的用时间平均代替统计平均。现设x(1),x(2),…,x(n)为混合信号随机矢量的一组观测样本,且已对其进行了零均值化处理,则此时混合信号样本相关矩阵可以按下式来进行估计:
()()1
1ˆl
T x i R X i X i l ==∑ 可以很容易的看出,ˆx R 是一个H-矩阵(Hermite),而且是正定的,所以特征值是不小于零的实数。
3.5 基本ICA 问题
设观察向量为1()((),...,())T n X t x t x t =,源信号为1()((),...,())T m S t s t s t =,混合矩阵为A ,解混矩阵为W , 经过W 变换后得到M 维输出向量1()[(),...,()]T m Y t y t y t =,其框图如图1-2。其矩阵形式:
111111
()()()()m n n nm m x t a a s t x t a a s t ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦
公式(3-18) 经解混: Y(t)=WX(t)=WAS(t)
公式(3-19) 如果通过学习算法得以实现WA=I (I 是n ×n 维单位阵),则Y(t)=S(t),则源信号能够分离。
解决这一问题,一般需要满足以下几个基本假设条件:
① 源信号中至多有一个服从高斯分布。这是因为高斯信号的线性混合后的信号仍服从高斯分布,从而无法分离。
②矩阵A 是满秩的,即逆矩阵存在,这是为了保证观察向量的维数不小于源信号向量的维数()n m ≥。
上面介绍的基本的ICA 问题是较理想的情况,实际中往往不能同时满足上述这些假设条件。因此,近年来许多学者都涉及了减弱这几个假设条件的ICA 的研究,纷纷提出了一些新的理论,如:带噪声的ICA ;非线性ICA ;卷积和的
3.6 本章小结
本章是全文的理论铺垫,比较细致地阐述了本文的理论背景,以及下文会用到的基本概念。本章首先阐述了分量分析的基本概念,然后介绍了常用的性判据,接着对实现这些判据常用的优化算法作了扼要概括。在此基础上,对ICA算法所需要的预处理进行了详细的说明,并给出了ICA问题最基本的模型。
4 互信息极小化判据
在3.2节性判据中已对互信息极小化判据做了简要说明,下面将对该判据做详细的论述。
4.1 基本概念
4.1.1 特征函数和高阶统计量
现设随机变量x 的概率密度函数为()f x ,则我们可以把随机变量x 的特征函数表示如下:
()(){}()exp j x E j x f x e dx ωφωω+∞
−∞==∫ 公式(4-1)
上面式子中j =表示虚数单位,将随机变量x 的特征函数进行取对数处理,即可定义随机变量x 的累积量生成函数,即:
()()()log ϕωφω= 公式(4-2)
把()v φ按照泰勒级数展开后便可以得到下式:
()()()()()
1100!
!k k k k k k k m j k φφωφωω∞
=∞==+=∑∑
其中 ()()
()001k k k k k k d m j j d ωφφωω===⎡⎤⎣
⎦ 公式(4-3) 我们把k m 称作随机变量x 的k 阶矩。
再把()v ϕ按照泰勒级数展开后便得到下式:
()()()()()1100!!
k k k k k k C j k k ϕϕωϕωω∞
∞===+=∑∑ 其中: ()()
()001log k k k k k k d C j j d ωϕφωω===⎡⎤⎣
⎦ 公式(4-4)下载本文