第29卷第5期 唐山师范学院学报 2007年9月 Vol. 29 No.5 Journal of Tangshan Teachers College Sep. 2007
────────── 收稿日期:2007-06-30
作者简介:李时卓(1967-),男,河北丰南人,中学一级教师。 - 66 -
基于数据的机器学习问题
李时卓1,阎满富2
(1.河北丰南一中,河北 丰南 063300;2.唐山师范学院 数信系,河北 唐山 063000)
摘 要:通过对基于数据的机器学习问题介绍,阐述了机器学习的主要问题、经验风险最小化、复杂性与推广能力问题。
关键词:机器学习;经验风险;推广能力
中图分类号:O159 文献标识码:A 文章编号:1009-9115(2007)05-0066-02
在人们对机器智能的研究中,希望能够用机器来模拟人从事学习的能力,这就是我们所说的基于数据的机器学习问题[1],或者简单地称作机器学习问题。机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐进理论,现有学习方法也都是基于此假设。但在现实问题中,我们所面对的样本数目通常是有限的,有时还十分有限。因此一些理论上很优秀的学习方法实际中表现却可能不尽人意(比如表现出很差的推广能力)。与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习规律的理论,它是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展出来的新的通用学习方法——支持向量机已初步表现出很多优于已有方法的性能。V ·Vapnik 等人从上世纪6、70年代开始致力于此方面的研究[1],到90年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。一些学者认为,SLT 和SVM 正在成为继神经网络研究之后新的研究热点,并将有利地推动机器学习理论和技术的发展。 1 机器学习的主要问题
机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。可以一般地表示为:变量y 与x 存在一定的未知依赖关系,即遵循某一未知的联合概率F(x ,y)(x 和y 之间的确定性关系可以看作是其特例),机器学习问题就是根据n 个同分布观测样本。
),(,),,(),,(2211l l y x y x y x " (1)
其中l i R x x x T
n i i i ,,1=,¸)][,,]([=1"",在一组函数
{}),(w x f 中寻求一个最优的函数),(0w x f 对依赖关系进行
估计,使期望风险R (w )最小。
∫=),()),(,()(y x dF w x f y L w R (2)
其中,{}),(w x f 称作预测函数集,w 为函数的广义参数,
{}),(w x f 可以表示任何函数集;)),(,(w x f y L 为由于用
),(w x f 对y 进行观测而造成的损失,我们称为损失函数。它是评价预测准确程度的一种度量。不同类型的学习问题有不同形式的损失函数。预测函数也称作学习函数、学习模型或学习机器。
有三类基本的机器学习问题,即模式识别(分类问题)、函数逼近和概率密度估计。对模式识别问题,输出y 是类别标号,两类情况下{}1,0=y 或{
}1,1-,预测函数称作指标函数,损失函数可以定义为
⎩⎨
⎧≠==).
,(,1);,(,0)),(,(w x f y w x f y w x f y L 若若 (3)
使风险最小就是Bayes 决策中使错误率最小。在函数逼近问题中,y 是连续变量(这里假设为单值函数),损失函数可定义为
2)),((=)),(,(w x f y w x f y L - (4)
即采用最小平方误差准则。而对概率密度估计问题,学习的目的是根据训练样本确定x 的概率密度。记估计的密度函数为),(w x p ,则损失函数可以定义为
),(log =)),((w x p w x p L - (5)
李时卓,阎满富:基于数据的机器学习问题
- 67 -
2 经验风险最小化
在上面的问题表述中,学习的目的在于使期望风险最小化,而联合分布),(y x F 是未知的,所以我们可以利用的信息只有样本(1),式(2)的期望风险并无法计算和最小化,因此传统的学习方法中采用了所谓经验风险最小化(ERM )准则,即用样本定义经验风险
()()‡”1
=,,1=)(l
i i i emp w x f y L l w R (6)
式(6)作为对式(2)的估计,设计学习算法使它最小化。对损失函数(3),经验风险就是训练样本错误率;对式(4)的损失函数,经验风险就是平方训练误差;而采用式(5)损失函数的ERM 准则就等价于最大似然方法。事实上,用ERM 准则代替期望风险最小化并没有理论上的保证,只是直观上合理的想法,但这种思想却在多年的机器学习方法研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上,而实际上,即使可以假定当l 趋向于无穷大时(6)趋近于式(2),在很多问题中的样本数目也离无穷大相去甚远。那么在有限样本下EMR 准则得到的结果能使真实风险也较小吗? 3 复杂性与推广能力
ERM 准则不成功的一个例子是神经网络的学习问题。最初,很多注意力都集中在如何使)(w R emp 最小,但很快就发现,训练误差小并不总能导致好的预测效果。某些情况下,训练误差过小反而会导致推广能力(学习机器对未来
输出进行正确预测的能力)的下降,即真实风险的增加,这就是过学习问题。之所以出现过学习现象,一是因为样本不充分,二是学习机器设计不合理,这两个问题是相互关联的。设想一个简单的例子,假设有一组实数样本{}y x ,,y 取值在[]1,0,那么不论样本是根据什么模型产生的,只要用函数)sin(=),(x x f αα去拟合它们(α是待定的参数),总能够找到一个α使训练误差为零,但显然得到的“最优”函数并不能正确代表真实的函数模型。究其原因,是试图用一个十分复杂的模型去拟合一个有限的样本,导致丧失了推广能力。在神经网络中,若对有限样本来说网络学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。学习机器的复杂性与推广性之间的这种矛盾同样可以在其它学习方法中看到。文献[3]给出了一个实验例子,在有噪声条件下用模型2=x y 产生10个样本,分别用一个一次函数和一个二次函数根据ERM 原则去拟合,结果显示,虽然真实模型是二次的,但由于样本数有限,且受噪声的影响,用一次函数的结果更好。同样的实验进行了100次,71%的结果是一次拟合好于二次拟合。由此可以看出,有限样本情况下,(1)经验风险最小并不一定意味着期望风险最小;(2)学习机器的复杂性不但应予所研究的系统有关,而且要和有限数目的样本相适应。我们需要一种能够指导我们在小样本情况下建立有效的学习和推广方法的理论。
参考文献:
[1] Vapnik V .张学工,译.统计学习理论的本质[M].北京:清华大学出版社,2000.
[2] 邓乃杨,田英杰.数据挖掘中的最优化方法—支持向量机[M].北京:科学出版社,2004.
[3] Cherkassky V ,Mulier F.Learning from Data:Concepts[M]. Theory and Methods. NY:John Viley Sons,1997.
Machine Learning Problems Based on Data
LI Shi-zhuo 1, YAN Man-fu 2
(1.No. 1 High School of Fengnan, Hebei Fengnan 063300, China;
2. The Mathematics Department of Tangshan Teachers College, Hebei Tangshan 063000, China)
Abstract: After introducing machine learning problems based on data, the paper has discussed the basic problems of machine learning, empirical risk minimization (ERM), complexity and generalization capacity.
Key words: machine learning; empirical risk; generalization capacity
责任编辑、校对:陈景林下载本文