中文信息学报
JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G
V ol.21,No.4Jul.,2007
文章编号:1003-0077(2007)04-0080-06
中文实体关系抽取中的特征选择研究
董静1,2,孙乐1,冯元勇1,2,黄瑞红1,2
(1.中国科学院软件研究所中文信息处理中心,北京100080; 2.中国科学院研究生院,北京100049)摘 要:命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词:计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测中图分类号:T P391 文献标识码:A
C hinese Automatic Entity Relation Extraction
DONG Jing 1,2,SU N Le 1,FENG Yuan -yong 1,2,HU A NG Ru-i hong 1,
2
(1.Chinese Infor matio n P ro cessing Center,Institute o f Softw are,Chinese Academ y of Sciences,Beijing 100080,China; 2.Gr aduate U niversity o f Chinese Academy of Sciences,Beijing 100049,China)
Abstract:Entity R elatio n Ext ractio n is o ne of the impor tant research fields in Info rmation Ex tractio n.T his paper pr esents a no vel metho d thr ough dividing the entity relatio ns into t wo cat eg o ries:embedding relatio ns and no n -em -bedding relat ions.A fter so me simple experiments,w e discov er that so me sy nt actic features have explicitly different effects on the identificatio n o f the tw o kinds of relatio ns.So two different set of syntactic features are sugg est ed to ex tr act the tw o catego ries.Ex per iments show t hat the new met ho d achieves an impro ved perfo rmance o n the ACE2007Co rpus fo r Chinese entit y relatio n ex traction task.
Key words:co mputer applicatio n;chinese info rmatio n processing;automat ic entity r elation ex traction;embedding entity r elatio n;non -embedding ;entity relation;featur e select ion;A CE evaluatio n
收稿日期:2007-03-23 定稿日期:2007-04-16
作者简介:董静(1983 ),女,硕士生,主要研究方向为自然语言处理;孙乐(1971 ),男,博士,副研究员,主要研究方向为自然语言处理;冯元勇(1973 ),男,博士生,主要研究方向为自然语言处理。
1 引言
随着互联网的普及和发展,信息量正以指数规律飞速地增长。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Info rmatio n Extraction)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。
信息抽取系统的主要功能是从文本中抽取出特
定的事实信息,我们称之为实体(Entity)。例如:时
间(TIM E)、组织机构(ORG)、人物(PER)以及武器
(WEAPON)等等。然而,在大多数的应用中,不但要识别文本中的实体,还要确定这些实体之间的关系,我们称其为实体关系抽取。与实体抽取类似,实体关系的类型也是预先定义的,例如,美国国家标准技术研究院(N IST )的自动内容抽取(ACE,Auto -matic Content Extraction)
[1]
评测定义了以下七种
实体关系类型:制造使用关系(ART ),类属关系(GEN -A FF),转喻关系(M ETONYMY),组织结构从属关系(ORG -AFF),局部整体关系(PART -WH OLE),人物关系(PER -SOC ),地理位置关系
(PH YS),每一个大类又包括若干子类型。实体关系抽取可以应用到自动问答,信息检索[2]等领域中,比如,自动问答中的这样一个问题:谁是美国的现任总统?如果存在一个美国和美国总统的雇佣(Employm ent)关系,那么答案就迎刃而解了。
美国国防高级研究计划委员会(DARPA,the Defense Advanced Research Projects Agency)资助的M U C(M essage U nderstanding Conference)[3]会议于1998年M UC-7上首次引入了关系抽取任务。随后,NIST组织的ACE评测中也加入了实体关系识别任务。目前ACE评测主要有三大任务:实体识别(EDR,Entity Detection and Recogn-i tion),关系识别(RDC,Relation Detection and Rec-og nition)以及事件识别(EDC,Event Detection and Recognition),涉及到英语、汉语和阿拉伯语三种语言。
我们的工作集中在汉语的实体关系抽取上,并使用ACE提供的汉语语料作为我们训练测试的数据。我们分析统计了实体关系中作为参数的两个实体特征信息,尤其是句法特征,然后以这些信息作为根据,将关系划分为两种,我们称之为:包含实体关系与非包含实体关系。并针对这两种关系的差异,提出新的句法特征,构建不同的特征空间。
本论文后续内容组织如下:第二部分阐述实体关系抽取的相关工作;第三部分介绍我们所使用的方法以及两种关系的各种特征。第四部分给出实验数据,进行结果分析。最后为全文总结和将来工作的方向。
2 相关工作
通常,实体关系包含两个必需的参数:实体1和实体2。因此实体关系抽取任务需要解决两个问题:实体关系识别(识别具有关系的两个实体)和实体关系分类(对实体关系进行具体分类)。人们一般将关系识别和关系分类合并为一个分类问题,首先列出句子中所有的实体对,然后使用一个分类器决定哪些是我们真正需要的关系。
在这个分类问题中,Miller[4]的工作证明句法信息以及语义信息对于实体关系的抽取非常有效。因此和许多要使用句法特征的任务相类似,命名体关系抽取一般有两种流行的大方法,第一种基于核(Kernel)[5]的方法,核方法可以模拟计算结构和结构之间的相似性,不需要花费太大的功夫在建立特征工程上面。
Zelenko[6]提出一种计算句法树之间核函数的方法来抽取实体关系。Culotta[7]扩展了Zelenko的工作,提出计算依存关系树之间相似度的核函数,使用ACE评测初期所定义的5个关系类型的英语语料,实体关系识别的F值达到了63.2;关系识别和分类的F值也达到了45.8。现在许多研究者依然在进行核函数的研究,并提出了更多复杂的核方法来计算结构之间的相似度。
同时第二种基于特征的方法也取得了不错的成效。基于特征的方法通过将句法树结构抽象为一个或多个特征,例如:路径,框架等,然后使用基于特征的机器学习算法来对关系进行分类。
Kambhatla[8]使用了最大熵学习算法,并选用了词,实体类型,提及层,重叠关系,依存关系和句法树信息作为特征,在A CE的共24个子类型上,英语的实体关系识别取得了52.8的F值。ZH OU Guo-Do ng[9]在Kambhatla的基础上,提取了更多的特征,进一步提高了关系抽取任务的效率,他使用SVM模型作为分类算法。
在汉语的实体关系抽取研究方面,车万翔等人[10]使用Winnow算法和SVM算法构造不同窗口的特征向量,在ACE2004语料的7个大类上,最好结果的F值达到了73.27。
本文采用第二种基于特征的学习算法,并且将工作集中在汉语的实体关系抽取方面。我们首先借鉴了ZH OU GuoDong提出的特征作为第一个实验,然后对语料中实体关系的特点以及实验结果进行分析,我们发现这样一个现象:在语料中存在这样两种差异较大的实体关系,一种例如: 南斯拉夫总统 和 南斯拉夫 ,这两个实体 之间存在组织结构从属关系中的一类子关系 雇佣关系。在这个关系中,作为参数的两个实体的句法结构比较特殊,一个实体完全包含覆盖了另外一个实体。相反的,另外一种实体关系,作为参数的两个实体之间的句法位置安全,没有重合。例如在这样一个句子中, 科什图尼察过去以追求学术为职志,直到1974年因为反动立场被贝尔格勒法学院解职,被迫离开学术圈。 实体 科什图尼
81
在ACE中,一个句子中具体位置的实体词组称为实体提及;实体是指一篇文章中指代同一个实体概念的所有实体提及。在不影响文章意思表达的前提下,为了使文章更加简洁,本文将实体提及也简称为实体。
中文信息学报2007年
察 和 贝尔格勒法学院 之间也是雇佣关系。为了区分这两种实体关系,我们将之称为:包含实体关系和非包含实体关系。我们发现,在这个实验中,包含关系和非包含关系的结果相差非常大,包含关系的F值为73.4,而非包含关系的F值仅为37.6。我们认为,人们通常所用的一些特征并不具有普遍区分度,它们在我们所提出的这两种实体关系上就表现的很不平衡,并且通过我们后面的实验,我们也发现,这两种实体关系对于一些特征,特别是句法特征,具有很不一样的敏感度。因此我们将它们分开,使用不一样的特征或不一样的特征权重来处理这两种关系。
3 基于C RF模型的实体关系抽取
3.1 C RF模型
条件随机场模型(CRF)[11]是基于输入节点计算输出节点配置(Configuratio n)的条件概率模型。它与最大熵模型有相同的特征指数加权形式,但训练和推理过程采用了完全的、非贪婪的搜索算法,非常有效。对于一个观察序列y,标签序列x,我们定义一个线性的CRF模型,形式如下:
P (y|x)=1
Z (x)
ex p c C k k f k(c,y c,x)
其中,C是序列的簇(Clique)集合, ={ k}为模型的参数集,Z(x)为对所有可能状态序列的归一化配分函数,f k为某个特征函数, k为特征函数的权。
标准线性链条件随机场模型的解码求得概率最高的状态序列,其过程与Viterbi类似。基于最大似然函数的学习过程也建立在序列估计基础之上。它们的计算复杂度均与特征空间的规模成正比。
3.2 任务划分
我们将实体关系抽取的任务划分为包含关系抽取子任务和非包含关系抽取子任务。本文不考虑命名体识别问题,假设命名体已被识别标注。那么包含关系子任务和非包含关系子任务可以直接通过两个实体在句子中的相对位置来区分,或者通过在句法树中的相对位置来进行区别,如果两个实体在树中的结点之间是祖先 子孙关系,则属于包含关系子任务,反之,属于非包含关系子任务。3.3 特征选择
因为包含实体关系和非包含实体关系的差异性主要体现在句法信息上,因此在特征选择上,我们采用不同的句法特征集,而其他的特征,如词汇等,则完全相同。在这个章节中,我们首先介绍两种关系选用的不同的句法特征集,包括我们所提出的一些新的特征,然后介绍两种关系所共用的一些特征,主要包括词汇特征以及实体类型,相对位置。我们假设实体关系中的两个实体分别为E1,E2。
3.3.1 句法特征
包含关系
1)子类框架
包含关系的两个实体的相对句法结构比较简单
,例如 南斯拉夫总统 和 南斯拉夫 这个例子,他们的句法结构只需要考虑同时包含着两个句法成分的部分树结构,如图1所示。
图1 嵌套关系的部分句法树
因为两个实体之间是一种覆盖的结构,通常人们所使用的句法特征:两个实体在句法树中的两个结点之间的句法路径,NP NR在绝大部分嵌套关系中都类似,没有什么区别度。我们提出子类框架这样一个新的特征,它不仅包括父到子的路径信息,也考虑了子结点在兄弟结点之间的位置关系,例如,图1的子类框架特征为:NP*->NR*,NR; NP*,NR*即代表关系中的两个实体。
非包含关系
1)祖先成分
这个特征主要表征关系中的两个实体在树中的结点是处在哪个共同句法成分下。考虑四个句法成分:NP,PP,VP,IP。从两个实体的最近父结点开始,向上搜索,出现最近的句法成分为N P,PP,VP, IP中任一个即为祖先成分特征。
2)两个实体之间的路径
实体E1在树中的结点到实体E2在树中的结点的句法路径,由每个结点的句法成分组成。例如句子 科什图尼察过去以追求学术为职志,直到1974年因为反动立场被贝尔格勒法学院解职,被迫离开
82
4期董静等:中文实体关系抽取中的特征选择研究
学术圈。 它的句法树如图2,实体 科什图尼察 和 贝尔格勒法学院 之间的句法路径为:NP+IP-
VP-VP-VP-NP
。
图2 句子的句法树
3)依赖动词以及实体到依赖动词的路径我们分析了 科什图尼察 和 贝尔格勒法学院 在句子中充当的成分,我们发现它们和动词 解职 的语义关系十分密切,从语义角色方面来看, 贝尔格勒法学院 是 解职 的主动者, 科什图尼察 是 解职 的受动者,并且我们也发现语料中跨距离的非包含关系大部分都存在这样一个依赖动词,以及这样的角色依赖关系。因此,我们加入了两个新的特征:依赖动词特征以及两个实体分别到该动词的句法路径。
中文的很多句子都是长句,具有多个动词,我们根据中文的特点,选择距离位置较后实体最近的动词作为依赖动词,并且优先考虑实体前面的动词,具体的提取依赖动词的算法见图3。依赖动词确定后,两个实体到依赖动词的路径也可以确定。
算法:
1.深度搜索句法树,找到后出现的实体结点,搜索指针P 指向该结点。
2.P 指针向左逐个遍历左兄弟结点,如果P 指向的结点的句法成分为 V V 或者存在 V V 的子孙结点,停止返回该 V V 结点。
3.P 指针向右逐个遍历右兄弟结点,如果P 指向的结点的句法成分为 V V 或者存在 V V 的子孙结点,停止返回该 V V 结点。
图3 提取依赖动词的算法
EV:实体的共同依赖动词,图2例子中的依赖动词为 解职 。
EV PAT H 1:实体E1到动词的路径,图2的 科什图尼察 路径为:N P+IP-V P-VP-VP-VV 。
EV PAT H 2:实体E2到动词的路径,图2的
贝尔格勒法学院 路径为:NP+VP-VV 。
针对包含关系和非包含关系,我们提出了两个不同的句法特征集。包含关系的句法特征集只包括了子类框架一个特征,而非包含关系则使用了祖先成分,两个实体之间的路径,依赖动词以及实体到依赖动词的路径几个特征。这是因为包含关系中两个实体在句法树中的相对句法结构非常类似,很多句法特征对它并没有什么区分度,例如非包含关系中使用的祖先成分特征,几乎所有的包含关系的祖先成分都为 N P 。非包含关系的实体在句子中都是跨长距离,它们对句法结构信息相对敏感许多。
3.3.2 其他特征1)词汇
两种位置的词汇被考虑到了,一种是实体本身所包含的词汇,包括所有词特征以及中心词特征,例如, 南斯拉夫总统 这个实体,所有词特征就是 南斯拉夫总统 整个词组,而中心词即指 总统 。另一种考虑实体邻近的一些词汇以及他们的词性,我们选取了每个实体的左边两个词以及右边两个词。
E1T EXT :实体E1所有的词汇E2T EXT :实体E2所有的词汇E1H EAD:实体E1的中心词E2H EAD:实体E2的中心词
E1LW1,E1LPOS1:实体E1左边邻近的第一个词以及该词的词性
E1LW2,E1LPOS2:实体E1左边邻近的第二个词以及该词的词性
E1RW1,E1RPOS1:实体E1右边邻近的第一个词以及该词的词性
E1RW2,E1RPOS2:实体E1右边邻近的第二个词以及该词的词性
类似的,E2也定义了8个相应的特征:E2LW1,E2LPOS1;E2LW2,E2LPOS2;E2RW1,E2RPOS1;
83
E2RW2,E2RPOS2。
2)实体类型
实体关系中作为参数的实体的类型对于判断该
关系的具体类别是非常重要的。我们选用了以下几
个实体类型特征。
ET1,ET S1:实体E1的类型以及它的子类型
ET2,ET S2:实体E2的类型以及它的子类型
ETT S1,ET TS2:实体类型和子类型的组合
特征
ET12:实体E1和E2的类型的组合特征
3)两个实体的相对位置
包含关系和非包含关系对位置特征的定义是有
差异的。对于包含关系,位置特征指,E1包含E2
或E1包含于E2;对于非包含关系,位置特征考虑的
是E1在E2之前还是E1在E2之后这两种位置
关系。
EP12:实体E1和E2的相对位置
4 实验数据
我们的算法在CRF++ 工具包上改造而成,高
斯先验方差 为1。我们使用A EC2007评测提供
的数据来训练和测试。数据来源于各种中文报纸,
电台和新闻等。数据集共包括830个已标注文档,
其中670篇文档用作训练数据,另外的160篇用作
测试。在所有的文档中,共计有12670个关系实
例,分为7个大类,19个小类。如表1所示:
表1 ACE07实体关系类型
类 型子 类 型
制造使用关系(AR T)U ser-O wner-Inv ento r-M anu-factur er
类属关系(GEN-AF F)Citizen-Resident-Relig ion-Ethnicity,O rg-Lo cat
ion
转喻关系(M ET ONY MY)none
组织结构从属关系(O RG-A FF)Emplo yment,Fo under,
O wnership,Student-A lum, Sport s-A ffiliat ion, Investor-Sha reholder,
M embership
局部整体关系(PA RT-WH O LE)A rt ifact,Geog raphical,Sub-sidiary
人物关系(PER-SOC)Business,Family,Lasting-P ersonal
地理位置关系(PH YS)L ocated,N ear 在12670个关系实例中,包含8601个包含关系实例和4069个非包含关系实例。它们在7个大类上的分布情况如图4所示。在所有的关系实例中,包含关系共占了67%,在7个大类的分布上, GEN-AFF,ORG-AFF,PART-WH OLE关系中都是包含关系数量较大,PH YS关系恰好相反,多为非包含关系,其他的类型两种关系数量相仿。
图4 在7个大类上的分布图
4.1 实验步骤和评测指标
1)我们首先并不区分包含关系和非包含关系,使用词汇,实体类型,两个实体的相对位置,祖先成分以及两个实体之间的路径共5个特征对整个训练集进行训练,这是我们的第一个实验,得到实验1的结果。
2)实验2,我们分为包含关系和非包含关系两个子系统,首先选取共用特征:词汇,实体类型以及两个实体的相对位置分别作为两个子系统的Base-line。然后包含关系子系统加入子类框架特征,非包含关系子系统加入祖先成分,两个实体间的路径,依赖动词以及实体到依赖动词的路径特征,考察这些特征对于两种关系抽取任务的影响。
3)我们对比实验1和实验2的结果,考察本文提出的区分包含实体关系和非包含实体关系子任务以及针对不同的子任务提出的新特征对于结果的影响。
为了简化实验过程,我们先选用准确率(Pr ec-i sion)、召回率(Recall)和F值三个评价指标来进行比较:
P r ecision=正确分类的实例个数
分类器预测的实例总数
R ecall=
正确分类的实例个数
测试数据中实例总数
F=
2 P recesion R ecall
Pr ecesion+R ecall
84
http://chasen.org/~taku/softw are/CRF++/#source4期董静等:中文实体关系抽取中的特征选择研究
4.2 实验结果和分析
本文只是衡量在 正确 (由ACE标注人员对命名体进行手工标注)的实体上进行实体关系识别的性能,因此与ACE标准的实体关系评测(测试语料没有进行命名体的识别)并没有直接可比性。但实验表明,我们提出的划分包含关系和非包含关系的新方法提高了任务的准确率和召回率。
下面两张表是实验2的结果,表2给出了包含关系的Baseline结果和加入子类框架特征以后的结果。表3给出了非包含关系的Baseline结果以及加入各个句法特征以后的结果对比。
表2 特征集在包含关系上的结果
Prec Recall F1 Baseline73.7471.47 2.55
+子类框架74.9372.073.44
表3 特征集在非包含关系上的结果
P rec Recall F1 Baseline54.8119.1529.57
+祖先成分69.6325.4137.23
+实体之间的路径71.4725.5337.62
+依赖动词和路径72.3130.2942.70
上面两张表都是在Baseline系统上加入句法特征的结果对比。表征句法结构的句子以及实体类型信息,代表了祖先成分以及与实体之间的关系,我们可以看出句法信息在包含关系和非包含关系上的表现差异显著。
从表2的结果可以看出,包含关系在只使用词汇信息,实体类型以及位置信息时已经取得了一个不错的效果,F值达到了72.55。表征句法结构的子类框架特征并没有显著提高系统性能,这是因为包含关系的两个实体的相对句法结构十分类似,多为复合名词词组,因此区别度不大,而表征实体语义的词汇信息,实体类型信息则比较有效。
从表3的结果可以看出,句法特征对于非包含关系任务效果显著。3个句法特征F值共提高了13%。其中祖先成分以及依赖动词和路径都很大程度的提高了系统的性能。在一个句子中,非包含关系的两个实体一般都跨长距离,虽然它们之间的相对句法结构比较复杂,但也不是杂乱无章的。实验表明,非包含关系在两个实体的相对句法结构上具有某种类似性,并且具有一定的依赖关系。但是,非包含关系的整体性能依然远低于包含关系,特别是它的Recall较低,遗漏了大量的非包含实体关系。因此,如何挖掘新的语义,句法特征提高非包含关系的Recall,是我们以后工作的重点。
表4给出了实验1和实验2的对比结果,结果表明本文的方法提高了实体关系抽取任务的性能, F值提高了2.7。因为非包含关系只占有全部数据集的33%,因此在整个测试集上的结果提高不十分明显。
表4 实验1和实验2的对比结果
P rec Recall F1实验174.1254.9063.07
实验274.4058.9265.76
5 结论与将来的工作
随着互联息的快速增加,信息抽取成为人们越来越关注的研究方向,实体关系抽取是信息抽取研究领域中的一个重要研究课题。本文分析统计了两个实体的句法结构,然后根据这些句法信息,将实体关系划分为两种:包含关系与非包含关系。通过分析,我们发现这两种实体关系对于句法特征的敏感度具有明显的差异,针对这种差异,我们提出不同的句法特征集以及一些新的特征。实验证明,我们提出的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。
通过将关系划分为包含关系和非包含关系,可以分别使用对该类关系比较有效的特征,十分灵活。在下一步的工作中,我们希望加入更多的语义特征以及句法特征来进一步提高系统的效率,另外,我们还将尝试引入知网(H ow Net),以便更好的进行汉语实体关系的抽取。
参考文献:
[1] ACE.2007.T he nist ace ev aluation website.ht tp://
ww w.nist.g ov/speech/tests/ace/ace07/.
[2] 梁晗,陈群秀,吴平博.基于事件框架的信息抽取系
统.中文信息学报,2006,20(2):40-46.
[3] N.chincho r.Ov erv iew of M U C-7[A].In:Pr oceed-
ing s of t he6th M essag e U nderstanding Conference
[C].1998.(下转第91页)
85
4期张志伟等:中文科技文档中的数学表达式定位
有待进一步提高,这些将是下一步工作的重点内容。参考文献:
[1] H.J.L ee,J.S.Wang.Design of a mathemat ical ex-
pr ession r ecognit ion system[A].I n:Pr oceeding s of
3rd Inter national Conference o n Do cument analysis and
Recog nitio n[C].ICDA R'95,M ontr a l,Canada,1995.
4-468.
[2] Richar d J.F ateman.Ho w to F ind M at hematics o n a
Scanned P age[R].T echnical Report,1996.
[3] K.Inoue,R.M iyazaki,M.Suzuki.O ptical Recog n-i
tio n o f Pr int ed M athematical Documents[A].In:P ro-
ceedings of t he T hird Asian T echnolog y Co nfer ence in
M athematics[C].Spring er-V erlag,1998.280-2. [4] A.K acem, A.Belaid,M.Ben A hmed.EX-
T RA FO R:automat ic EX T RA ction o f mathemat ical
FO Rmulas[A].In:P ro ceedings of5th Inter national
Conference o n Do cument analysis and Recog nition[C].
ICDA R 99,Banga lor e,India,1999.527-530.
[5] S.P.Chow dhury,S.M andal, A.K.Das and B.
Chanda.Automat ed Segmentatio n of M ath-Zo nes fro m
Document Imag es[A].In:Pro ceedings of7th Inter-natio nal Conference on Document analy sis and Reco g-nition[C].ICDA R'03,Edinburg h,Scot land,2003.
755-759.
[6] U tpal Gar ain, B.B.Chaudhur i, A.Ray Chaudhuri.I-
dent ificatio n o f Embedded M athemat ical Expressio ns in
Scanned Documents[A].In:P roceedings o f17th In-ter nat ional Co nfer ence o n P at tern R eco gnition[C].
ICP R'04,Cambr idge,U nited K ing dom,2004.Vo lume 1:384-387.
[7] Jy h-Shins Ro ger Jang.A N FIS:A daptiv e-Netw o rk-
Based F uzzy I nfer ence Sy st em[J].IEEE T ransaction
on Systems,M an and Cybernetics.1993,23(3). [8] 边肇祺,张学工.模式识别[M].北京:清华大学出版
社,1999.12.
[9] B.B.Chaudhuri,U tpa l Gar ain.A uto matic detectio n o f
italic,bo ld and al-l capital wo rds in do cument imag es
[A].In:Pr oceeding s of14th Inter nat ional Conference
on Patter n Recog nitio n[C].ICPR 98,Brisbane,A us-tr alia,1998.Vo lume1:610-612.
(上接第85页)
[4] M iller S.,Fo x H.,Ramshaw L.and W eischedel R.A
novel use o f statistical parsing to ext ract info rmation fr om tex t[A].In:P ro ceedings o f6th A pplied N atural L ang uage P ro cessing Conference[C].Seattle,U SA.
29A pr i-l4M ay2000.
[5] Collins M.and Duffy N.Cov olution ker nels fo rnatural
lang uag e[A].In:Dietter ich T.G.,Becker S.and Ghahramani Z.edito rs.A dvances in N eur al I nfo rma-
tio n P ro cessing Systems14[C].Cambr idge,M A.
2002.
[6] Zelenko D.,Ao ne C.and Richardella.K ernel methods
for relatio n ex traction[J].Journal of M achineL earning
Research,2003.1083-1106.
[7] Culotta and J.So rensen.Dependency tree kernels for
r elatio n ex traction[A].In:P ro ceedings of A CL[C].
Ba rcelona,Spain.2004.[8] K ambhatla N.Co mbining lex ical,sy ntactic and seman-
tic features with M ax imum Entr opy models for ex trac-ting relations[A].In:Pr oceeding s of42th A nnual M eeting of the A ssociation for Computational L inguis-tics[C].Bar celona,Spain.21-26,July2004.
[9] Zhou GuoD ong,SU Jian,Z HA N G Jie,ZH A N G M in.
Ex plor ing var ious know ledge in r elation ex tractio n[A].
In:P ro ceedings of ACL[C].2005.
[10] 车万翔,刘挺,李生.实体关系自动抽取.中文信息学
报,2005,19(2):1-6.
[11] Jo hn L af fer ty,A ndr ew M cCallum and Fernando
Pereira.Conditional R andom F ields:Pr obabilist ic
M odels for Segmenting and L abeling Sequence D ata
[A].In:P ro ceedings of Internatio nal Co nfer ence on
M achine L earning[C].San Fr ancisco:M o rg an Kauf-
man.2001.282-2.
91下载本文