1.1硕士论文数据的特点
研究生学位论文的摘要和关键词是高度非结构 化的文本数据,具有5个特点:文档特征提取时有大 量的候选特征、特征语义相关、特征存在多义和同义现象'特征分布稀疏、基本线性可分。
1.2支持向量机方法在硕士论文自动分类中的优势 支持向量机以统计学习理论为基础,采用结构 风险最小化准则设计学习机器,较好地解决了非线性、高维数、局部极小点等问题。支持向量机在本文讨论的问题中具有以下特点和优势:1)支持向 量机具有坚实的理论基础和严格的推证过程,是针 对小样本空间进行优化的算法;2)支持向量机采用 结构风险最小化准则设计学习机器,折衷考虑经验 风险和置信范围;3)对于非线性问题,通过非线性 变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,巧 妙地解决了维数问题;4)支持向量机算法归结为一 个凸二次规划问题,从理论上说,得到的解将是全局 最优解;5)支持向量机通过学习,选择出只占训练 样本集中部分的支持向量;6)少数支持向量决定了 最终结果,这不但可以帮助我们抓住关键样本、“剔 除”大量冗余样本,而且注定了该方法不但算法简 单,而且具有较好的“鲁棒”性;7 )支持向量机参数 的选择影响着支持向量机的性能。
2硕士论文挖掘的过程
如图1所示,用支持向量机进行文本分类主要 分为4个过程:1)文本预处理;2)文本表示;3)特征 选择;4)吏用训练集训练文本分类器并对分类器分 类效果进行评估。对收集的文本进行标注,并把标 注好的文本集合分成2部分,一部分作为训练集并 利用分类算法训练分类器,使得分类器能尽量识别 特定类别的文本特征[ '另一部分作为测试集来测 试己被训练的分类器的效果。我们可以按一定的规 则划分训练集和测试集并不断的训练分类器,不断地对分类器进行评估。直到分类器达到我们要求的 效果,比如较高的准确率。
2 1实验数据的收集与打标
本文的训练集和测试集来源于1999-2008中国 优秀博硕学位论文库。同时收集了某高校计算机专业最近几年的硕士论文相关数据,用来分析和统计, 以便供科学研宄者和管理者参考。结合三级学科目录和某校学科建设规划,本文将计算机学科分为8 个研宄方向:多媒体应用技术、基于网络的计算机应 用技术、计算机仿真、计算机决策支持系统、计算机 图形图像处理、计算机信息管理系统、人工智能、信息安全。
从中国优秀博硕学位论文库中随机下载2 000 篇左右的博硕士论文,提取出每篇论文的中文摘 要和关键词,以.TXT文件的形式保存。人工打标 方式将其分到各个研宄方向中:多媒体应用技术 190篇、基于网络的计算机应用技术541篇、计算 机仿真246篇、计算机决策支持系统236篇、计算 机图形图象处理197篇、计算机信息管理系统183 篇、人工智能224篇、信息安全181篇。收集的某 高校计算机专业最近几年的硕士论文相关数据 450篇:02级45篇硕士论文,03级71篇硕士论 文,04级99篇硕士论文,05级94篇硕士论文,06 级141篇硕士论文。这些数据不参与打标,用来实现自动分类和分析。
2 2数据预处理
本文研宄对象是中文文本数据,只有当由单个 汉字组成的句子转化成词之后,才能进行文本表示,所以我们需要对中文文本进行分词。本文使用中科 院计算所项目“汉语词法分析系统ICTCLAS”,在此 表示感谢。在对文本进行分词后,文本就变成了词 集,但是词集中有很多虚词等在文章中仅起到结构作用,另外还有一些词在整个数据集中出现频率高 而在每篇文档中出现概率大致相等的词,对分类来 说作用不大,我们把这些词合称为停用词[' 对于 这些词,应该从特征集中去掉。停用词的选取对分类结果准确率有较大影响。
2. 3文本表示
对训练文档、待分类文档要做的第一件事就是 将它们从一个无结构的原始文本表示为结构化的可 处理的信息,然后才有可能对这些信息进行分析和处理。目前,在信息处理中,文本有向量空间模型、 语义网络、框架模型等表示方法。其中,向量空间模 型得到了广泛的应用。本文采用的是向量空间模型 来进行文本表示。
2 4特征选取
本文研宄的数据的特征是无结构化,当用特征向量对文档进行表示的时候,特征向量通常会达到几万维。所以必需降低特征空间的维数,提高分类 的效率和精度。特征选择就是一种有效的降维技术。本文采用的是信息增益(infomaticn gain E) 方法来进行特征选取,对于词条t和文档类别^用 E考察文档类别c中出现和不出现词条的文档频 数来衡量词条tX寸文档类别c的信息增益。我们采 用如下定义
(1试中:P(q)表示q类文档在语料中出现的概 率;P(t)表示语料中包含词条t的文档的概率; P(cs| t)表示文档包含词条t时属于q类的条件概 率;P(t)表示语料中不包含词条t的文档的概率; P(Cil t)表示文档不包含词条t时属于Q类的条件 概率;M表示类别数。分别计算每个词条的IG值, 按照值的大小进行排序,进而根据这些值的大小进 行特征选择,选择信息增益大的特征。经过以上2 步后得到的特征结果文件表如表1所示(数据庞 大,只选部分解释)。
2.5 分类器的构造
本文选用的分类器是李荣陆制作的SVMCLS2.0, 其基本思想是使用简单的线性分类器划分样本空间, 将样本空间划分为2 类, 求出最优超平面即可。对于线性可分的情况, 已知训练集
求最优分类超平面的问题就是求最佳(w, b),可以归结为如下二次规划问题
求得最优解w* , b*即可。克服“维数灾难”的方法就是引入核函数。本文采用的是多项式核函数K(xi, yj)=[ (xi·yj)+1]d, d为自由度。硕士论文的分类属于多类分类问题, 即类别数k≥ 3。对于k(k≥ 3)类SVM分类问题, 解决办法如下:把类l作为一类, 其余的k-1看成另一类, 这样就把k分类问题转化为二分类问题。这种方法在训练过程中, 每个分类函数都需要所有样本参与。根据上述方法可知分类函数为
3 知识获取仿真实验
基于以上讨论, 我们用支持向量机方法对所收集的数据进行仿真实验, 并对实验结果进行详细的分析。本文定义实验结果的评价指标的数据公式如下
3.1 分类模型的建立
训练集和测试集的自动分类很重要, 经过多次反复的训练和测试, 得到一个准确率最高的结果。保存得到此结果的训练集和测试集, 并基于此训练集和测试集, 进行了6次参数不同的仿真实验, 实验结果对比如表2所示。
由表2可见, 建立的第3个向量分类模型(基于文档统计且特征空间维数为2 000)的测试准确率最高, 达到了80.396 2%。接下来用此模型来实现对某高校计算机专业硕士论文的自动分类。
3 2 3种分类方法仿真实验结果的比较
为了比较不同分类算法对实现硕士论文自动分 类的效果,在此将支持向量机方法与基于KNN的分 类方法和基于朴素贝叶斯分类方法进行了对比实验,结果如表3所示。
从表3可以看出,支持向量机方法明显优于 KNN方法和朴素贝叶斯方法。所以选取支持向量 机方法来进行以下实验。
3 3对某校计算机专业硕士论文进行自动分类 有2种:1)对单篇论文进行自动分类;2)对成 批硕士论文进行自动分类。首先用模型对8篇不同 方向的论文进行自动分类仿真实验,均能实现。但 并不是所有论文都能正确分类,所以用本模型只能 做一个初步的分类,只能作参考,具体实施时还需要人的参与。
接着用此模型对02到06级的硕士学位论文进行 了自动分类仿真实验。为便于比较,将各方向用代码 表示如下:0—人工智能;1一信息安全;2—基于网络的 计算机应用技术;3—多媒体应用技术;4-计算机仿 真;5—计算机信息管理系统;6—计算机决策支持系 统;7—计算机图形图像处理。实验结果如表4所示。
34自动分类结果分析
由于多媒体应用技术与计算机图形图像处理、 计算机决策支持系统与人工智能等容易混淆,所以为帮助某高校计算机学院了解本单位研究生的 科研情况、学科特色,实现本单位硕士论文自动分类结果存在一定偏差。
为帮助某高校计算机学院了解本单位研究生的科研情况、学科特色, 实现本单位硕士论文自动分类入库等问题。结合该校计算机专业硕士研究生培养方案的11个研究方向, 整合成8个方向, 将所收集的数据重新打标, 重新训练和测试, 得到新的分类模型, 用来对02级至06级的450篇硕士论文重新进行自动分类。将各方向用代码表示如下:0—多媒体;1—计算机网络;2—嵌入式系统及应用;3—人工智能;4—软件理论及应用;5—信息安全;6—信息系统;7—计算机模拟。则某校计算机专业02 -06 级硕士论文研究方向比较如表5所示。
从表5可以看出,该校硕士生的研究方向主要 集中在计算机网络和人工智能2个方向,同时也有 部分研究生参与多媒体和软件理论及应用方向,而 嵌入式系统及应用、信息系统和计算机模拟3个方 向参与的研宄生较少。
从计算机专业参与“计算机网络”和“人工智 能”研究方向的研究生人数可以看出,该校计算机 专业的学科特色在于计算机网络和人工智能,由此 证明该校计算机专业科研结构合理,十分重视计算机网络应用研究和计算机人工智能基础理论研究, 将应用型研究与理论型研究结合,合理搭配,形成了 一个较强的科研梯队。下载本文