3.1 ID3算法的提出
决策树方法的起源是概念学习系统(Concept Learning System, CLS),然后发展到ID3方法而成为高峰。Quinlan提出的ID3[1,3,4]算法通过对一个例子集进行学习生成一棵决策树,现假设一个例子仅属于两种分类之一:正例,即符合被学习的目标概念的例子;反例,即不符合目标概念的例子。另外,假设例子的所有属性都是离散属性。
3.2 ID3算法描述
在决策树归纳方法中,通常使用信息增益方法来帮助确定生成每个结点时所应选择的合适属性,这样就可以选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,以便使对以后所划分获得的训练样本子集进行分类所需要信息最小,也就是说,利用该属性进行当前(结点所含)样本集合划分,将会使得所产生的各样本子集中的“不同类别混合程度”降为最低。因此采用这样一种信息论方法将帮助有效减少对象分类所需要的划分次数。
设S为一个包含s个数据样本的集合,类别属性可以取m个不同的值,对应于m个不同的类别Ci, i∈{1,2,3,……,m}。假设si为类别Ci中的样本个数,那么要对一个给定数据对象进行分类所需要的信息量为
I(s1,s2,…,sm)= - pilog(pi) (1)
其中pi= 即为S中属于类别Ci的概率。
设一个属性A取v个不同的值{a1,a2,…,av},利用属性A可以将集合S划分为v个子集{S1,S2,…,Sv},其中Sj包含了S集合中属性A取aj值的数据样本,若属性A被选为测试属性(用于对当前样本集进行划分),设Sij为子集Sj中属于Ci类别的样本集,利用属性A划分当前样本集合所需要的信息熵:
4算法在教师课堂教学评估系统的应用
决策树的构造主要分为两个阶段:建树阶段和调整阶段。以一个教师课堂教学评估系统为例,对决策树分类的应用进行讨论。主要讨论课堂教学评估数据库中的数据挖掘和知识发现。
4.1数据转换和预处理
该课堂教学评估指标体系表共分若干项,经研究可归纳为教学态度A6、教学内容A7、教学方法A8、教学效果A9、评价A10共五个项目(见表)。实际数据见表4-1。
表4-1 教师课堂教学评估质量等级和区段数据
| A1 | A6 | A7 | A8 | A9 | A10 |
| 1 | 92.6 | 92.6 | 91.33 | 92.55 | 92.6 |
| 2 | 87.05 | 86.27 | 80.9 | 85.05 | 87.05 |
| 3 | 90.45 | 92.77 | 86.2 | .9 | 90.45 |
| 4 | 98.3 | 96.83 | 97.03 | 97.15 | 98.3 |
| 5 | 91.1 | 91.93 | 84.97 | 88.85 | 91.1 |
| 6 | 95.95 | 96.13 | 95.33 | 95.95 | 95.65 |
| 7 | .3 | 87.23 | 84.2 | 83.1 | .3 |
| 8 | 85.25 | 80.67 | 76.53 | 80 | 85.25 |
| 9 | 92.85 | 91.4 | 88.2 | 92.85 | |
| 10 | 84.65 | 84.47 | 79.3 | 80.55 | 84.65 |
| 11 | 93.3 | 93.37 | 91.07 | 90.3 | 93.3 |
| 12 | 91.05 | 91.97 | 85.6 | 86.15 | 91.05 |
| 13 | 87.65 | 88 | .17 | 87.2 | 87.65 |
| 14 | 90.95 | 90.93 | 86.27 | 88.95 | 90.95 |
| 15 | 95.2 | 96.07 | .63 | 92.6 | 95.2 |
| 16 | 91.3 | 88.63 | 83.9 | 87.85 | 91.3 |
| 17 | 87.15 | 87.53 | 84.17 | 87.35 | 87.15 |
| 18 | 93.05 | 90.4 | 86.63 | 87.15 | 93.05 |
| 19 | 78.5 | 79.57 | 67.3 | 77.75 | 78.5 |
| 20 | 87.4 | 92.47 | 79.13 | 82.7 | 87.4 |
表4-2 预处理后的教师课堂教学评估质量数据
5结束语
数据挖掘中分类和预测是重要的部分之一,分类算法有很多,近来出现了很多新的改进算法(基于粗糙集的并行决策树算法、基于贝叶斯的TAN算法等);分类方法中的决策树方法对于分类和决策有着很大的实用性。
本文在教学评估方面验证了决策树方法进行分类的有效性和准确性,该算法不仅适用于教学评估,在经济计划辅助决策、保险业、银行、股票交易等领域也大有作为,可以为管理人员、决策人员控制投资提供有力的决策支持。决策树算法还有很多有待于改进的方面,使其更好地为处理海量数据发掘有效信息做出贡献,这才是我们今后的研究方向。
同时感谢学院领导对我们的关心和支持,感谢计算机科学与技术系其他老师在学习和生活中给予我的支持和帮助,感谢孙彬、贾彦、张信峰、任欣、许学敏等同学对我的帮助。在忻州师范学院不仅学到了知识,而且从各位老师那里学到了严谨的治学态度、踏实认真的工作精神和为人正直的作风,也在做实验的期间体会到团队精神是如此重要,这都将使我终身受益。还要感谢我的父母,是他们一直在背后支持着我。下载本文