视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
3决策树的基本算法
2025-10-02 12:23:36 责编:小OO
文档
3决策树的基本算法----ID3算法

 

3.1 ID3算法的提出

决策树方法的起源是概念学习系统(Concept Learning System, CLS),然后发展到ID3方法而成为高峰。Quinlan提出的ID3[1,3,4]算法通过对一个例子集进行学习生成一棵决策树,现假设一个例子仅属于两种分类之一:正例,即符合被学习的目标概念的例子;反例,即不符合目标概念的例子。另外,假设例子的所有属性都是离散属性。

3.2 ID3算法描述

    在决策树归纳方法中,通常使用信息增益方法来帮助确定生成每个结点时所应选择的合适属性,这样就可以选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,以便使对以后所划分获得的训练样本子集进行分类所需要信息最小,也就是说,利用该属性进行当前(结点所含)样本集合划分,将会使得所产生的各样本子集中的“不同类别混合程度”降为最低。因此采用这样一种信息论方法将帮助有效减少对象分类所需要的划分次数。

设S为一个包含s个数据样本的集合,类别属性可以取m个不同的值,对应于m个不同的类别Ci, i∈{1,2,3,……,m}。假设si为类别Ci中的样本个数,那么要对一个给定数据对象进行分类所需要的信息量为

 

            I(s1,s2,…,sm)= -  pilog(pi)                 (1)

 

其中pi= 即为S中属于类别Ci的概率。

设一个属性A取v个不同的值{a1,a2,…,av},利用属性A可以将集合S划分为v个子集{S1,S2,…,Sv},其中Sj包含了S集合中属性A取aj值的数据样本,若属性A被选为测试属性(用于对当前样本集进行划分),设Sij为子集Sj中属于Ci类别的样本集,利用属性A划分当前样本集合所需要的信息熵:

4算法在教师课堂教学评估系统的应用

 

决策树的构造主要分为两个阶段:建树阶段和调整阶段。以一个教师课堂教学评估系统为例,对决策树分类的应用进行讨论。主要讨论课堂教学评估数据库中的数据挖掘和知识发现。

4.1数据转换和预处理

该课堂教学评估指标体系表共分若干项,经研究可归纳为教学态度A6、教学内容A7、教学方法A8、教学效果A9、评价A10共五个项目(见表)。实际数据见表4-1。

表4-1  教师课堂教学评估质量等级和区段数据

A1A6A7A8A9A10
192.692.691.3392.5592.6
287.0586.2780.985.0587.05
390.4592.7786.2.990.45
498.396.8397.0397.1598.3
591.191.9384.9788.8591.1
695.9596.1395.3395.9595.65
7.387.2384.283.1.3
885.2580.6776.538085.25
992.8591.488.292.85
1084.6584.4779.380.5584.65
1193.393.3791.0790.393.3
1291.0591.9785.686.1591.05
1387.6588.1787.287.65
1490.9590.9386.2788.9590.95
1595.296.07.6392.695.2
1691.388.6383.987.8591.3
1787.1587.5384.1787.3587.15
1893.0590.486.6387.1593.05
1978.579.5767.377.7578.5
2087.492.4779.1382.787.4
因属性初始值为连续值,需先进行离散化处理。将属性划分为若干个区段,95-100分为C1,80-94分为C2,70-79分为C3,60-69分为C4,小于60分为C5,找出综合评估成绩与这四项等级之间的规则知识。经过预处理后,得到的数据库如表4-2所示。

表4-2  预处理后的教师课堂教学评估质量数据

5结束语

 

数据挖掘中分类和预测是重要的部分之一,分类算法有很多,近来出现了很多新的改进算法(基于粗糙集的并行决策树算法、基于贝叶斯的TAN算法等);分类方法中的决策树方法对于分类和决策有着很大的实用性。

本文在教学评估方面验证了决策树方法进行分类的有效性和准确性,该算法不仅适用于教学评估,在经济计划辅助决策、保险业、银行、股票交易等领域也大有作为,可以为管理人员、决策人员控制投资提供有力的决策支持。决策树算法还有很多有待于改进的方面,使其更好地为处理海量数据发掘有效信息做出贡献,这才是我们今后的研究方向。

同时感谢学院领导对我们的关心和支持,感谢计算机科学与技术系其他老师在学习和生活中给予我的支持和帮助,感谢孙彬、贾彦、张信峰、任欣、许学敏等同学对我的帮助。在忻州师范学院不仅学到了知识,而且从各位老师那里学到了严谨的治学态度、踏实认真的工作精神和为人正直的作风,也在做实验的期间体会到团队精神是如此重要,这都将使我终身受益。还要感谢我的父母,是他们一直在背后支持着我。下载本文

显示全文
专题