视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
聚类分析技术及其应用研究
2025-09-29 17:09:13 责编:小OO
文档
第18卷 第3期          广西工学院学报           Vol118 No13 2007年09月 JOURNAL OF GUAN GXI UN IV ERSIT Y OF TECHNOLO GY   Sep12007 文章编号 1004210(2007)0320105204

聚类分析技术及其应用研究

覃宝灵

(佛山科学技术学院信息与教育技术中心,广东佛山 528000)

摘 要:聚类分析是数据挖掘的重要概念,它广泛应用于模式识别、图像处理、数据分析和市场研究等领域,但在评价中的应用研究却很少,针对这些问题,把聚类分析技术的基本概念和方法运用于评价,并通过实例阐述其在评价中应用的重要性。

关 键 词:数据挖掘;聚类分析;评价

中图分类号:TP30116    文献标识码:A

0 前言

随着网络技术和数据库技术的飞速发展,各行各业的传统模式也随之改变,尤其对教师的评价也不例外。对教师的评价是很复杂的,评价结果要体现公平、公正、合理,评价过程要科学、高效,这要求有很好的技术作为平台,为了寻求这样的技术,在查阅大量资料的基础上,通过比较、分析,得出数据挖掘的聚类分析技术比较适合应用于学校的评价,实验结果达到预想效果。

学校的评价随着时间的推移,存于评价系统中的数据越来越多,如何从这些大量的评价数据中挖掘出潜在的、有用的数据显得非常重要。这里以高等教育为背景和计算机网络为操作平台,立足汲取别人经验,应用数据挖掘技术中聚类分析技术来探索现代学校的评价,为教育管理者和决策者提供隐含在现代学校的评价数据库中的理想模式,对促进教育信息化管理和提高学校教学质量等问题都具有一定的理论意义和应用价值。

1 数据挖掘中的聚类分析技术

111 数据挖掘

数据挖掘[1]是从海量的数据中提取或挖掘知识,是指从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的信息和知识的过程。从广义角度来理解,数据挖掘就是在一些事实或观察数据的集合中寻求模式的决策支持过程。它是一门交叉学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、神经网络、图像与信号处理、数据分析、专家系统等多个领域。数据挖掘的成果可以用在信息管理、过程控制、科学研究、评价系统、决策支持等许多方面[2]。

112 聚类分析技术

11211 聚类 聚类是无指导学习的分类。聚类分析[3]是指用数学的方法研究和处理给定对象的分类,是认识和探索事物内在联系的一种手段,是数据挖掘中的一个功能,它的应用很广泛。通过聚类分析技术,能够识别密集的和稀疏的区域,从而发现全局的分布模式和数据属性之间有趣的相互关系。聚类的质量是基于对象的相似度来衡量评估的。

聚类分析方法从不同角度来讲有不同的分法,但最核心的只有两个[4,5]:

收稿日期:2007-06-03

作者简介:覃宝灵(1968-),男,广西环江县人,广东省佛山科学技术学院讲师,硕士。

(1)样本的相似性度量。样本相似性度量是指对两个样本间的相似性达到什么程度,要给出一个量化指

标,这与应用领域有密切相关,不同的领域有不同的相似性度量方法。

(2)聚类准则。聚类准则是指当处理大量的样本并确定了它们之间的相似性度量后,回答如何分类的问题。

11212 动态聚类分析技术 由于系统聚类方法

[6]

是一次形成分类结果,因此它对分类方法提出的要求较高,而

且计算量也较大,为了克服这些缺点,提出动态聚类方法。先将样本进行一次粗略的分类,称为初始分类,然后根据某种最优原则对数据集进行反复不断修改,直至分类合理为止。如图1所示

图1 动态聚类步骤图

  C -均值算法[7,8]是动态聚类法的一种,它分为硬C -均值算法和模糊C -均值(FCM )算法,其中FCM 算法为:当有限集合X ={x i |x i ∈R n ,i =1,2,…,N }分成c 类(1∑μ

ij

=1;i =1,…,N ;j =1,2,…,C

定义目标函数:

d m (u ,v )=

∑∑μij

d 2ij

(x

i

,y j );i =1,…,N ;j =1,…,C

式中v j ∈R q 为类别中心,Y ={v j |v j ∈R q ,j =1,2,…,C},d ij (x i ,v j )为数据点x i 到类别中心v j 的距离测度,一般采用欧氏距离:

d 2ij (x i ,v j )=(v i -v j )t

(v i -v j )欧氏距离准则适合于类内数据点为超球形分布的情况,d ij 采用不同的距离定义,可用于不同分布类型

数据的聚类分析,目标函数d m 为每个数据点到相应的类别中心的加权距离平方和。

2 聚类分析技术的应用研究

211 聚类分析的初始数据

从佛山科技学院某二级学院的学生成绩库中抽取一部分大三学生英语四级和专业基础课平均成绩数据,对其进行聚类分析,目的是获取具有不同成绩特征的学生群体,分析每个群体内学生的共同特征。由于篇幅有限,只列20名同学的成绩和分析情况。如表1所示:212 聚类分析过程

(1)输入初始数据。由于这里是个案聚类,所以采用R 型聚类。如表2所示。  从表2可知,观测量总数为20个,进行聚类分析的有效观测量为20个,缺省值为0。欧氏距离平方值是一种对距离的测度方法,计算公式为:

E (x ,y )=

∑p

k =1

(x

k

-y k )2

(2)生成聚结表(如表3所示)。

601广西工学院学报                   第18卷

表2 个案处理综述表

C ase Processing Summ ary(a,b)

Cases

Valid Missing Total N Percent N Percent N Percent 2010010%00%2010010%

  a:Squared Euclidean Distance used;b:Average Linkage(Between Groups)

表3 聚结表

Agglomeration Schedule

Stage

Cluster

Combined

Cluster1Cluster2

Coefficients

Stage Cluster

First Appears

Cluster1Cluster2

Next

Stage

131910000016 213141000004 3101811000006 4813110000211 5111211000009 6710115000314 7117210000012 8216210000013 9411315000512 10915510000013 1168713330414 1214716677916 132914100081017 146724116711618 155202510000018 161327140012117 1712771607161319 18561451500151419 1915306191917180

  表4是具体聚类过程的结果,其步骤:

第一步:使观测量3与19合并为一类,其相系数为0;

第二步:使观测量13与14合并,依次类推,直到使观测量全部合并为止。最后得出聚为5类的结果表。

表4 聚类结果表

Cluster Membership

Case5Clusters 1:20030440011

2:20030440022

3:20030440031

4:20030440043

5:20030440055

6:20030440062

7:20030440072

8:20030440082

9:20030440094 10:20030440104续表4

Case5Clusters 11:20030440111

12:20030440121

13:20030440132

14:20030440142

15:20030440151

16:200304401

17:20030440173

18:20030440184

19:20030440191

20:20030440204

701

 第3期              覃宝灵:聚类分析技术及其应用研究  (3)生成树状图(如图2所示)。3 聚类结果分析

(1)聚类挖掘结果描述。根据聚类过程,可以用下列的表5来描述聚类结果

图2 聚类结果树状图

表5 聚类结果描述表

学号专业基础

课平均成绩

英语四级

通过情况

类20030440018711 20030440027612 20030440039011 20030440048303 20030440055605 20030440067012 20030440077312 20030440086812 20030440097904 20030440107304 20030440118411 20030440128511 20030440136712 20030440146712 20030440158111 20030440167704 20030440178603 20030440187204 20030440199011 20030440206104

  从表5可知20位同学被分为5类:

第1类同学特点为专业基础课平均成绩较高,而且全部通过英语四级,学号为2003044001、2003044003、2003044011、2003044012、2003044015、2003044019;第2类同学特点为专业基础课平均成绩一般,但都通过了英语四级,学号为2003044002、2003044006、2003044007、2003044008、2003044013、2003044014;第3类同学特点为专业基础课平均成绩较高,但都未通过英语四级,学号为2003044004、2003044017;第4类同学特点为专业基础课平均成绩一般,而且未能过英语四级,学号为2003044009、2003044010、2003044016、2003044018、2003044020;第5类同学特点为专业基础课平均成绩和英语四级成绩都很差,学号为20030440051第1、2、4类的同学分布比较均匀,第3、5类的同学占少数。

(2)聚类挖掘结果的指导意义

通过聚类挖掘结果,很清楚的看到这一部分学生专业基础课平均成绩和英语四级的成绩分布情况,同时,对广大教师和教育管理者来说,在平时的教学和管理中可以根据各类同学的特点调整教学方法,因材施教,使学生全面发展。例如对于第3类同学来说虽然专业基础课的成绩高,但是四级通过情况很差,这类同学可能在学习过程中忽略了英语学习的重要性,所以在教学过程中应采取相应的教学方法,提高这类同学的英语水平。在教学评价或平时的教学管理中都可以利用上面所描述的聚类分析模型对大量学生的数据进行分析,会取得更好的指导效果。

(下转第112页)ers and analyze their behavior characteristics.Therefore,corresponding care strategy will be made to motivate the growers and expand the sugarcane cultivation.

K ey w ords:data mining;fuzzy cluster;information management

(责任编辑 李 捷)

(上接第108页)

3 结语

聚类分析技术的应用很广泛,尤其在金融、贸易、电信等方面应用的研究很热点,而把它应用于学校的评价研究目前不算多,可以说是刚开始,随着聚类分析技术的发展和研究的深入,评价的公平、公正、合理、高效离不开聚类分析技术的支持。从目前查阅大量资料来看,聚类分析技术应用于学校的评价研究,已引起教育管理部门专家的广泛关注,目前虽然没有成功的应用系统,但理论的研究已趋成熟,并不断得到完善。

参 考 文 献:

[1]Jiawei Han Micheline K amber1数据挖掘———概念与技术[M]1范明,孟小峰,译1北京:机械工业出版社,200113~81

[2]苏新宁,杨建林,江念南,等1数据仓库和数据挖掘[M]1北京:清华大学出版社,20061169~1811

[3]朱玉全,杨鹤标,孙 蕾,等1数据挖掘技术[M]1南京:东南大学出版社,20061138~1671

[4]毛国君,段立娟,王 实,等1数据挖掘原理与算法[M]1北京:清华大学出版社,20051156~1811

[5]史忠植1高级人工智能[M]1北京:科学出版社,20061374~3761

[6]刘同明1数据挖掘技术及其应用[M]1北京:国防工业出版社,20011198~2031

[7]郭晓利,郭 平,冯 力1基于数据挖掘技术的教学质量分析评价系统的实现[J]1东北电力大学学报,2006,(3):70~731

[8]吕 爽,陈高云1数据挖掘技术在高校教学评估中的应用[J]1广东广播电视大学学报,2006,15(3):24~281

Cluster analysis technique and its application research

Q IN Bao2ling

(Information&Educational Technology Center,Foshan Science

and Technology College,Foshan528000,China)

Abstract:Cluster analysis is an important concept of data mining.It is extensively applied to the fields of mode i2 dentification,picture processing,data analysis and market study,etc.Based on the analysis of the example,the application of the cluster analysis technique in evaluation was discussed.

K ey w ords:data mining;cluster analysis;evaluation

(责任编辑 李 捷)下载本文

显示全文
专题