学生论文
题 目: 数据挖掘研究现状及发展趋势
学生姓名: 学号:
专业: 信息与计算机科学(软件工程方向)
数据挖掘研究现状及发展趋势
摘要
从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点。
数据挖掘的研究对象主要是关系数据库,并逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球网WEB等;数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术等;数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、、教育、远程通讯、软件开发、运输等领域。
本文论及的另外概述了当前数据挖掘的热点领域及未来发展方向:就目前来看,相关的几个热点包括 网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘、分布式数据挖掘、可视化的数据挖掘等;而未来研究焦点可能会集中到以下几个方面:即研究专门用于知识发现的数据挖掘语言;寻求数据挖掘过程中的可视化方法;研究在网络环境下的数据挖掘技术,实现分布式数据采掘.
【关键词】: 数据挖掘 数据算法 未来研究方向
Abstract
From the definition of data mining , describes the neural network data mining , decision trees , genetic algorithms, rough sets , fuzzy set of concepts such as law and the law of association rules and their respective advantages and disadvantages
Its main object of study is a relational database , and gradually into spatial databases , temporal databases, text databases , multimedia databases, such as the World Wide Web WEB ; data mining method is used by artificial intelligence, machine learning methods evolved , combining traditional statistical analysis, fuzzy mathematics and scientific computing visualization technology ; data mining tools and software has been widely used in banking and finance, retail and wholesale , manufacturing , insurance , utilities , government, education , telecommunications , software development , and transportation .
In this paper, an overview of the second side of the hot areas addressed and the future direction of the current data mining : For now, the data related to several hot spots .
【key words】: data mining data algorithms future research directions
目录
摘要 1
Abstract 2
1、 数据挖掘 2
1.1、数据挖掘的定义 2
.1.2、 数据挖掘的任务 2
1.2.1、关联分析 2
1.2.2、 聚类 3
1.2.3、分类: 3
1.2.4、 预测: 4
1. 3、数据挖掘算法 4
1.3.1、神经网络法 4
1.3.2、决策树法 4
1.3.3、遗传算法 5
1.3.4、粗糙集法 5
1.3.5、模糊集法 5
1.3.6、关联规则法 5
2、 应用领域 5
2.1、金融方面: 5
2.2、生物信息 6
2.3、直销市场(即零售业/市场营销) 6
2.4、在客户关系管理方面 6
2.5、电子商务 6
2. 6、在远程通讯部门 6
2. 7、化学/制药行业 6
2. 8、军事方面 7
3、数据挖掘未来研究方向 7
3.1发现语言的形式化描述 7
3.2、研究在网络环境下的数据挖掘技术(WebMining) 7
3.3、数据挖掘发展趋势 8
3.3.1数据挖掘语言的标准化描述 8
3.3.2寻求数据挖掘过程中的可视化方法 8
3.3.3与特定数据存储类型的适应问题 8
3.3.4网络与分布式环境下的KDD问题 8
3.3.5应用的探索 8
4、总结 9
1、 数据挖掘
1.1、数据挖掘的定义
数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。
人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点
.1.2、 数据挖掘的任务
数据挖掘的主要任务有六项:关联分析、时序模式、聚类、分类、偏差检测、预测。 关联分析:
1.2.1、关联分析
关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。
例如,买面包的顾客有90%的人还买牛奶,这是一条关联规则。若商店中将面包和牛奶放在一起销售,将会提高他们的销量。在大型数据库中,这种关联规则是很多的,需要进行筛选,一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。“支持度”表示该规则所代表的事例(元组)占全部事例(元组)的百分比。如买包又买牛奶的顾客占全部顾客的百分比。“可信度”表示该规则所代表事例占满足前提条件事例的百分比。如买面包又买牛奶的顾客占买面包顾客中的90%,可信度为90%。 时序模式 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉;在所有购买了彩色电视机的人中,有60%的人再购买VCD产品。在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比(阈值)的规则。这些规则会随着形式的变化做适当的调整。时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。例如在零售市场上,找到另一个有相似销售的部门,在股市中找到有相似波动的股票。
1.2.2、 聚类
数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。例如鸡、鸭、鹅等都属于家禽。聚类方法包括统计分析方法,机器学习方法,神经网络方法等。
在统计分析方法中,聚类分析是基于距离的聚类,如欧氏距离,海明距离等。这种聚类分析方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。在机器学习方法中,聚类是无导师的学习。在这里距离是根据概念的描述来确定的,故聚类也称概念聚类,当聚类对象动态增加时,概念聚类则称谓概念形成。在神经网络中,自组织神经网络方法用于聚类。如ART模型、Kohonen模型等,这是一种无监督学习方法。当给定距离阈值后,各样本按阈值进行聚类。
1.2.3、分类:
分类是数据挖掘中应用的最多的任务。分类是找出一个类别的概念描述,它代表了这类数据的整体信息,既该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。 一个类的内涵描述分为:特征描述和辨别性描述。
特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的描述。特征描述允许不同类中具有共同特征。而辨别性描述对不同类不能有相同特征。辨别性描述用的更多。
分类是利用训练样本集(已知数据库元组和类别所组成的样本)通过有关算法而求得。 建立分类决策树的方法,典型的有ID3、C4.5、IBLE等方法。建立分类规则的方法,典型的有AQ方法、粗集方法、遗传分类器等。
目前,分类方法的研究成果较多,判别方法的好坏,可从三个方面进行:(1)预测准确度(对非样本数据的判别准确度),(2)计算复杂度(方法实现时对时间和空间的复杂度)(3)模式的简洁度(在同样效果情况下,希望决策树小或规则少)。 在数据库中,往往存在燥声数据(错误数据)、缺损值、疏密不均匀等问题。他们对分类算法获取的知识将产生坏的影响。
偏差检测:数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况也是很重要的,以引起人们对它更多的注意。
偏差包括很多有用的知识,如:分类中的反常实例,模式的例外,观察结果对模型预测的偏差量值随时间的变化. 偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个域的值或多个域值的汇总。参照是给定模型的预测、外界提供的标准或另一个观察。
1.2.4、 预测:
预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征不等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。
近年来发展起来的神经网络方法,如BP模型,它实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但分类一般用于离散数值。回归预测用于连续数值。神经网络方法预测既可用于连续数值,也可以用于离散数值。
1. 3、数据挖掘算法
这些数据的类型可以是结构化的半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
1.3.1、神经网络法
神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。
1.3.2、决策树法
决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法,之后在ID3算法的基础上又提出了极其流行的C4.5算法。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。
1.3.3、遗传算法
遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是 适者生存!原理,具有隐含并行性、易于和其它模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。
1.3.4、粗糙集法
粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据
约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,不需要关于数据的任何预备的或额外的信息;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。
1.3.5、模糊集法
模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。
1.3.6、关联规则法
关联规则反应了事物之间的相互依赖性或关联性。其最著名的算法是R.AGRAWAL等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。
2、 应用领域
2.1、金融方面:
银行信用卡和保险行业,预测存/贷款趋势,优化存/贷款策略,用DM将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。
2.2、生物信息:
基因工程中的染色体、基因序列的识别、分析。基因挖掘、基因表达路径分析、基因表达相似性分析、基因表达共发生分析。制药、生物信息、科学研究等。
2.3、直销市场(即零售业/市场营销)
直销市场是数据挖掘技术应用最早也是最重要的领域,DM用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。
2.4、在客户关系管理方面
DM能找出产品使用模式或协助了解客户行为,从而可以改进通道管理(如银行分支和ATM等)。又如正确时间销售(RightTimeMarKeting)。基于顾客生活周期模型来实施的产品推荐、客户细分、客户流失、客户利润、客户响应等。
2.5、电子商务
用于在线交互式营销系统经营模式、市场策略及效果分析,WEB广告效果分析,在线购物的消费者行为分析。网站结构优化、网页推荐、商品推荐等。
在过程控制/质量监督保证方面:DM协助管理大数量变量之间的相互作用,DM能自动发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生范围和采取改正措施。
2. 6、在远程通讯部门
基于DM的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售计划.在网络容量利用方面,DM能提供对客户组类服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。
2. 7、化学/制药行业
从各种文献资料总自动抽取有关化学反应的信息,发现新的有用化学成分。在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。
2. 8、军事方面
使用DM进行军事信息系统中的目标特征提取、态势关联规则挖掘等。总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。据报导,DM的投资回报率有达400%甚至10倍的事例
3、数据挖掘未来研究方向
当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在90年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。预计在本世纪,DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面。
3.1发现语言的形式化描述
即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。
3.2、研究在网络环境下的数据挖掘技术(WebMining)
特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现分布式数据采掘;加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;
处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现;知识的维护更新。
但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。
3.3、数据挖掘发展趋势
3.3.1数据挖掘语言的标准化描述
标准的数据挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。
3.3.2寻求数据挖掘过程中的可视化方法
可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。
3.3.3与特定数据存储类型的适应问题
根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。
3.3.4网络与分布式环境下的KDD问题
随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自地处理分离数据库的工作方式应是可协作的[16]。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
3.3.5应用的探索
随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。数据挖掘与数据库系统和Web数据库系统的集成数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合
4、总结
本文概述了DM技术及相关应用的发展现状、问题及未来趋势。经过十多年来的风雨历程,总的来说,DM理论及技术研究下逐步走向成熟。其应用也已经深入到众多的领域,在各行业的应用越来越广泛;DM软件功能日益强大、完善,正向多技术综合及集成化方向发展。并以其显著的经济效益推动着其应用的迅速普及,同时又以强大的市场需求剌激着其理论及技术研究的不断升温,其相关软件的开发产业正以前所未有的速度迅速崛起,其理论或技术的重大突破将导致导致信息社会发生质的飞跃。
针对数据挖掘的主要算法,分析了各自的优缺点及其所适用的领域,并根据目前国内外数据挖掘的研究现状和研究热点指出了未来几年数据挖掘的发展趋势。目前数据挖掘逐渐从高端的研究转向常用的数据分析,在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策。尽管如此,数据挖掘技术仍然面临着许多问题和挑战,如超大规模数据集中的数据挖掘效率有待提高,开发适应于多数据类型、容噪的挖掘方法,网络与分布式环境下的数据挖掘,动态数据和知识的数据挖掘等。
总之,数据挖掘只是一个强大的工具,它不会在缺乏指导的情况下自动地发现模型,而且得到的模型必须在现实生活中验证,数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解决问题的领域,理解数据,了解其过程,只有这样才能解释最终所得到的结果,从而促使挖掘模型的不断完善和提高,使得数据挖掘真正地满足信息时代人们的要求,服务于社会。