参考下列方向进行选题,不同的同学不能相同。
方向1:收集数据,利用C5.0建立决策树,进行分类预测。
方向2: 收集数据,利用CART建立决策树,进行分类预测。
方向3:收集数据,利用BP算法建立神经网络,进行分类预测。
方向4:收集数据,用Logistic回归分析给出回归方程,进行分类预测。
方向5:收集数据,用岭回归分析给出回归方程,进行分类预测。
方向6:收集数据,用Apriori算法进行购物篮分析或关联规则分析。
方向7:收集数据,用序列关联分析进行分析。
方向8:岭回归的数值模拟。
方向9:关联规则中支持度置信度及提升度的实际意义。
方向10:多重共线性的处理方法。
方向11:高维数据分析的研究综述。
方向12:lasso方法及其应用。
方向13:ridge、lasso及bridge方法的介绍
下面有课程论文的模板,请参照模板写你的课程论文
《数据挖掘》
课 程 论 文
基于关联规则的成绩预警模型研究
王欢
任课教师姓名 曹慧荣
所在学院 数信学院 专业名称 信息与计算科学专业
论文提交日期 2010.6 .28 所在高等院校 廊坊师范学院
2010年5月27日
1、引言
随着高校招生规模的扩人和信息化程度的提高,高校教学教务系统数据库中积累了人量的数据,这些数据中蕴涵有人量有价值的规律,挖掘这些规律并应于高校教学教务的决策工作和辅助应用工作,可促进教育决策和教育辅助应用的科学化、合理化、系统化,将数据挖掘技术用在教学过程中,可以客观评价教学效果,合理设置课程,提高教学管理的预知性,增加教法选择的参考性,加强教学过程的指导性,对高校的素质教育和创新人才的培养等方面具有重要的作用和意义。
国内已有部分研究者以关联规则为数据处理模型面向高校教学教务信息开展了数据挖掘工作,应用于课堂教学评价、高校管理决策、教学管理决策、毕业生就业指导、个性化人才培养等领域,向决策者、教职工和同学提供信息支持,有利于推动学校教学改革和建设的全面发展。本文尝试将关联规则挖掘技术应用于学生成绩数据,发现课程成绩之间的相关性规律。以发现的规律为依据,分析学生成绩,提出有针对性的课程成绩预警信息,以提高教学管理的预知性,为同学合理地调整课程学习计划、分配学习时间提供了参考依据。
因成绩预警信息具有很强的针对性,简单地应用关联规则挖掘技术难以解决成绩预警问题。为此,本文开展了以工作:提出了一种基于关联规则的成绩预警模型,以系统地进行成绩预警分析:通过兴趣度约束、预警项集、项顺序关系约束实现定向挖掘,使挖掘结果具有针对性;以现实数据为数据源,开展实验研究。验证所提出的模型和方法的有效性。
2、基于关联规则的成绩预警模型
预警工作分为两个阶段:训练阶段和预警阶段。在训练阶段,预警系统接受学生成绩训练数据,从中自动获取系统所需的成绩预警规则。在预警阶段,系统根据用户输入的学生成绩、待预警课程和训练阶段获取的预警规则,按照所设计的预警策略发布预警信息。
如上图所示,基于关联规则的成绩预警模型由输入,输出接口、预处理模块、成绩预警规则库、预警规则挖掘模块和预警模块组成。其中,预警规则挖掘模块负责从训练数据中挖掘山预警规则。挖掘算法根据兴趣度约束、预警项集约束、项顺序关系约束挖掘出成绩预警规则,保存到成绩预警规则库中。通过挖掘系统原始的训练数据和不断更新的数据可以白动更新成绩预警规则库。预警规则挖掘模块是成绩预警系统的核心部分。预警模块根据输入的待预警课程信息和学生成绩。从成绩预警规则库中提取相应的预警规则集,根据所设计的预警策略决定是否生成预警信息。该模块和预警信息输出接口一起可以提供实时控制接口,集成了多种事件响应接口。可以产生协作进程所需的消息,联动预警等功能。
3、基于关联规则的成绩预警求解
以下将介绍预警规则的描述、训练数据预处理、基于约束的预警规则挖掘以及预警信息的生成,研究基于预警关联规则挖掘的成绩预警方法。
3.1预警规则
设是布尔文字的集合,其中的元素称为项(item),项表示某项出现与否,。表示预警项集,其中。记先于项出现为,为上的项顺序关系集,。
预警规则:一条预警规则是形如的蕴涵式。其中。对有。
预警规则反映了预警事件和其他事件之间依赖或关联的关系,预警事件中的项值可以依据与其存在关联的项值进行预测预警。
上述预警规则可以看作一种受预警项集和项顺序关系约束的关联规则。给定一个交易集D、预警项集W和项顺序关系集P,挖掘预警规则的问题就是产生支持度大于给定的最小支持度(minsupp)、可信度大于给定的最小可信度(minconf)的关联规则,其中。对有。
3.2训练数据预处理
训练数据在进行预警关联规则挖掘前要转换为挖掘算法所需的形式。目前关联规则的研究人都以交易数据库为对象,其属性取值局限于布尔型。而成绩数据库中的属性土要是数值属性(百分制成绩)和类别属性(五分制成绩等)。为此,需要将关系数据库中的属性进行转换。本文采用划分区间法,将类别属性转换为数值属性,将数值属性的值域划分成若干区间,将划分成若干类。按照下述方法对关系数据库的数值属性进行转换:设关系数据库中某属性有个区间取值,令个符号分别依次与这个取值对应,即可将关系数据库中的类别属性和数值属性统一转换成布尔属性。一般而言,这种转换需要经历缺失成绩与多次考试成绩的处理、分制的转换、数据离散化以及数据集成与变换等步骤。
3.3基于约束的预警规则挖掘
预警规则挖掘以Agrawal等人在1993年提出的Apriori算法为框架。算法伪代码描述见GenEarlyWarningRules。算法的第1-9行根据最小支持度约束计算出所有频繁项集.算法的第10-17行根据置信度约束、预警项集约束和项顺序关系约束生成预警规则集尺。
经典的关联规则挖掘出米的是大批量的规则,而基于约束条件的挖掘可以挖掘出用户感兴趣的规则,实现定向挖掘。最小支持度约束从约束性质上属于一种反单调约束,可推进到频繁项集的挖掘过程中,而置信度约束、预警项集约束和项顺序关系约束难以推进到频繁项集的挖掘过程中,算法GenEarlyWamingRules采用“事后约束”的方式来实现。
Procedure GenEarlyWamingRules
/*Input:事务集D,最小支持度minsupp,最小置信度minconf,预警项集W,项顺序关系集P。
Output:预警规则集R*/
//表示人小为的候选集,表示大小为的频繁项集
(1) =初始频繁1-项集;
(2) do begin
(3) 为中产生的新候选集;
(4) 根据最小支持度minsupp对进行剪切;
(5) for所有事务(记录)do begin
(6) 遍历包含在记录项T中的候选集中的所有候选项并计算支持计数;
(7) end for;
(8) =中所有支持度大于最小支持度minsupp的候选集;
(9)end for;
(10)for all频繁模式do begin,/*生成规则*/
(11) for all subset有)do begin
(12) conf=support()/support();
(13) if conf最小置信度minconf then begin
(14)
(15) end if;
(16) end for;
(17)end for;
3.4成绩预警
在实际的预警过程中,当系统处理一个学生成绩数据时,总是先通过预处理模块将其转变为系统规定的标准格式。预警模块待预警课程信息从预警规则库中提取预警规则集,然后分析成绩数据,对于每一条规则进行匹配分析。匹配预警时,先在成绩数据中寻找当前规则的前项,如果找不到,则认为此条规则不适用于这条记录,放弃匹配,转向规则集中的下一条规则:如果找得到,则认为此条规则适用于这条记录,通过预警信息输出接口输出预警信息,并退出预警过程。具体算法伪代码描述如下:
procedure GenEarlyWaminglnfo
(1)输入学生成绩和待预警课程;
(2)预处理学生成绩为系统规定的标准格式;
(3)根据待预警课程信息从成绩预警规则库中提取预警规则集R;
(4)for each rule in R do begin
(5) 在成绩数据中寻找当前规则的前项.如果找剑,则置标志Found为TRUE;
(6) if Found then根据rule通过预警信息输出接口输出预警信息,退出;
(7)end for;
4、实验与分析
实现本文模型和方法的软件环境如下:操作系统为Windows 2000,采用SPSS Clementine11.1软件。记为训练数据集合,为测试数据集合,为算法GenEarlyWamingRules从中挖掘出的预警规则集。定义规则r:的预警准确率为P(r),规则集R的预警准确率为PR(R)。
以某高校某专业某年级66位同学以超过90%的比例选修的20 门专业课成绩为训练数据源,以下一级69位同学的成绩为测试数据源,挖掘出的规则数作为评估挖掘结果的数量指标,规则集的预警准确率作为评估挖掘结果的质量指标,验证该模型的有效性。
运用SPSS Clementine11.1软件在上图步骤中设置最低支持度为30%和最低置信度90%。
取预警项集W={普通物理,数据分析},取项顺序关系集P={大学英语=A大学英语=B…大学语文=A…数值分析}。通过预警项集W和想顺序关系集P的约束对上述软件得出的规则进行筛选,得到下面6个预警规则:
马克思主义基本原理=D普通物理=D;计算机基础=B,复变=D普通物理=D;MATLAB程序设计=B普通物理=D;毛邓=B普通物理=D;大学英语=D普通物理=D;计算机基础=B普通物理=D
再用下一级69位同学的成绩为测试数据源,对这6个预警规则进行分析,得出他们的平均准确率。重复上面的步骤,把最低支持度和最低置信度重新设置,对得出的新的规则进行筛选得到新的预警规则,把这些数据进行统计得到下表
表l挖掘出的规则数和平均预测准确率
| Minsupp | Minconf=0.90 | Minconf=0.85 | Minconf=0.80 | |||
| 规则数 | 准确率(%) | 规则数 | 准确率(%) | 规则数 | 准确率(%) | |
| 0.30 | 6 | 33.61 | 8 | 39.67 | 31 | 19.32 |
| 0.25 | 7 | 19.31 | 12 | 38.77 | 35 | 20.04 |
| 0.20 | 9 | 26.85 | 16 | 25.47 | 53 | 18. |
另外,在实验过程中发现,我们挖掘出是一种统计意义上的规律。有时在学习内容上不明显相关的课程却具有较强的关联,这种规律应用于实际的数据也能取得较好的预警效果。分析其原因,有可能是这些课程在学习的思维方式、学习方式、学习方法等方面具有相似性。
5、结束语
本文提出了一种基于关联规则挖掘的成绩预警模型,以现实数据为数据源,对某高校某专业的学生成绩进行基于约束条件的关联规则挖掘,获取预警规则集。以预警规则集为基础,根据预警算法生成预警信息,能取得较好的效果。在以后的工作中,将研究如何根据数据的动态变化自动设置参数提高预警准确率。另外,研究将预警项集以及项顺序大系等约束推进到频繁项集的生成过程中以提高挖掘的效率,也是我们一个感兴趣的问题。下载本文