数据挖掘中的名词解释_动视

数据挖掘中的名词解释

2025-10-03 14:19:08 责编:小OO

第一章

1，数据挖掘(Data Mining)，就是从存放在数据库，数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

2，人工智能(Artificial Intelligence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

3，机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

4，知识工程（Knowledge Engineering）是人工智能的原理和方法，对那些需要专家知识才能解决的应用难题提供求解的手段。

5，信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。

6，数据可视化(Data Visualization)是关于数据之视觉表现形式的研究；其中，这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息，包括相应信息单位的各种属性和变量。

7，联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。在联机事务处理中，事务是被立即执行的，这与批处理相反，一批事务被存储一段时间，然后再被执行。

8, 联机分析处理(OLAP)使分析人员，管理人员或执行人员能够从多角度对信息进行快速一致，交互地存取，从而获得对数据的更深入了解的一类软件技术。

8，决策支持系统(decision support)是辅助决策者通过数据、模型和知识，以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境，调用各种信息资源和分析工具，帮助决策者提高决策水平和质量。

10，知识发现（KDD：Knowledge Discovery in Databases）是从数据集中别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。

11，事务数据库(Transaction Database)一个事务数据库由文件构成，每条记录代表一个事务。典型的事务包含唯一的事务标记，多个项目组成一个事务

12，分布式数据库（Distributed Database）是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。

第三章

13，并行关联规则挖掘（Parallel Association Rule Mining）是指利用并行处理机，使用挖掘算法或在并行计算的环境下完成数据的高效挖掘工作。

14，数量关联规则挖掘（Quantitive Association Rule Mining）对含有非离散的数值属性的数据进行挖掘的技术

14, 频繁项目集（Frequent Itemsets）对项目集I和事务数据库D，T中所有满足用户指定的最小支持度（Minsupport）的项目集，即大于或等于Minsupport的I的非空子集

15，最大频繁项目集（Maximum Frequent Itemsets）在频繁项目集中挑选出所有不被其他元素包含的频繁项目集

16，闭合项目集（Close Itemset）如果项目的直接超集都不具有和它相同的支持度技术则该项目是闭合的

17，多层次关联规则：具有概念分层的关联规则挖掘产生的规则称为多层关联规则。

18，关联规则：在关联规则中的项或属性每个涉及多个维，则它就是关联规则。

19，购物篮分析：通过支持度和置信度这两个值来对顾客所购买的商品组成情况进行分析的方法。

20，强关联规则：D在I上满足最小支持度和最小信任度的关联规则称为强关联规则

第四章

1,数据分类（Data Classification）数据分类可以看成是从数据库到一组预先定义的、非交叠的类别的映射。

2，K-最邻近方法（K-NN）计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的k个训练数据，k个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。

3，决策树（Decision Tree）决策树是从数据中生成分类器的一个重要的、基本的和有效的方法。采用自定向下的递归方式，每个决策或事件都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。

4，熵(Entropy) 对事件对应的属性的不确定性的度量。一个属性的熵越大，它蕴含的不确定信息越大，越有利于数据的分类。

5，后验概率(Posterior Probability)当根据经验及有关材料推测出主观概率后，对其是否准确没有充分把握时，可采用概率论中的贝叶斯公式进行修正，修正前的概率称为先验概率，修正后的概率称为后验概率，利用后验概率再进行风险分析。

第五章

1. 划分方法(partitioning methods)给定一个有N个元组或者纪录的数据集，法将构造K 个分组，每一个分组就代表一个聚类，K2. 层次方法(hierarchical methods)这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。

3. 基于密度的方法(density-based methods)基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去。

4. 基于网格的方法(grid-based methods)这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。

5,围绕中心点的划分（PAM）最初随机选择k个对象作为中心点，该算法反复地用非代表对象来代替代表对象，试图找出更好的中心点，以改进进聚类的质量。该算法可分为两步：1，建立：随机寻找k 个中心点作为初始的簇中心点。2，交换：对于所有可能的对象对进行分析，找到交换后可以使平方-误差减少的对象，代替原中心点。下载本文

显示全文

全部频道