数据挖掘与知识发现_动视

数据挖掘与知识发现

2025-09-30 20:58:54 责编:小OO

1.请谈谈你对数据仓库和数据挖掘的理解。（提示：可从概念、结构、构建方式以及应用范围等方面加以阐述）

答：1）数据仓库

概念：数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

　　数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

结构：

数据源

　是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等；

数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。

OLAP(联机分析处理)服务器

　　对分析需要的数据进行有效集成，按模型予以组织，以便进行多角度、多层次的分析，并发现趋势。其具体实现可以分为：ROLAP（关系型在线分析处理）、MOLAP（在线分析处理）和HOLAP（混合型线上分析处理）。ROLAP基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于数据库中；HOLAP基本数据存放于RDBMS之中，聚合数据存放于数据库中。

前端工具

　　主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

构建方式：数据仓库是一个过程而不是一个项目。

　　数据仓库系统是一个信息提供平台，他从业务处理系统获得数据，主要以星型模型和雪花模型进行数据组织，并为用户提供各种手段从数据中获取信息和知识。

　　从功能结构化分，数据仓库系统至少应该包含数据获取（Data Acquisition）、数据存储（Data Storage）、数据访问（Data Access）三个关键部分。

　　企业数据仓库的建设，是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念，只有把信息及时交给需要这些信息的使用者，供他们做出改善其业务经营的决策，信息才能发挥作用，信息才有意义。而把信息加以整理归纳和重组，并及时提供给相应的管理决策人员，是数据仓库的根本任务。因此，从产业界的角度看，数据仓库建设是一个工程，是一个过程。

应用范围：数据仓库目前已应用于全部常见的行业，包括各部门，如税务、农业部等，以及像航天局这样的科研机构。

2）数据挖掘：

概念：数据挖掘(Data Mining)，就是从存放在数据库，数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

结构：挖掘结构定义生成挖掘模型时要依据的数据：它指定源数据视图、列的数量和类型以及分为定型集和测试集的可选分区。单个挖掘结构可以支持多个共享同一个域的挖掘模型。

应用领域：(1)金融；(2)医疗保健；(3)市场业；(4)零售业；(5)制造业；(6)司法；

　(7)工程和科学；(8)保险业。

2.某大型连锁超市的业务涵盖3个省范围内的1000多家门市。每个门市都有较完整的日用品和食品销售部门，包括百货、杂货、冷冻食品、奶制品、肉制品和面食等，大约5万多种，包装上均印有条形码，每个条形码代表了唯一的商品。请为该超市建立一个能够提高市场竞争力的数据仓库模型。（提示：从需求分析、事实表和维表的建立角度去分析）

答：需求分析：1.设备管理数据仓库化是超市范围内数据的处理过程它将商场（超市）内分散的原始操作数据和来自外部的数据汇集和整理在一起，为超市提供完整、及时、准确和明了的决策信息，有效地服务于超市的全方位决策；2.财务决策支持典型的财务决策问题有：投资决策、筹资决策、成本决策、销售决策等。财务决策支持系统需要的信息是通过日常业务数据所体现的整体趋势，或随时间变化而表现出来的变化趋势，必须对业务数据进行分类、析取、归纳、加工等处理才能得到这些信息。对数据信息的这些要求决定了财务决策支持系统的数据库有别于普通的业务数据库，因此，必须为企业建立数据仓库以适应决策支持系统的要求；3.管理决策支持在超市管理决策支持系统的构架方案中，OLTP应用系统中的数据库，可分为不同的类型，它是DSS的数据来源。大量同事务的、可靠的、历史性的数据是建立DW的基础。4.提高市场竞争力，提升客户服务水平。通过建立数据仓库，为客户资料的统计分析提供基本的信息源和辅助工具，已成为各个企业包括商场提高市场竞争能力和客户服务水平的关键。 5.提高管理水平，降低成本，提高效率。随着市场经济竞争的发展和反垄断经营的推进，商场（超市）逐渐向规模化、集约化方向发展，各个公司迫切要求提高其自身的管理水平。数据仓库的建立可使企业更加及时、准确地掌握自身的经营状况、资金情况、利润情况、客户群分布等重要信息。

事实表的建立：需要建立一个门市表（门市编号，门市名称，地点，负责人），一个商品表（商品编号（条形码表示），商品名称，商品单价，门市编号），一张销售表（商品编号，销售数量，库存数量）一张进货表（商品编号，厂商编号，厂商名称，厂商地址，单价）客户表（客户编号，门市编号，商品编号）。

维表的建立：因为所有表的建立都是以商品为基础的，所以以商品表为维表，建立雪花模型。

3. 就你所知，数据挖掘都包含哪些算法？都有什么优缺点？各自的应用领域都有哪些？如何应用？（提示：算法需给出简单描述，应用则应给出具体的应用方式）

答：1. C4.5算法：

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

优点：产生的分类规则易于理解，准确率较高。

缺点：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

2. The k-means algorithm 即K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

3. Support vector machines

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5. 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8. kNN: k-nearest neighbor classification

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

9. Naive Bayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

10. CART: 分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。下载本文

显示全文

全部频道