数据挖掘论文_动视_懂你更懂生活

数据挖掘论文

2025-09-22 22:28:31 责编:小OO

1.绪论

1.1题目背景及目的

2011年是中国网络游戏产业发展的第十二个年头，随着社会发展，游戏开发技术的日益提升，中国网络游戏产业也发展迅速，如何在日渐激烈的市场竞争中脱颖而出，游戏运营商从数据挖掘中找到了突破口。玩家是游戏中真正的“上帝”，运用数据挖掘技术，掌握住绝大多数玩家的趋势，就可以预见未来，赢得未来。

1.2国内外研究状况

国内游戏以征途2为例，整个研发团队上千个日日夜夜加班，开测60天时间做了24次重大更新，在技术测试阶段，做了三个多月，不断完善细节。借由数据挖掘，不断发现在游戏性可以改善的空间，征途2无数细微水平改进。

国外一家社交游戏公司，Zynga他们所有的产品经理每天一上班，首要任务就是先要花30%以上的时间进行数据分析，然后才根据数据分析的结果布置新的任务，他们的数据分析细化到每一张图片的位置和颜色等等。Zynga现在招聘产品经理基本上不要求一定要有同业工作经验，但一定是数据统计能力超一流的高才生，经过他们的培养，很快可以成长成为优秀的产品经理。他们也抄袭别人的游戏，但他们一抄过来就放入他们的数据分析工厂里，加上他们强大的流程化的研发体系支持，造成他们的抄游戏很快就超过被抄的作品，这也许就是他们的牧场游戏比我们中国人做的输出过去的同类游戏的ARPU高6倍的原因！

1.3题目研究方法

通过对数据挖掘技术的详细介绍，以及以玩家流失为例的数据挖掘案例分析，体现网络游戏运营中数据挖掘技术的作用和针对性。

2.网络游戏运营数据

运营中产生的数据包括有：全局数据和个体数据。从数据中运营商可以了解到游戏的现状；发现运营中的各种问题，及时指导开发团队修正游戏版本；为未来开发新版本和新功能提供决策依据。

2.1全局运营数据

包括有：注册用户数、ACU/PCU、活跃用户/在线时长、时长收费/道具收费、ARPU/渗透率/收入等。

2.2个体数据（MMORPG）

包括有：职业等级分步、任务统计、经济系统统计、活动统计、商城统计/销量统计等。

3.数据挖掘技术介绍

3.1 数据挖掘概述

对于数据挖掘的定义有多种说法，但是大多数学者比较认同以下说法，即数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。与数据挖掘相关的术语有数据融合、数据分析、决策支持和知识发现等。经过几年的发展，数据挖掘领域也提出了许多挖掘方法，如关联分析、决策树和统计学方法等。

3.2 数据挖掘技术

3.2.1 统计技术

统计技术对数据集进行挖掘的主要思想是：统计的方法对给定的数据集合假定了一个分步或者概率的模型（比如一个正态分布），然后根据模型采用相应的方法进行挖掘。

3.2.2 关联规则

数据关联是数据库中存在的一类很重要的可以发现的知识。若两个或者多个变量的取值之间存在某种规律性，就成为关联。关联可分为简单关联，时序关联，因果关联。关联分析的目的是找出数据库中隐含的关联网，优势并不知道数据库中的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

3.2.3 基于历史的分析MBR（Memory-based Reasoning）

MBR的本质是：现根据经验知识寻找相似情况，然后再将这些情况的信息应用于当前的例子中。使用的三个问题是：寻找确定的历史数据；决定表示历史数据的最有效方法；决定距离函数、联合函数和邻近的数量。

3.2.4 遗传算法GA（Genetic Aigorithms）

该算法是基于进化理论，并采用遗传结合、遗传变异及自然选择等方法优化结果。主要思想是：根据适者生存的原则，形成由当前群体中最适合的规则组成新的群体，以及这些规则的后代。规则的适合度（Fitness）是对训练样本分类准确性的评估。

3.2.5 聚集检测

将物理或者抽象对象的集合，分组成为由类似的对象组成的多个类的过程被成为聚类。在由聚类生成的数据对象集合中，这些对象具有相似性，并与其他集合中的对象具有相异性。这种相异度是根据描述对象的属性值来计算的，距离是经常被采用的度量方法。

3.2.6 连接分析

它的基本理论是图论，图论的思想是寻找一个可以得出好的结果但不是完美结果的算法。这种不完美但是可行的思想模式，可以使之运用到更广的用户群中。

3.2.7 决策树

决策树是能够被看成一棵树的预测模型。树的每个分支都是一个分类的问题，内部节点表示在一个属性上的测试，树叶代表类或者分布。

决策树算法是目前应用最广泛的归纳推理算法之一，是一种逼近离散值函数的方法，也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算法，通过对一组训练数据的学习，构造出决策树形式的只是表示，在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝，从而在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则，整棵决策树就对应着一组吸取表达式规则。

3.2.8 神经网络

神经网络是指由大量神经元互联而成的网络，类似于服务器互联而成的因特网。它主要由“神经元”的互联，或按组织的结点构成。通常神经网络模型由三个层次组成：输入层，中间层，输出层。

在神经元求得输入值后，再汇总计算总输入值；由过滤机比较总输出值，确定网络的输出值。可以通过模拟判断，来不断修正计算的“权值”来达到学习的目的，增加判断的正确性。

3.2.9 粗糙集

粗糙值是一种研究不确定性问题的工具，它根据已有的给定问题的知识，对问题论域进行划分，然后对划分后的每个组成部分确定其对某个概念的支持程度。它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条件属性和结论属性。对数据库中的元组根据各个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

3.2.10 回归分析

回归分析分为线性回归、多元回归和非线性回归。线性回归中，数据是用直线建模；多元回归是线性回归的扩展，涉及多个预测变量。非线性回归是在基本线性模型上添加多个项式项形成为线性回归模型。

4 数据挖掘阶段分析

数据挖掘阶段作为整个项目的重中之重，通常数据挖掘的流程包括项目理解、数据理解、数据准备、建立模型、模型评估和模型发布等。这里以游戏用户流失为例对各个流程进行简单说明。

4.1 项目理解阶段

此阶段主要确定项目目标，订立项目成功的标准，完成项目形势评估及制定项目执行计划等等。例如在成立减少玩家流失这个项目组时，就确定了项目的目标是减少玩家的流失，项目成功的标准是模型的准确率达到多少，纯度达到多少，玩家流失减少多少等等，而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估，譬如可能是数据挖掘技术在网业的市场应用经验不足，游戏行业发展迅速，业务及行业规则不断变化，模型在应用过程中会遇到各种问题等等。至于项目计划则是对整个项目需要的时间，资源作一个整体的规划把控。除此之外，此阶段还需要对相关专业术语进行解释说明等。例如：定义玩家的流失分为内部流失和外部流失。

内部流失：指玩家转战新服或本公司的其他游戏产品。

外部流失：指玩家停止与本公司相关联的一切游戏活动。

流失原因：

产品原因：此阶段游戏内容匮乏、游戏平衡性等

非产品原因：外挂、账号安全等

4.2 数据理解和数据准备

数据挖掘对数据的依赖性非常高，为了能够实现数据挖掘的目标，要求收集的数据足够全，质量尽量高。通常在这个阶段花费的时间占整个项目的一半还多，关于数据理解和准备的详细情况可参阅《浅谈游戏数据的累积、挖掘与分析》和《游戏研发阶段与流数据沉淀的利器》。

原始数据采集完后，还需要对数据进行描述和处理，比如进一步探查已选变量与目标变量之间是否存在关系，各变量数据的基本探查，如空值数目、唯一值数目、最小最大值的统计以及数据质量检验等。

4.3 建立模型阶段

数据挖掘项目的建立模型都要经过三个阶段：建立模型，测试并调整模型，应用模型。建立模型，就得选择相应的建模技术，譬如玩家流失，就可能应用到决策树、神经网络及回归分析等统计技术，在游戏运营的各个阶段，数据不同，运营宣传方式也不同，这就可能利用模型的组合，各个游戏阶段采用不同的模型进行预测分析，这样预测模型可能分为游戏内测阶段、公测阶段和正式运营阶段不同而不同。

4.4 模型评估阶段

模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标准，在传统行业，这个评估通常在模型应用一年后作出。此外，对于设计的模型，不但要评估模型的准确性和通用性，还要努力找出相关商业理由解释说明模型的欠缺，把生成的结果与建模初订立的标准进行对比，同时根据目前的状况对数据仓库变量做适当的修正调整，以满足日常数据分析需要。

4.5 模型发布阶段

在模型通过评估满足商业目标情况后，进入模型发布阶段。模型发布阶段的内容主要包括相关模型检测和维护计划（常规调整和适应性的调整<应用于节假日及寒暑假等特殊日期>），以确保模型的准确预测和预警。同时，还要利用模型指导日常运营发布相关数据分析报告。

5.实际案例分析

实际案例中，迈思奇网游数据提取器定期收集游戏中玩家的历史数据，把历史数据经过收取、转换、导入数据仓库。然后进一步导入数据库。用ProClarity搭建分析平台，通过网络，游戏厂商或运营商可以随时察看分析结果，从而获得游戏平衡性的统计，监控游戏中的行为，掌握玩家动态。

活跃玩家的统计情况，从中可以看出，各门派玩家的数目是不平衡的。桃花岛远远高出一些。同时，桃花岛100 级以上的玩家比例较高。

　　如何定义活跃玩家？这是游戏商可以根据自己的商务规则可以灵活定制的。例如，最近一个月上线超过3天的游戏者。

各门派级别升级速度的统计情况，首先，可以发现，各玩家的级别增长不是线性的。由入门到中层较快，由中层到高手涨速较缓。这是合理的。但是，在同一级别，往往是桃花岛的玩家先到达这个高度，可见桃花岛的玩家比较容易升级，这是游戏平衡性设计的失误，必须进行调整。

玩家级别每日增长的统计情况，并且把每日级别增长超过6 级进行报警，可以看出有的玩家一天增长了194 级或者级，明显不正常，很有可能这些玩家在利用游戏中的bug，或者是某管理员的同学。

　　企业的规模越大，越需要自动化的监控措施。因此，定义一系列的KPI(关键性能指标)非常重要。所有的KPI都是不需要任何编程，业务人员就可以定制的。

活跃玩家门派统计情况的树型结构。这种分析方法叫做分解树，可以从宏观到具体，一层层了解运营中的状况，是非常有效的新型分析手段。

　　本解决方案除了具有上述的各种分析功能外，还有权限管理控制、各种报表导出格式、基于Internet 的Thin-Client 版本，以及个性化的定制、总经理仪表盘等等。用户可以在任何时间，任何地点，不需要安装任何特殊的软件，只要通过浏览器，就可以看到全部的分析结果，还可以在此基础之上进行深层分析。

用户通过使用迈思奇网游BI解决方案，在一个月之内发现了游戏中潜在的21处不平衡设计，发现违规玩家140例，违规管理人员2名。通过一系列的修正，该网络游戏目前已经上市运行，并且将为信息产业部研发国家网络游戏开发平台。

总结

数据挖掘技术及其应用是目前国际上的一个研究热点，并在很多行业中得到了很好的应用，有着极大的发展潜力.“统计分析给您以先机，分析报告给您后见之明，数据挖掘给您以洞察”。数据挖掘可以帮助网络游戏运营商从数据中发现各种问题，取得先机，从而获得成功，在激烈的竞争市场中获得更高的盈利。

参考文献

[1] 董宁，数据挖掘技术在CRM中的运用[J].计算机工程与设计，2007,28(6):1429-1432

[2] SPSS Inc.Building profitable customer relationships with data mining[EB/OL]. MargaretH.Dunham著，郭崇慧等译，数据挖掘教程[M].北京：电子工业出版社,2002.257-369

[3]. 邹志文，朱金伟，数据挖掘算法研究与综述[J].计算机工程与设计，2005,26（9）：2304-2307

[4] W.H.Inmon.数据仓库.机械工业出版社2000，5

[5]许怡然，Zynga的数据挖掘给网游业的启示

[6] 《Minesage公司关于网络游戏的BI解决方案》http://www.minesage.com/html/index_3.html下载本文

显示全文

全部频道