随着网络信息技术的日益发展和人们利益诉求的日趋多元化, 人们特别是广大网民越来越多地通过网络发表评论、表达诉求、寻求声援乃至组织行动, 这对社会的和谐发展和稳定提出了新的挑战。因此, 以W eb 数据挖掘为工具、以网络舆情为视角来探究社会件的发生、预防对增强社会件的预警和应急能力都具有极大的现实意义。
二、网络舆情的概念
舆情是在一定时期、一定范围的民众对社会现实的主观反映, 是群体性的思想、心理、情绪、意见和要求的综合表现。随着网络作为/ 第四媒体0的出现, 网络传播为网民发表意见提供了一个/ 公共空间0, 网民根据自己对社会现象的理解, 可以在网上自主发表对社会事件的看法。在网络上, 当越来越多的网民对同一事物或现象呼应或发表不同看法,各种意见在/ 公共空间0内彼此较量、修正、融合后就逐渐形成了一种新的舆情类型) ) ) 网络舆情。因此, 网络舆情可以认为是公众对互联网上传播的/ 热点0和/焦点0所表现的具有一定影响力和倾向性的意见或言论的状态。网络舆情的产生不仅打破了传统媒介对社会的相对垄断, 改变了传统的形态, 而且还迅速显现出其强势, 越来越深刻地改变着我们的生存环境与生活空间。
三、W eb 数据挖掘概述
W eb 数据挖掘(W eb Data M in ing), 是数据挖掘技术在W eb环境下的应用, 它从www 的资源(即Web 文档)和行为(即W eb服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息。所涉及的技术覆盖了数据库技术、信息获取技术、统计学、机器学习、神经网络等多个领域。
W eb数据挖掘与传统的数据和数据仓库不同的是, W eb 上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的, 所以很难直接以W eb网页上的数据进行数据挖掘, 而必须经过必要的数据处理。
典型W eb数据挖掘的处理流程如图1 所示, 包括如下四个过程:
1. 数据采集: 根据挖掘目的, 从W eb 资源中提取相关数据, 构成目标数据集。其任务是从目标Web 数据(包括W eb 文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到和挖掘目的相关的数据。
2. 数据预处理: 在进行W eb数据挖掘之前对/ 杂质0 数据进行过滤, 例如消除数据的不一致性; 将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。
3. 模式发现: 利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括: 路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。
4. 模式分析: 利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化, 把发现的规则模式转换为知识。图1 W eb数据挖掘的基本过程
四、W eb数据挖掘在网络舆情监测与分析系统中的应用
W eb数据挖掘一直是国内外信息工作者所关注的领域。其中最成功的、最有影响的应用是搜索引擎, 现在流行的搜索引擎在静态数据中表现很优秀, 但是在动态数据如论坛信息等方面的表现有待加强。为了加强对网络信息的控制能力, 特别是动态信息的监测, 所以有必要利用W eb数据挖掘技术建立一套网络舆情监测与分析系统来监测和分析网络舆情。这个系统至少应包括如下功能:
1. 网络信息的自动和人工采集。数据的收集是这个系统的源头,是最关键的部分, 收集的数据的广度和深度往往决定了系统的性能。现有的信息采集技术下要是通过网络页面之间的链接关系, 从网上自动获取页面信息, 并目随着链接不断向整个网络扩展, 这是现在的搜索引擎所使用的方法。舆情监控与分析系统不但需要能自动收集信息,还应能根据用户信息需求, 设定主题目标, 使用人工参与和自动信息采集结合的方法完成信息收集任务。在信息采集过程中, 可以采用W eb数据挖掘的一些技术, 对于静态数据可以采用路径分析技术, 采用图的方法来分析W eb 页面之间的路径关系。G = ( V, E ), 其中: V 是页面的集合, E 是页面之间的超链接集合, 页面定义为图中的顶点, 而页面间的超链接定义为图中的有向边。顶点v的入边表示对v 的引用, 出边表示v引用了其他的页面, 这样形成网站的结构图, 从图中可以确定最频繁的访问路径, 这个路径所指向的信息极有可能就是互联网上的/ 热点0和/ 焦点0。对于动态信息, 如用户访问日志等信息可采用关联规则挖掘技术, 这种技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则, 即挖掘出用户在一个访问期限( Session) , 从服务器上访问的页面文件之间的联系, 即使这些页面之间并不存在页面上的直接
参引关系。例如: 某信息A 和B, 同时被很多用户浏览, 则说明A 和B有可能相关。同时点击的用户越多, 其相关度就可能越高。系统可以利用这种思想可以收集到与同一主题相关的网络信息。
2. 数据处理。能对收集到的网络信息进行预处理, 如格式转换、数据清理、数据统计。对于新闻评论, 需要过滤无关信息, 保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛, 需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等, 最后形成格式化信息。条件允许时, 甚至可直接对网站的服务器的数据库进行操作。
3. 网络舆情监测与分析。这是系统的核心功能。能根据新闻的出
处、权威度、评论数量、发布时间和密集程度等参数, 识别出给定时间段
内的热门话题; 能利用关键字进行信息布控和语义分析, 识别敏感话
题; 能对于每个话题, 对每个发信人发表的文章的观点、倾向性进行分
析与统计; 能分析某个主题在不同的时间段内, 受关注的程度; 能对突
发事件进行跨时间、跨空间的综合分析以获知事件发生的全貌并预测
事件发展的趋势; 能对突发事件和敏感话题及时发现并报警; 能根据网
络服务器的访问数据进行用户群体识别和用户群体特征抽取; 能根据
舆情分析引擎处理后的结果生成报告, 提供信息检索功能, 根据指定条
件对热点话题、倾向性进行查询, 并浏览信息的具体内容, 以提供决策
支持。这些功能的实现需要包括自然语言处理、观点挖掘、人工智能等
技术。如语义分析识别敏感话题需要自然语言处理和人工智能等技
术; 如对文章的观点、倾向性进行分析与统计时需要观点挖掘方面的技
术; 如用户群体识别和用户群体特征抽取可采用W eb 数据挖掘中的聚
类分类技术, 分类技术可根据访问用户而得到个人信息、共同的访问模
式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一
访问规律特征的用户进行用户特征挖掘, 可以从Web 访问信息数据中
聚集出具有相似特性的用户群。
五、结语
总之, 对网络舆情监测与分析系统的研究具有很重要的理论意义和
实践意义, 值得进一步深入探讨。本文在简单介绍了网络舆情和W eb数
据挖掘的基础上, 探讨了网络舆情监测与分析系统所必须的功能以及所
需要用到的W eb数据挖掘技术, 并做了一些分析, 但在具体采用什么样
的数据挖掘算法和具体的功能实现等方面还需要做进一步的工作。
参考文献:__下载本文