视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
数据挖掘技术在网络舆情预测中的应用2013年10期
2025-10-03 14:34:50 责编:小OO
文档
针对网络舆情预测问题,国内学者提出了大量的研究方法,主要包括线性预测方法和非线性预测方法[1]

,线性预测方法主要有自回归移动平均、指数平滑等模型。这些算法参数设置少,易实现,但是它们均是基于网络舆情线性建模,与网络舆情变化特点不一致,预测准确性差

[2-5]

。非线性预测方法是基于数据挖掘技术进

行建模,主要有隐马尔可夫、灰色模型、神经网络和支持向量机等,网络舆情预测准确性得以提高[5]

。但这些非线性算法存在各自不足,如灰色模型对随机波动性较大的数据拟合效果较差;神经网络网络结构复杂、要求样本大,易出现过拟合缺陷;支持向量机训练时间长,速度慢,参数确定没有统一标准。为此,一些学者将各种数据挖掘技术组合在一起,出现灰色马尔可夫的网络舆情等组合模型,预测结果明显优于单一数据挖掘算法。

1灰色模型和BP 神经网络概述

1.1灰色模型

在诸多的灰色模型中,以灰色系统中单序列一阶

线性微分方程模型GM(1,1)模型最为常用。

(1)设有原始数据序列x (0),n 为数据个数。

x (0)=[x (0)(1),x (0)(2),…,x (0)

(n )]

(1)

(2)对原始数据序列累加以便弱化随机序列的波

动性和随机性,得到新数据序列:

x (1)=[x (1)(1),x (1)(2),…,x (1)(n )]

(2)

式中,

x (1)

(t )=t

n =1

∑x (0)

(n ),t=1,2,…n 。(3)建立相应的微分方程模型为:d x (1)

d t

+a x (1)

=u (3)

式中,a 为发展系数;u 为灰色作用量。

收稿日期:2012-11-22

作者简介:蒋玉婷(1981-),女,南京人,硕士,讲师,研究方向:计算机软件,计算机应用,数据挖掘等。

数据挖掘技术在网络舆情预测中的应用

蒋玉婷

(江苏海事职业技术学院信息工程系,南京211170)

摘要:提出一种数据挖掘技术的网络舆情组合预测模型。首先利用灰色模型GM 模型对网络舆情进行预测,然后采用BP 神经网络对GM 模型预测结果进行修正,同时采有粒子群算法优化BP 神经网络参数,最后采用某网络某热门话题对模型进行仿真实验。仿真结果表明,本文模型可以准确预测网络舆情变化趋势,提高了网络舆情预测精度。

关键词:网络舆情;灰色模型;BP 神经网络;粒子群优化算法;数据挖掘技术中图分类号:TP183

文献标识码:A

文章编号:1001-7119(2013)10-0073-03

Internet Pubic Opinion Prediction Model Based on Data Mining

Jiang Yuting

(Department of Information Engineering,Jiangsu Maritime Vocational and Technical College,Nanjing 211170,China)Abstract :The combination of network public opinion presents a data mining model.First carries on the forecast to the network of public opinion by using grey model GM model,then uses BP neural network to predict the result of GM model is modified,and adopts the particle swarm algorithm to optimize BP neural network parameters,the simulation experiment on a network model is a hot topic.The simulation results show that,the model can accurately predict the network public opinion trends,improve the prediction accuracy of network public opinion.

Key words :network public opinion;grey model;BP neural network;particle swarm optimization algorithm;data mining

第29卷第10期2013年10

BULLETIN OF SCIENCE AND TECHNOLOGY

Vol.29No.10Oct.2013

技通报

第29卷

只要求出参数a ,u ,就可以计算出x (1)(t ),进一步可以得到x (0)的未来预测值。(4)用累加生成数据构造累加矩阵B 与常数项向量

y n ,即:

B=-12

[x (1)(1)+x (1)

(2)]

1

-12[x (1)(2)

+x (1)

(3)]1-12

[x (1)(n -1)+x (1)(n )]1⎛⎝

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎞⎠

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(4)y n =[x (0)(2),x (0)(3),…,x (0)

(N )]T

(5)

(5)用最小二乘法对灰参数求解:

a ^u

^[]

=(B T B )-1B T

y n

(6)

(6)该微分方程的解为:x (1)(t +1)=[x (0)(1)-u ^a

^]e -a

^t +

u

^a

^(7)(7)累减还原得到:

x (0)(t +1)=x (1)(t +1)-x (1)(t )=(1-e -a ^)[x (0)

(1)-u ^a

^]e

-a ^t (8)

1.2BP 神经网络

设X 1,X 2,…,X n 为BP 神经网络输入向量,Y 1,Y 2,…,

Y m 为输出值,ωij 和ωjk 为为权值,典型的BP 神经网络拓扑结构图如图1所示。

当BP 神经网络输入和输出节点数分别为n 和m 时,其反映n 个自变量与m 个因变量之间映射关系。采用粒子群算法优化BP 神经网络参数。

2

网络舆情预测模型的构建

2.1网络舆情数据的预处理

(1)数据聚类。原始网络舆情数据是一种凌乱、无

序的信息,需要采用聚类算法对其进行构造,成为有序的信息。设网络舆情数据聚类后形成的任意类别聚类的纯度定义为:

P (S r )=1n r

max (n i r )

(9)

式中,n i r 是属于预定义类i 且被分配到第r 个聚类的文档个数;n r 为第r 个聚类类别中的文档个数。

那么,网络舆情数据的总聚类纯度为:

purity=k

r =1∑n r n

P (S r )

(10)

(2)热点获取。网络热点话题是指以网络为传播媒

介,被一定人群广泛、持续关注,并能够反映网络状况的信息集合。网络热点话题可被量化地表示为多

维向量:

P=(W 1,W 2,…,W l ;T 1,T 2,…,T m ;S 1,S 2,…,S n )

(11)

式中,

W i 表示热点词语,T i 表示核心标题,S i 表示网络来源。

采用基于流量内容中热点词语的相关度计算所的算法,利用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语相关的网页标题及网络来源信息,得出网络热点话题。

(3)数据聚合。数据聚合目的是收集到有关某组织

基于各个不同变量的信息,用它来收集基于热点话题的离散时间序列。时间序列每个时刻的值是到当前时刻为止网络上所有关于某个热点话题的帖子及其回复的总量。

时间1234567

10帖子数1169

150174185198201240271283

时间11121314151617181920

帖子数3503574534690531562601777704

时间21222324252627282930

帖子数675803950

100399811291113120612351277表1某网络热门事件的收集数据Table 1A network popular event collect data

图1BP 神经网络结构图Fig.1BP neural network

structure

图2数据趋势曲线图

Fig.2Data trend

chart

74

第10期图3GM 模型的预测结果Fig.3GM model predicted

results

图4GM-PSO-BPNN 的预测结果Fig.4GM -PSO -BPNN prediction results

2.2GM-PSO-BPNN 的网络舆情预测过程

GM 模型适用于对近似指数增长、数据相对较少的

数据序列进行预测。利用GM-PSO-BPNN 对网络舆情进行预测过程为:

(1)首先收集网络舆情历史数据,并对其进行预处理。(2)对网络舆情数据进行灰色累加,生成累加序列:

x (1)=[x (1)(1),x (1)(2),…,x (1)

(n )]

(12)

式中,x (1)

(t )=t

n =1∑x (0)

(n )。

(3)采用归一化方法对生成的数据进行缩放,将它

们变换到[0,1]之间,具体归一化公式为:

x 'i =

x i -min (x )

max (x )-min (x )

(13)

式中,x i ,x 'i 分别为转换前后的值,min(x)和max(x)分

别代表示网络舆情数据的最小值和最大值。

(4)建立网络舆情的GM 预测模型,并对测试样本

进行预测,将GM 预测值进行“累减还原”运算,得到网络舆情预测值。(5)计算GM 模型预测值与实际值的残差ε(0)

(t ),得

到:

ε(0)(t )=x (0)(t )-x ^(0)(t )

(14)

(6)将残差训练样本输入到BPNN 网络训练,并采

用粒子群算法优化其参数,建立网络舆情预测模型,并

获得残差的预测值。

(7)将BPNN 的残差预测值与GM 模型预测结果进

行融事,得到网络舆情最终预测结果。

3仿真实验

3.1数据来源

对网络某热门话题30天数据进行收集,然后对其

进行预处理,得到相应的时间序列,具体见表1。网络数

据趋势曲线如图2所示。

3.2灰色模型的拟合结果

将前20个数作为训练集输入到GM 模型中,用后10个数据进行预测,得到预测结果如图4所示。从图3可知,GM 模型可以对网络舆情数据进行较好地预测,可以总体把握网络舆情变化趋势,但是预测精度有待进一步提高,因而采用PSO-BP 神经网络对其预测结果进行修正。

3.3PSO-BP 神经网络对GM 模型预测结果进行修正

采用GM 模型的预测残差输入到BP 神经网络进行学习,并采用粒子群算法对BP 神经网络初始权值和阈

值进行优化,得到预测结果如图4所示。

从图4可知,相对于GM 模型,GM-PSO-BPNN 模型的预测精度有所提高,这表明GM-PSO-BPNN 综合了GM 模型和BP 神经网络的优势,可以深入挖掘网络舆情数据之间的变化规律,是一种有效、高精度的网络舆

情预测模型。

4结束语

本研究将多种数据挖掘技术组合在一起,提出一

种基于数据挖掘技术的网络舆情组合预测模型。仿真验证了GM-PSO-BPNN 用于网络舆情预测的有效性。

参考文献:

[1]钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008,4:49-55.

[2]黄文玲,李锐锋.BBS 传播的引导[J].武汉理工大学学报:社会科学版,2005,18(3):417-420.[3]蒋凡,高俊波,张敏,等.BBS 中主题发现原型系统的设计与实现[J].计算机工程与应用,2005,41(31):151-153.[4]张程,陈自郁,古平,等.基于DoM 树结构的Blog 网页自动识别[J].计算机应用研究,2008,25(5):14-1491.[5]

程辉,刘云.基于时间序列的网络舆情预测模型[J].网际网路技术学刊,2008,9(5):429-432.

蒋玉婷.数据挖掘技术在网络舆情预测中的应用

75

数据挖掘技术在网络舆情预测中的应用

作者:蒋玉婷, Jiang Yuting

作者单位:江苏海事职业技术学院 信息工程系,南京,211170刊名:

科技通报

英文刊名:Bulletin of Science and Technology

年,卷(期):2013(10)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_kjtb201310025.aspx下载本文

显示全文
专题