刘小满,王小辉
(平顶山学院,河南平顶山467000)
摘要:针对目前网民普遍关注的由互联网技术快速发展而带来海量网络热点话题和焦点很容易因误导或传播方式不当导致网络群体事件或突发事件问题,以“互联网+”与网络舆情监控分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,设计实现了基于“互联网+”的网络舆情监控系统。该系统主要由舆情数据信息采集子系统、舆情数据信息预处理子系统、舆情监控分析子系统和舆情应用子系统构成,通过各个子系统的协同工作共同完成对网络海量舆情数据和信息进行实时数据采集、舆情识别、舆情预警及引导治理等,稳定社会秩序,为构建和谐社会提供支持手段。
关键词:互联网+;舆情监控与分析;舆情识别
中图分类号:TP393文献标识码:A
文章编号:1009-3044(2019)31-0037-04开放科学(资源服务)标识码(OSID):
Design and Implementation of Network Public Opinion Monitoring System Based on"Internet+"
LIU Xiao-man,WANG Xiao-hui
(Pingdingshan College,Pingdingshan467000,China)
Abstract:Based on the current public Internet users a lot of attention because of the Internet technology rapid development will bring a huge number of network hot topic and focus easily caused by misleading or improper transmission network group events or emergencies, with"Internet+"depth fusion development and network public opinion monitor and analysis as the breakthrough point,the Internet,the Internet of things,big data and cloud computing is a new generation of information technology is applied to network public opinion moni⁃tor and analysis,design has realized the network public opinion monitoring system Based on"Internet+
Key words:Internet+;public opinion monitoring and analysis;public opinion identification
1背景
在这个“人人都是通讯社”的时代,许多社会事件都是始于网络,以BBS,论坛社区,博客,微博为网络舆情信息的主要来源,并产生巨大的社会影响[1]。面对不断发展的互联网、网络舆情传播快、渠道多,网络舆情数据的异构性与复杂性等特点,也导致了难以控制舆情信息的正确性和传播范围,面对热点话题和焦点的大量关注很容易导致网络群体事件或突发事件,要实现高效及时的网络舆情监控变得尤为困难。如何从海量网络舆情中快速、准确发现有价值的信息,协助管理部门及时发现网络舆情、引导方向、稳定社会情绪,成为建设和谐社会亟待解决的课题。
随着我国城市“互联网+”等信息技术的快速发展,已经成
为推动网络舆情监控与分析向智能化方向发展的重要动力。在目前网络舆情的监控与分析应对面临诸多困境的背景下,“互联网+”与网络舆情监控与分析的融合发展将会为这些难题的解决提供新的工具和思路。以“互联网+”与网络舆情监控与分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,使舆情数据的海量存储与高效并发处理成为可能[2]。因此提出基于“互联网+”的网络舆情监控系统的设计与实现,具有重要的理论和实践意义。
2网络舆情监控相关技术介绍
网络舆情监控系统相关的最关键的技术包括网络信息的分类、分析、识别、跟踪等计算机文本信息处理技术。这里主要
收稿日期:2019-09-08
基金项目:河南省社科联调研课题《基于“互联网+”的网络舆情监控与应对策略研究》(项目编号:SKL-2019-783)
作者简介:刘小满(1987—),女,河南邓州人,讲师,硕士,主要研究方向为计算机应用、图形图像处理;王小辉(1980—),女,河南滑县人,副教授,硕士,主要研究方向为计算机应用、算法研究。
Computer Knowledge and Technology电脑知识与技术第15卷第31期(2019年11月)
对网络爬虫技术和网络信息提取与识别技术进行介绍。
2.1网络爬虫
随着“互联网+”技术的发展,人们可以快速地通过网络来
获取大量所需要的信息[3]。但随着互联息量的不断增加和
扩大,每时每刻都有上千万的网络信息增长量,要从这么复杂
的网络信息量中找到自己想要的数据信息几乎变得不现实,而
网络爬虫技术的应用正是为了解决这一难题。
在本舆情监控系统中,网络爬虫技术主要进行的是从网络
上大量的不断更新的信息数据抓取下来,为舆情监控提供最原
始的网络信息,进而用于下一步的分析研究,以压缩的形式将
数据存在磁盘上。图1是常见网络爬虫的架构图。目前所有
从互联网上快速自动的获取数据信息都用到了网络爬虫技术。
其中应用最多的便是各搜索引擎公司的网络蜘蛛程序,此外,
爬虫技术还可以用来检测网站链接是否有效等。
数据库服务器网站文件系统邮件系统
图1网络爬虫构架图
2.2舆情信息的提取与识别
舆情信息的提取与识别技术主要对前期搜集来的信息做有效信息的分析,如果提取的是网络新闻数据,则主要从中找出新闻主题的正文信息(标题,内容,时间等),如果提取的是网络论坛数据,则主要从中找出用户的信息(用户ID、权威值,回复用户ID,回复数等),然后将找出的这些关键信息存入设定的信息数据库中。
舆情信息的提取分析采用的是一种基于模板与自动机器识别相结合的信息提取方法。该方法先根据制定好的启发式规则,然后去自动识别网络文本中不同属性信息之间的分隔符,再把它们配置到相应模板中,然后根据模板去识别分析出同一类型的网页信息,最终以话题线索的方式存下来[4]。话题线索是指对一个网络相关数据信息的描述,主要有网页的点击率,回复数,标题与评论等。与传统的信息提取相比,本技术能够快速对多种结构类型的网络网页数据信息进行处理;同时在很大程度上能更好地提高信息的准确率和效率;
并且不用修改算法就可以根据用户不同的需求,然后自动的动态提取网络相关数据信息,以便更好地满足研究的需要。具体提取过程如图2所示。
舆情信息的分析识别主要是对提取到的数据信息数据库中的数据信息做内容上和行为上的识别,并比较判断是否为所需要的舆情信息,为后续的更有针对性的舆情数据信息分析提供相应的参考依据。
舆情信息内容上的识别:主要根据舆情数据信息的文本属性特征,首先进行信息的分类和聚类操作,从内容上去比较识别该数据信息是否属于所需要的舆情数据信息。
舆情信息行为上的识别:根据舆情数据信息的社会传播属性,即网络舆情数据信息的传播会符合社会网络中的很多属性特征,因此可以使用社会网络中的模型来建立舆情数据信息网络,及时的分析显示出舆情网络信息的形成和进一步的发展趋势,同时可以更好地反映相互出网络用户之间的数据信息相互交流等。对于那些经内容上识别后不属于舆情数据信息将会进一步采用行为属性特征进行识别,如果这些网络数据信息符合行为上的属性特征,就可以把这些数据信息也归为所需要的舆情数据信息。
3网络舆情监控系统的功能框架设计
网络舆情信息的监控功能主要有数据信息的采集、数据信息的预处理和分析处理[5]。系统功能应具备判断舆情数据信息正负面发展的倾向性和趋势、传播方式和途径、能进行人工设置重点监控特定的舆情信息事件的能力,具有所需话题的自动识别跟踪、分析和提取以及统计报告等。根据目前该行业内现行的解决技术手段和方法方案,对监控系统进行更好的更有针对性的整理和归纳,并设计出更好的方案,获取“互联网+”舆情监控分析系统的功能框架设计的需求。
系统可以分为四个主要模块:舆情数据信息的采集子系统、舆情数据信息预处理子系统、舆情监控分析系统和舆情应用系统。如图3所示。
图3舆情监测系统功能模块划分
1)舆情信息采集子系统:能够自动抓取和存储网络上相关的舆情数据等信息。
2)舆情信息预处理子系统:主要对所抓取到的舆情数据信息进行去重、关键词筛选与分析等。
3)舆情监控分析子系统:主要对舆情数据信息进行文本的表示、对存储在数据库里的数
据进行识别分析等,并将识别分析的结果传递到分析库中。
4)舆情Web应用系统:实现用户交互功能。
图2数据信息提取方法的处理流程
Computer Knowledge and Technology 电脑知识与技术
第15卷第31期(2019年11月)
4网络舆情监控系统功能模块的详细设计
舆情监控系统的工作流即数据流主要经历4个环节的处理:首先是根据舆情数据采集子功能模块将采集到的舆情数据抓取到本地;接着对抓取回来的原始数据进行分析识别加工,即删除多余的垃圾数据,并根据指定的相应数据格式对抓取到的舆情数据信息建立索引[6];然后根据舆情监控系统设置的特定需求对舆情数据进行分析处理等,最后将得到的舆情数据实时地呈现在客户端。如图4所示:
图4舆情监控系统设计流程图
4.1信息采集功能模块设计
舆情数据主要来源于网站、微博、论坛等国内外著名网站,采用API 与网页抽取相结合的方法,进行关键词采集、话题语义采集,通过关键词管理、URL 管理、过滤词典及分类管理等系
统管理配置,实现分类归一管理[7]
。将数据存于HBase 数据库中,其采集过程如图5所示。通过网络爬虫技术抓取网络舆情数据信息,并根据Dom 解析html 和提取相应的数据信息;其中在n 个slaver 机器上分别运行n 个获取器和爬虫器,在master 机器上运行调度器。
图5基于“互联网+”的数据采集流程图
4.2信息预处理功能模块设计
在已抓取的网络舆情数据信息中,除了有效的舆情数据信
息外,还掺杂着大量的其他无效数据信息,如:菜单导航、网站版权、友情链接等。与结构化的数据信息相比,不同的是网络舆情数据信息中大多数为非结构化的数据信息,并且数据形式复杂,所以,对这些舆情数据信息不能直接进行分析和加工处
理,需要在数据加工处理前先进行信息的清洗除噪预处理,并对数据信息内容以及主要属性特征等进行分析提取,这就是信息预处理子功能模块的主要工作。如图6所示,即为舆情信息预处理子功能模块的工作流程。
图6系统信息预处理流程图
4.3舆情分析功能子模块设计
舆情分析功能子模块是舆情监控系统中最主要的一个功能模块,主要采用网络信息文本的分类和聚类等技术,对前期进行过预处理的网络舆情数据进行深入分析和识别挖掘,并以
此提供“话题发现”和“热点跟踪”[8]
。舆情分析功能子模块的工作流程如图7所示。
图6舆情分析功能模块
舆情监控分析功能子模块作为系统的主要功能模块,主要有最新热点信息话题的发现与分析、热点信息话题的追踪以及社会网络分析等。下面只对主要功能进行描述。4.3.1热点信息话题的发现与分析
热点话题发现与分析功能是指将舆情数据信息内容划分
到不同的话题,并在有需求时产生新的与之对应的话题;热点信息话题的追踪主要对网络用户所感兴趣话题的后续发展进行追踪分析。在此主要使用的是文本聚类分析方法。
网络舆情信息的聚类分析就是根据一定格式规律把信息内容相近的文档进行归纳区分的过程。聚类分析的数学描述如下:针对一个特定的数据样本集合:X ={X1,X2,…,Xn}依据样本中数据的近似程度,将样本数据集合分成若干个簇{C1,C2,…,Ck}的过程,称其为聚类的分析。簇的标记为Ci ={Xi j1,Xi j2,…,Xijn),Ci((i =1,2,…,k)是X 的子集,且满足:C1UC2U ,…,UCk =X,CiUCj =∮,i≠j 。基本步骤如下:
Setp 1:指定一个数据集合作为聚类。Setp 2:选取文档中的数据特征。Setp 3:按照特征,聚合文档到对应类。Setp 4:设定选择所需的关键词,并进行聚类标记。4.3.2社会网络分析
社会网络是复杂网络的一种,是复杂网络研究领域中一种特殊的网络,和复杂网络之间的关系是被包容与包容的关系。
以微博为例,舆情监控系统所使用的社会网络分析方法是对网络博主发布的数据信息中粉丝数以及关注数的出入度和聚类系数进行计算,分别采用n个Map阶段和一个Reduce阶段,并在分析库存储计算的结果,供客户端进行可视化调用。聚类系数的大小是社会网络分析方法中的一个关键参考指标,它体现的是网络的集团化程度,是一种网络内聚的反映,它是指社会网络中实际存在的边数和可能有的边数之比[9]。对于社会网络分析来说,集团化是一个关键属性特征,它代表网络中的朋友或熟人的凝聚程度,而聚类系数就是反映这集团化属性。4.4舆情展示预警功能模块设计
该功能模块主要实现系统和管理者之间的各种实时交互操作,将经过系统分析后的结果最终反馈给管理者。该模块所包含的功能有:敏感话题趋势、热点话题排序等。系统交信息互展示,能使管理者对舆情数据信息进行及时分析并掌握舆情信息趋势变化。更重要的是,监控系统还能进行舆情信息的自动警示触发。该警示的目的在于及时进行舆情信息的反馈和采取防患于未然的措施,舆情预警主要包括舆情预警通知和舆情引导。
4.4.1舆情预警通知
通过网络舆情预警机制的动态模型确定不同舆情信息的权重系数,然后依据权重系数大小确定等级高低。根据舆情数据信息等级的高低不同启动相应的处理机制(见图8),预警方式可设置为短信通知、邮件通知、启动报警(播放报警声音)及页面窗口弹出提示,确保舆情信息的发生立即被发现,第一时间做出响应,预防舆情的扩散传播,有效实施主动性。
图8舆情智能预警设置图
4.4.2舆情引导
根据网络舆情数据信息的属性和传播方式判断出舆情数据信息对社会生活产生不利影响时,利用舆情的引导策略和技术,在短期内快速生成应对不利影响的有效解决合力,使得网络舆情信息的发展朝着期望的方向变化,并以此为目的让广大网络民众更快的获知最真实的数据信息,进而寻的社会的稳定发展。舆情引导流程如图9所示。
图9舆情引导流程
5结束语
将“互联网+”技术应用于舆情监控系统实现了云端硬件资源的共享,使得客户不必购买大量硬件设备就可进行数据挖掘,节约了设备的采购及维护费用;同时利用云计算的集群处理能力,完成对云端数据的实时高效挖掘。从系统试运行应用效果来看,既节约了管理成本,又提高了工作效率,实现了网络舆情监控系统的实时性、高效性和全面性,可为维护信息时代社会的稳定性提供技术保障。
参考文献:
[1]彭丽.网络的滥觞与核心价值观的传播[J].人民论坛, 2017(25):126-127.
[2]白雅琴,张银川.网络舆情监测系统在社会舆情分析中的作
用[J].电子测试,2014(8):73-74.
[3]邢开顺.“互联网+”背景下企业社会资本对转型绩效的影响
[D].杭州:浙江工商大学,2018.
[4]郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].
计算机应用研究,2009,26(2):570-572,582.
[5]徐晓捷.医疗卫生行业网络舆情分析平台的设计与实现[D].
成都:电子科技大学,2016.
[6]史玉珍,单冬红.基于Hadoop的网络舆情监控平台的研究[J].电子测试,2015(9):71-73.
[7]周建华.一种基于Hadoop架构的网络舆情热点话题挖掘方
法[J].北方学院学报:自然科学版,2014,30(6):19-24. [8]刘志兵.高校网络舆情监控系统的实现[J].长沙大学学报, 2014,28(5):56-58.
[9].基于Spark的社交网络社区发现算法设计与实现[D].
扬州:扬州大学,2018.
[通联编辑:谢媛媛]
(上接第34页)
[2]JIANG Shu,YAN Chuan,Anne Girault,Marie Ferrua,Aude Fourcade,Philippe Loirat,Etienne Minvielle.International ex⁃periences on pay-for-performance programs and implications for China[J].Chinese Journal of Health Policy,2015,(2): 27-35.
[3]Kristensen S R,McDonald R,Sutton M.Should pay-for-per⁃formance schemes be locally designed?Evidence from the
Commissioning for Quality and Innovation(CQUIN)Framework [J].J Health Serv Res Policy,2013,18(2Suppl):38-49. [4]McKethan A,Jha A K.Designing Smarter Pay-for-Perfor⁃mance Programs[J].JAMA,2014,312(24):2617-2618.
[5]张朋,陈英耀,黄葭燕,等.基于PATH模型建立我国公立医
院绩效评价体系[J].中国卫生资源,2013,16(6):369-373.
[通联编辑:梁书]下载本文