作者:***
来源:《电子技术与软件工程》2018年第07期
摘要 在互联网时代之下,以新浪微博为代表的自媒体平台受到了较为广泛的关注,并且在不断发展过程中也一跃成为广播、电视、报纸之后的第四大媒体,在现如今成为网络舆情主要传播媒介以及手段。在网络发展初期,在进行舆情监控的过程中主要是借助于人工的方式来开展,而在网络数据不断发展的环境下,人工这一监控方式已经很难再满足现实需求,这时自动化网络舆情监控系统也就受到了较多的关注,而为了能够实现网络舆情的有效监督,本文也就网络舆情监控系统关键技术进行了相关研究。
【关键词】网络 舆情监控系统 关键技术
相关数据调查显示,我国早在2014年就已经成为了世界上网民人数最多的国家,互联网的普及率在14年就已经达到了46.9%,而到现今更是得到了显著的提升。相比较于传统媒体而言,网络媒体能够在第一时间内将所发生的重大事件传递给人们,而人们在通过网络获得相关信息的时候,也能借助于各种新型的媒体平台来表达出自身的意见以及看法,比如说微博、论坛、贴吧、微信等等,在这种开放网络环境之下网络舆情形成速度也就会变得越发的迅速。此外,网络本身就是一个十分开放且自由的平台,人们可以在网络上随意发表自身的观点,同时也有部分不良分子会借助于网络传播一些暴力、色情或者是公布的信息,这个时候网络舆情监控就显得尤为的重要,对于网络健康发展有着非常显著的价值。
1 网络舆情监控系统相关概述
1.1 网络舆情相关概述
网络舆情(IPO)主要指的是互联网中的一些舆情信息,是人们在网络上对各类时事热点发表自身想法以及意见的表现,就拿现如今网络当中所存在的各种信息都会有较多的网民来对其进行分析和讨论,而这些所发表出来的意见以及讨论出来的信息都可以称之为网络舆情的一部分,现如今这些舆情主要的传播方式则是微博、网站、微信等平台。网络开放性较强,所以也就存在较多的数据信息,可是并不是每一条信息我们都能够将其称之为舆情,要想被称之为舆情必然要具备几个特点,分别是模糊性、冲突性以及典型性,因为只有存在较为一定的冲突性才能够有效的影响到社会不同群体,而模糊性以及典型性信息也是舆情必不可少的特征之一。对网络舆情进行有效的监控,就能很好的掌握群众对于时事热点的想法,这样就能更好地了解群众政治意见以及文化倾向,从而更好的把握住社会大体的发展趋势,对群众以及社会态度进行及时且正确的引导,这样才能真正形成较为良好的社会风气。网络本身最为显著的特点就是开放性、虚拟性、隐蔽性等,而人们在网络上则能随意发表自身言论参与到各项热点互动交流当中,虽然这些信息能够很好的反映出群众本身的想法和观点,可是在大量网络信息环境之下还是会存在一些无效或者是有害的信息,这个时候也就很容易形成不好的网络环境,所以说,网络舆情监控就显得尤为的重要。
1.2 网络舆情监控系统相关概述
就现如今各大搜索引擎发展趋势来看,他们都是按照某一用户所需求的特定内容来提取出用户所需要的信息反馈给用户,这种设计方式没有很好的将用户所关注的舆情信息进行有效的处理,而舆情监控系统的存在则能实现舆情信息数据采集、分析等功能,以此来更加及时有效的帮助用户掌握舆情的动态。在对网络舆情进行检索的过程中,其主要有两种检索方式,一种是人工检索一种是机器检索,其中人工检索主要就是按照用户对某一热点或者是问题的态度倾向来为其进行聚类分析;而机器检索则是向用户提供某一舆情信息属性亦或者是向用户提供舆情热点排行榜,在这其中网络舆情分析系统主要的作用就是为了能够更好地掌握群众思想动态,以此来作出正确的引导。总的来说,舆情监控系统所涉及的技术领域较为广泛,其中就包含了自然语言处理、机器学习、文本挖掘、趋势分析、语义集成分析以及主题分类等等;而其所存在的功能则主要包含了热点识别、事件分析、主题跟踪、倾向性分析、统计报告等等。
2 网络舆情监控系统关键技术分析
舆情监测这一项工作本身就存在较为久远的历史,最开始的人工监控到现在的网络舆情监控系统都是为了能够更好地对网络舆情进行监测,而就现如今我国网络舆情监控系统发展情况来看,还是有待遇提升,再加上中西方文本挖掘、分词等方面本身就存在较大的差异性,这也致使我国汉语网络舆情监控系统起步速度较晚,而为了能够更好地促进我国网络舆情监控系统的发展,本文也就网络舆情监控系统关键技术进行了相关研究。从网络舆情监测过程来看,其本质就是要从网络上获得相应的数据,然后对数据进行分析处理按照用户需求将分析结果呈现给用户,所以说,在实现网络舆情监控系统的时候,要从数据流向角度来讲该系统划分成不同的模块(具体如图1),这几个模块也就是网络舆情监控系统关键技术,而笔者也对其分别进行了分析:
2.1 数据获取
在网络舆情监控系统当中,数据获取就属于较为关键的技术之一,其主要的功能就是全天候自动从整个网络,亦或者是一些特定的网络上获得相应的舆情信息数据,然后对其进行分析。在获取舆情信息数据的过程中,其主要存在两个方面的需求,一方面是要获得相关舆情数据对于整个数据的覆盖率,也就是说要尽可能的得到最为原始且全面的数据信息;而另一方面则需要确保数据信息的准确性,也就是说所获得的数据信息最好是用户真正关心的舆情信息,只有达到这两点要求才能更好地对网络舆情进行有效的预测和分析。就目前而言,在获取数据的过程中,其主要有以下两种手段
2.1.1 网络爬虫
互联网本身就已经存在一项最为基本的HTML协议,因为存在这一协议网络当中所存在的各项数据资源才能真正以统一资源定位符(URL)相互联系在一起而构成了一个有机的整体。在获取数据的时候,借助于这一手段网络爬虫就会从一个预先定义好的URL列表开始,然后再以此对这一列表上所存在的页面数据进行访问以及信息获取,同时还会对当前访问页面当中所存在的其它URL来进行分析,进而选择出符合相关需求的URL加入待访问队列当中,通过这样的方式来对限定范围网络来进行访问,最终就能有效的获得这一网络当中所存在的所有信息。下载本文