-87-
信息产业
1主题爬虫的个性化搜索引擎概述1.1个性化搜索引擎
个性化搜索引擎既指界面的个性化,也是内容的个性化。基于个性化推荐服务的搜索引擎隶属于个性化搜索引擎范畴。界面个性化是提供给用户一种定制搜素引擎的界面风格和布局能力,并根据不用用户提供其预先定制过的界面;内容个性化是提供用户一种定制搜索结果的能力,具有不用信息检索需求的用户在使用即便是相同的搜素词语,也会得到不同的命中结果。
显然这里强调的是内容的个性化,实际意义较界面个性化更大。
1.2网络爬虫网络爬虫,也称为蜘蛛程序(Spider )。网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。
网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把互联网当成一个网站,那么Spider 就可以用这个原理把互联网上所有的网页都抓取下来。它在搜索引擎中占有重要的地位,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络爬虫的好坏直接影响搜索结果页中的死链接(即指向的网页不存在)的个数。1.3网络爬虫在搜索引擎中的地位从上面的搜索引擎基本原理上可以看出网络爬虫是一种能够跟踪网络上超链接结构,并不断进行网络资源发现与采集的程序。作为搜索引擎的资源采集部分,网络爬虫的性能将直接影响到整个搜索引擎索
引网页的数量、
质量和更新周期。2基于主题爬虫的个性化搜索引擎技术
2.1信息采集模型
主题爬虫是建立普通爬虫基础之上,通过在网页的整个处理过程中增加模块实现个性化信息提取。这些模块包括主题确定模块、优化初始种子模块、主题相关度分析模块和排序模块等。(参见图1)
图1中,
1爬虫模块取回网页。2调用相关度分析模块,对网页进行相关度分析。3爬行模块根据分析的不同结果进行相应的处理。4爬行模块从数据库取
出等待处理的URL 继续工作,循环到第一步,直至没有
新的URL 。5对网页的重要程度进行排序。
主题的采集的关键是采集结果和主题的相似度计算。可以通过相关链接信息来预测待采集结果的相似度,从而体现用户的个性化要求。
2.2基于主题和用户个性化的爬行器
基于主题的爬行器是指选择性地搜寻那些与预先定义好的主题相关的页面的爬行器。和基于整个Web 的爬行器相比,它并不采集那些与主题无关的页面,节省了硬件和网络资源,保存的页面也由于数量少而更新快。它还可以很好地满足一些特定人群对特定领域信息的需求;而基于用户个性化的爬行器是一种
轻量级的采集系统,它的目标就是通过用户兴趣制导或与用户交互等手段来采集信息,给用户提供个性化服务。2.3超链接结构的搜索策略基于链接结构的搜索策略主要特点是利用Web
结构信息指导搜索,
并通过分析Web 页面之间相互引用的关系来确定页面和链接的重要性价值。超链分析技术是主题型搜索引擎所采用的一个重要手段,下面
将介绍几种重要的超链分析算法。2.3.1PageRank 算法PageRank 算法是斯坦福大学(Stanford Universi -ty)的Sergey Brin 和Lawrence Page 提出的.基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能就是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并将传递到它所引用的页面中。其中页面的重要程度量化后的分数就是PageRank 值。Google 的搜索引擎用的就是PageRank 算法。网络中的超链接结构可以表示为有向图G=(V,E),
其中V 是节点(网页)集,
E 是边(当且仅当存在从页面i 到页面j 的链接时存在从节点i 到节点j 的边)集.假设一个页面u,存在T 1,T 2...T n 的链接网页;参数d 代表“随机冲浪者”沿着链接访问网页的衰减因素,取值范围在(0,1)之间,根据经验值一般取为0.85。C(T i )代表网页T i 链
向其他网页的链接数量,
PR(u)定义为网页u 的链接权值。PageRank 值的计算公式如公式(1):其中e 为1/max ,即max 为所有网页的总和,每个网页初始分配的权值为总和的倒数。这种算法的特点指向一个网页的外部链接页的页面等级越高,则该链
接页面传递给该网页的页面等级值也就越高。
因而,一个网页即使只是在内容中偶然提到了一个和查询主题
偏离的关键词语,也会因其居高的页面等级值而获得一个比较高的排名,从而影响了搜索结果的相关性与精准性。
2.3.2HITS 算法HITS 算法是由Cornell 大学的J.Kleinberg 提出的。Kleinberg 将网页分为两类,即hubs(中心级别)和authorities(权威级别)。
authorities 为具有较高价值的网页,
依赖于指向它的页面,而hubs 为指向较多authori -ties 的网页,依赖于它所指向的页面。HITS 算法目标就是通过一定的计算方法以得到针对某个检索提问的最具有价值的网页,
即排名最高的authority 。但该算法计算量比PageRank 大。
且依赖于用户查询的,实时性差。另外Authorities andhubs 算法可能存在
“主题漂移”和“主题泛化”
的现象。因此,Authorities and hubs 算法适合于宽泛主题的查询。
2.3.3PageRank 算法改进。对PageRank 算法的改进,可以通过引入面向主题的思想和对网页链接关系的重新计算来实现。首先,
PageRank 对页面的重
要性发现起到重要作用,但是它不是面向某一个主题的(Query-Independence)。这里对PageRank 方法进行
了改进:在链接关系的基础上,
加入一定的语义信息权重,以使得所产生的重要页面是针对某一个主题的,这就形成了SPageRank 算法。SPageRank 算法既利用了PageRank 发现重要页面的优势,又利用主题相关性。
2.3.4主题相关性算法
搜索引擎的根源是传统的全文检索技术,搜索引擎沿用了传统的信息检索模型。在传统的计算文档相似度的算法中,以Salton 教授提出的向量空间模型(Vector Space Model)应用最为广泛。向量空间模型基于这样一个关键假设,即组成文章的词条所出现的顺序是无关紧要的,它们对于文章的主题所起的作用是相互的,因此可以把文档看作一系列无序词条的
集合。页面主题相关度的计算有多种方法,例如Naive Bayes 、神经网络(Neural Network)、实例映射模型、向量
空间模型(VSM)等。
其中向量空间模型对训练文档的要求较低,从少量的训练文档中就能提取出主要的目标特征,而且计算简单、正确率较高,比较适用于网络信息的发现。基于向量空间模型VSM 的简单向量距离算法。该算法的基本思想就是计算图2中两个向量之间夹角的余弦值。VSM 相似度计算公式如公式(2):
结束语
基于主题的个性化搜索引擎主要针对相关主题的采集,为用户提供个性化信息服务。基于主题的采集的关键是采集结果和主题的相似度计算。可以通过相关链接信息来预测待采集结果的相似度,从而体现用户的个性化要求。
参考文献
[1]高灵霞.基于主题爬虫的个性化搜索引擎技术分析[J].电脑知识与技术.2009(32)
[2]赵宏中李亚.垂直搜索引擎应用研究[J].现代商贸工业.2010(4)
作者简介:陈晨(19,5,11~)女,汉,哈尔滨学院,工学院,计算机科学与技术专业。
基于主题爬虫的个性化搜索引擎技术研究
陈晨
(哈尔滨学院,黑龙江哈尔滨150000)
摘
要:基于主题爬虫的个性化搜索引擎技术,借鉴Web 个性化推荐服务思路,改善了以搜索引擎为代表的Web 信息检索系统服务方式,有效地解决
了Internet 上“资源过载”和“信息迷失”的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进
行了介绍研究。
关键词:主题爬虫;搜索引擎;技术图1基于主题爬虫的个性化信息采集模型图2VSM 模型示意图
(2)下载本文