本发明专利技术涉及一种用于垂直搜索引擎的聚焦相关度排序方法,针对主题爬虫无法穿越“黑暗隧道”问题,使用在线学习的方法并利用辅助函数,对主题爬虫的主题爬行策略进行改进,使其能抓取到相关度更高的主题数据。研究了PageRank算法及其改进算法,通过对用户点击网页行为进行建模,改进链接之间PageRank值的传递方式,从而提出改进算法。针对网页权重特征提取模型维度过高的缺陷,提出网页权重的自定义方法,定义出网页权重的因素,并利用可分性判据来衡量页面权重因素的权重,从而给出页面权重的评价函数,有效地降低网页特征空间维度。通过本发明专利技术,用户在使用主题资源搜索引擎系统时,能够得到高质量的搜索结果集。
【技术实现步骤摘要】
本专利技术涉及计算机网络搜索引擎的
,特别是涉及,即在搜索引擎搜索中基于网页相关度技术的搜索方法。
技术介绍
随着互联网相关技术的日益成熟和蕴含信息量的快速增长,搜索引擎已经成为人们检索互联网数据的主要手段。目前互联网已经拥有100亿的静态网页,传统的通用搜索引擎虽然具有全面的检索能力,但其存在数据冗余量大、查询精度低等缺陷,已不能满足用户对信息检索的精确性要求。面向主题、专业化的垂直搜索引擎正逐步占据着市场,并引起了人们的广泛关注。 垂直搜索引擎的目的是找到与主题密切相关的资源,这需要预测文档的相关性,并按照其相关度对文档进行排序。一般而言,相关度高的文档排在搜索结果集的顶端。提高相关度排序的质量,是垂直搜索引擎的核心问题之一。现在相关度排序技术主要有两个方面基于链接结构的网页排序和基于页面内容权重的网页排序。 谷歌的PageRank算法是基于链接结构的网页排序中最流行的算法,它利用网页的超链接结构信息来估算网页的重要性。斯坦福大学的博士研究生Sergey Brin和Lawrence提出了网络链接分析的一个新算法PageRank,该算法是建立在随机用户行为上的。具体来说,假设用户跟随链接进行了若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览,那么一个网页的价值就由该网页被这个随机用户所访问的频率所决定。 PageRank算法基本原理通过对网络超链接结构和文献引文机制的相似性进行研究,利用网络本身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为网页A投了网页B一票,增加了网页B的重要性。最后根据网页的得票数评定其重要性,而这个重要性的量化指标就是PageRank值。在实际计算的时候,先给每个网页一个初始的PageRank值,然后通过简单的迭代算法计算出每个网页p的PR(p)值。但由于其链接间平均传递PageRank值的做法,易产生主题漂移现象。 基于页面权重的网页排序,采用特征提取模型,其中向量模型和布尔模型运用最为广泛,但由于它们的空间维度过高,使其受到一定的限制。因此,垂直搜索引擎中的相关度排序问题遇到了很大的挑战。 由此可见,现在并没有一种普适的并且高效的相关度排序方案,能在不增加存储信息量的情况下,解决用户查询主题漂移的问题。同时,对这一问题的深入研究有助于垂直搜索引擎的发展。
技术实现思路
本专利技术所要解决的技术问题是提供,提高相关度排序的质量,从而改善垂直搜索引擎的性能。 本专利技术解决其技术问题所采用的技术方案是提供,包括以下步骤 (1)使用主题爬虫抓取网页,保存在其URL队列中,抓取主题数据,为搜索引擎做数据准备; (2)对抓取的网页链接进行分析,通过对用户点击行为进行分析,建立用户行为模型,推导出PageRank值传递公式; (3)页面权重特征提取与评价,即对页面进行权重评分,利用可分性判据计算页面特征的类间距,推导出页面权重的评价函数,计算出页面的重要性; (4)在搜索引擎接受查询时,根据计算出的页面重要性进行排序,返回给用户结果集。 所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(1)中对主题爬虫的爬取行为加入主题判别函数,当主题样本被第i级主题分类器判为假后,使用第i级的主题判别函数对其进行辅助判决,若辅助判决为真,则将已判决为拒绝的主题样本输入到第i+1级的主题分类中,反之,则拒绝该主题样本,其中,i为正整数;所述的第i级主题判别函数为其中,α是锚文本的相关度值,β是链接附近文本的值,Fi(tc)表示第i级主题判别函数的值。 所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(2)中所述的用户点击行为分为四类 (a)该用户从当前页跳转到一个随机页面,并在关注同一主题的动作记为Ms,其行为概率为 (b)该用户从当前页跳转到一个随机页面,并在关注任一主题的动作记为Mj,其行为概率为 (c)该用户从当前页跟随该页面链接,并在关注同一主题的动作记为Jj,其行为概率为 (d)该用户从当前页跟随该页面链接,并在关注任一随机主题的动作记为Js,其行为概率为 所述的用户点击行为的概率在用户到达目标页面j的主题q时可以做如下描述 其中,C(i)(i∈(0,n))是文本的内容向量,out(i)是网页的链出数; 所述的概率模型用来计算用户在页面j中的聚焦主题q的概率 其中,N是爬取网页的数量;W是爬取的网页集;d是在所述的概率模型中的一个随机跳转的概率;i->j页面i中的一个超链接指向j。 所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(3)中评价函数使所有类的类内平均距离最小,类间平均距离最大,用J(·)表示采用所述的评价函数对页面进行权重评分,从而确定页面的重要性。 有益效果 由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果 (1)搜索引擎的数据准备过程中,针对主题爬虫无法穿越“黑暗隧道”问题,使用在线学习的方法并利用辅助函数,对主题爬虫的主题爬行策略进行改进,使其能抓取到相关度更高的主题数据。 (2)研究了PageRank算法及其改进算法,通过对用户点击网页行为进行建模,改进链接之间PageRank值的传递方式,从而提出改进算法。实验证明,该算法能在不增加额外存储空间的情况下,有效地避免主题漂移现象的发生。 (3)针对网页权重特征提取模型维度过高的缺陷,提出网页权重的自定义方法,定义出网页权重的因素,并利用可分性判据来衡量页面权重因素的权重,从而给出页面权重的评价函数,有效地降低网页特征空间维度。 (4)融合以上三方面改进方案,提出聚焦相关度排序方案,并将其运用到搜索引擎的应用系统中,能够提高相关度排序的质量,从而改善垂直搜索引擎的性能,最终设计并实现了面向领域的垂直搜索引擎系统。 附图说明 图1是本专利技术用于垂直搜索引擎的聚焦相关度排序方法的流程图; 图2是主题爬虫抓取网页的主要流程图; 图3是本专利技术的主题爬虫框架示意图; 图4是用户行为模型结构图; 图5是本专利技术搜索引擎系统的总体架构示意图。 具体实施例方式 下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。 本专利技术的实施方式涉及,包括以下步骤(1)使用主题爬虫抓取网页,保存在其URL队列中,抓取主题数据,为搜索引擎做数据准备;(2)对抓取的网页链接进行分析,通过对用户点击行为进行分析,建立用户行为模型,推导出PageRank值传递公式;(3)页面权重特征提取与评价,即对页面进行权重评分,利用可分性判据计算页面特征的类间距,推导出页面权重的评价函数,计算出页面的重要性;(4)在搜索引擎接受查询时,根据页面重要性进行排序,返回给用户结果集。 下面对本专利技术的实施方式进行具体地说明,如图1所示。 1)主题爬虫抓取数据,为搜索引擎做数据准备。 按照图2的步骤利用主题爬虫抓取网页,将抓取网页的URL放入URL队列中。 从图2中可知主题爬行策略改进有两点第一是借鉴了“在本文档来自技高网...
【技术保护点】
一种用于垂直搜索引擎的聚焦相关度排序方法,其特征在于,包括以下步骤:(1)使用主题爬虫抓取网页,保存在其URL队列中,抓取主题数据,为搜索引擎做数据准备;(2)对抓取的网页链接进行分析,通过对用户点击行为进行分析,建立用户行为模型,推导出PageRank值传递公式;(3)页面权重特征提取与评价,即对页面进行权重评分,利用可分性判据计算页面特征的类间距,推导出页面权重的评价函数,计算出页面的重要性;(4)在搜索引擎接受查询时,根据计算出的页面重要性进行排序,返回给用户结果集。
【技术特征摘要】
【专利技术属性】
技术研发人员:温泉,傅增明,程裕强,
申请(专利权)人:东华大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。