一种用于垂直搜索引擎的聚焦相关度排序方法技术

技术编号：3941693 阅读：383 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种用于垂直搜索引擎的聚焦相关度排序方法，针对主题爬虫无法穿越“黑暗隧道”问题，使用在线学习的方法并利用辅助函数，对主题爬虫的主题爬行策略进行改进，使其能抓取到相关度更高的主题数据。研究了ＰａｇｅＲａｎｋ算法及其改进算法，通过对用户点击网页行为进行建模，改进链接之间ＰａｇｅＲａｎｋ值的传递方式，从而提出改进算法。针对网页权重特征提取模型维度过高的缺陷，提出网页权重的自定义方法，定义出网页权重的因素，并利用可分性判据来衡量页面权重因素的权重，从而给出页面权重的评价函数，有效地降低网页特征空间维度。通过本发明专利技术，用户在使用主题资源搜索引擎系统时，能够得到高质量的搜索结果集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机网络搜索引擎的
，特别是涉及，即在搜索引擎搜索中基于网页相关度技术的搜索方法。
技术介绍
随着互联网相关技术的日益成熟和蕴含信息量的快速增长，搜索引擎已经成为人们检索互联网数据的主要手段。目前互联网已经拥有100亿的静态网页，传统的通用搜索引擎虽然具有全面的检索能力，但其存在数据冗余量大、查询精度低等缺陷，已不能满足用户对信息检索的精确性要求。面向主题、专业化的垂直搜索引擎正逐步占据着市场，并引起了人们的广泛关注。垂直搜索引擎的目的是找到与主题密切相关的资源，这需要预测文档的相关性，并按照其相关度对文档进行排序。一般而言，相关度高的文档排在搜索结果集的顶端。提高相关度排序的质量，是垂直搜索引擎的核心问题之一。现在相关度排序技术主要有两个方面基于链接结构的网页排序和基于页面内容权重的网页排序。谷歌的PageRank算法是基于链接结构的网页排序中最流行的算法，它利用网页的超链接结构信息来估算网页的重要性。斯坦福大学的博士研究生Sergey Brin和Lawrence提出了网络链接分析的一个新算法PageRank，该算法是建立在随机用户行为上的。具体来说，假设用户跟随链接进行了若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览，那么一个网页的价值就由该网页被这个随机用户所访问的频率所决定。 PageRank算法基本原理通过对网络超链接结构和文献引文机制的相似性进行研究，利用网络本身的超链接结构给所有的网页确定一个重要性的等级数，当从网页A链接到网页B时，就认为网页A投了网页B一票，增加了网页B的重要性。最后根据网页的...

【技术保护点】
一种用于垂直搜索引擎的聚焦相关度排序方法，其特征在于，包括以下步骤：（１）使用主题爬虫抓取网页，保存在其ＵＲＬ队列中，抓取主题数据，为搜索引擎做数据准备；（２）对抓取的网页链接进行分析，通过对用户点击行为进行分析，建立用户行为模型，推导出ＰａｇｅＲａｎｋ值传递公式；（３）页面权重特征提取与评价，即对页面进行权重评分，利用可分性判据计算页面特征的类间距，推导出页面权重的评价函数，计算出页面的重要性；（４）在搜索引擎接受查询时，根据计算出的页面重要性进行排序，返回给用户结果集。

【技术特征摘要】

【专利技术属性】
技术研发人员：温泉，傅增明，程裕强，
申请(专利权)人：东华大学，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人