当前位置: 首页 > 专利查询>微软公司专利>正文

在排序搜索结果时引入锚文本用的系统和方法技术方案

技术编号:2854336 阅读:235 留言:0更新日期:2012-04-11 18:40
根据一个将锚文本作为一搜索项引入的评分函数,对网络上的一个搜索查询的搜索结果进行排序。该评分函数被调整,以使在目标文档的排序中,锚文本的目标文档将反映锚文本中的搜索项的使用。最初,在网络的爬行过程中,与锚文本相关联的属性被收集起来。生成一个单独的索引,该索引包括一个文档反向列表和锚文本中的搜索词。该索引随后响应于一个查询而被参考以便计算文档的得分。这个得分随后被用来排序文档并产生查询结果。

【技术实现步骤摘要】
相关申请交叉参照本专利技术与序列号为10/804,326、专利技术名称为“文本文档搜索中的域加权(FieldWeighting in Text Document Searching)”、于2004年3月18日提交的专利申请有关。相关申请被转让给本专利申请的受让人,通过参考包括在此。
技术介绍
在文本文档搜索中,用户一般在搜索引擎中输入查询。搜索引擎对照一个编有索引的文档的数据库评价此查询,并返回最满足该查询的文档的有序列表。一个得分由搜索引擎按照运算法则生成,它是表示文档有多么满足查询的测度。常用的评分算法依赖于将查询分裂成搜索词、并使用关于被搜索的文本文档正文中个搜索词出现次数的统计信息。根据它们所对应的得分,文档按照等级顺序被排序,这样用户能够在搜索结果列表的最前面看到最匹配的搜索结果。许多这样的评分算法假设每个文档都是一个单一的、无差别的文本串。搜索词的查询被应用于文本串(或者更精确地说,被应用于产生自表示每个文档的无差别文本串的统计中)。然而,文档通常具有一些内部结构(例如包含标题的域、段标题、元数据域等),所以将这些文档简化为无差别文本串丧失了所有由这样的结构信息提供的搜索好处。一些现有的方法尝试通过为各个文档域创建统计表和为各个域产生得分的方法,将文档的内部结构纳入搜索之中。单个文档的得分随后被作为该文档的域得分的加权和来计算。一些现有的方法尝试包含文档的内部结构,但并不曾尝试把包含在其他文档中的有关该文档的文本考虑在内。
技术实现思路
本专利技术涉及使用引入了锚文本分量的评分函数来排序搜索结果的系统和方法。锚文本由一个指向另一个文档的URL(统一资源定位符)和一个伴随的原文描述组成。该文本直接与目标文档相关,并且被用于本专利技术中以提供一个目标文档的相关性的测度。例如,文档A含有一些指向文档B的锚文本。如果该锚文本中包含一个文档B中没有的单词,在没有本专利技术所提供的附加功能性的情况下,包含这个单词的查询将不返回此被链接的文档。只有文档A被返回,但文档B不被返回。由于文档A中的描述是用来说明被链接文档B的,该文本非常可能是该被链接文档的概要/描述。通过在目标文档的排序中引入锚文本,本专利技术纠正了这个不足。在本专利技术的一个方面中,网络首先“被爬行”以创建一个与网络链接和页面相关联的属性表。“爬行”是指自动地将几个文档(或任何类似的离散信息单元)收集到一个被称为索引的数据库中。通过追踪某些文档中的文档参考链接并且随即处理每一个被发现的文档的方法,爬行遍历了网络上的多个文档。通过辨识文档中的关键词和普通文本的方法来处理文档以创建索引。本专利技术的索引包括一个独立的锚文本索引分区。本专利技术编了索引的文本并不只限于伴随着URL的锚文本。锚文本也能够包括参照任何其他对象的文本。例如人、种类、目录等也可以被索引。在本专利技术的另一个方面中,一旦锚文本被编入索引且与适当的目标文档相关联,该锚文本还被用于推进文档排序。在内容和锚文本中都存在的词的词频率被相加,这样一个词在文档中的总的出现次数增加了。目标文档的长度也因来自于指向特定目标文档的源文档的锚文本而加长了。这两个都是被用于确定文档的相关性测度的评分函数的因子。附图说明图1说明了一种可用在本专利技术的一个实施例中的示例性计算设备。图2是根据本专利技术使用索引键进行范围搜索的一个示例性系统的功能框图。图3是根据本专利技术的一个示例性索引结构的功能框图。图4是根据本专利技术的一个示例性网络图。图5是根据本专利技术用于处理锚文本以将锚文本包含在文档排序中的一个示例性进程的逻辑流程图。图6是根据本专利技术用于将锚文本引入对搜索结果的排序的一个示例性进程的逻辑流程图。具体实施例方式下面结合附图对本专利技术作更充分的描述,附图形成说明的一部分并且以图示的方式显示了用于实践本专利技术的具体示例性实施例。然而,本专利技术可能以许多不同的形式实施,因此不应解释为局限于这里所陈述的具体实施方案;相反,提供这些实施方案是为了使本公开详尽又完整、并且向本
技术人员完全传递本专利技术的范围。其中,本专利技术可体现为方法或装置。因此,本专利技术可采用完全硬件的实施方式、完全软件的实施方式或软件和硬件相结合的实施方式。因此,以下的详细说明不应从限制意义上来理解。说明性操作环境参照图1,用于实现本专利技术的一个示例性系统包括一个计算设备,诸如计算设备100。计算设备100可配置成客户机、服务器、可移动设备或其他计算设备。在一个非常基本的配置中,计算设备100一般包括至少一个处理单元102和系统存储器104。取决于计算设备的精确配置和类型,系统存储器104可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。系统存储器104通常包括一个操作系统105、一个或多个应用程序106,且可包括程序数据107。在一个实施方案中,应用程序106包含一个用于实现本专利技术功能性的搜索排序应用程序120。这一基本配置在图1中由虚线108中的那些组件表示。计算设备100可具有附加的特征或功能性。例如,计算设备100也可包括附加数据存储设备(可移动的和/或不可移动的),诸如磁盘、光盘或磁带。这种附加存储器在图1中由可移动存储器109和不可移动存储器110表示。计算机存储介质可包括易失性的和非易失性的、可移动的和不可移动的介质,这些存储介质以用于信息存储的任何方法或技术实现,所述信息包括计算机可读指令、数据结构、程序模块或其它数据。系统存储器104、可移动存储器109和不可移动存储器110都是计算机存储介质的例子。计算机存储介质包括但不限于RAM、ROM、EPROM、闪存或其它存储器技术,CD_ROM、数字通用盘(DVD)或其它光存储器,磁盒、磁带、磁盘存储或其它磁存储设备,或任何其他能够用于存储期望信息和能够被计算设备100访问的介质。任何此类的计算机存储介质都可以是设备100的一部分。计算设备100也可以有输入设备112,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。输出设备114如显示器、扬声器、打印机等也可被包含在其中。计算设备100还包含使该设备可同其他计算设备118通信的通信连接116,比如通过网络进行通讯。通信连接116是通信介质的实例之一。通信介质通常可以由计算机可读指令、数据结构、程序模块或其他数据以诸如载波或其他传输机制的调制数据信号的形式来体现,且包含一切信息传递介质。术语“调制数据信号”是指具它的一个或多个特征以在信号中将信息进行编码的方式加以改变或设定的信号。作为例子,而非限制,通信介质包括有线介质,如有线网络和直接连接,和无线介质如声波、射频、红外或其他无线介质。这里使用的术语“计算机可读介质”既包括存储介质又包括通信介质。将锚文本引入搜索排序中的说明性实施方案本专利技术的具体实施方案涉及搜索引擎的排序函数。搜索引擎的质量通常由根据排序函数所分配的等级得到的文档相关性来确定。锚文本定义为在HTML(<Ahref=http//example>Example Web</A>)锚标签中的文本。通常,锚文本包含简短而高质量的目标URL(统一资源定位符)的描述,而且排序函数将指向给定文档的锚标签的内容引入到该文档的排序函数中去是有益的。图2所示是用于根据本专利技术使用索引键进行范围搜索的本文档来自技高网
...

【技术保护点】
一种用于对搜索结果排序的计算机实现的方法,它包括:记录来自网络的锚文本属性,其中所述锚文本属性对应于网络上的源文档和目标文档;生成一个将每个目标文档同一个包含在锚文本中的词相关联的锚文本索引,其中所述锚文本索引独立于一内容索引;访问所述锚文本索引以确定与所述索引中一个特定目标文档的锚文本相关联的量;以及使用所述锚文本量调整一用于对文档排序以产生搜索结果的评分函数。

【技术特征摘要】
US 2004-9-30 10/955,4621.一种用于对搜索结果排序的计算机实现的方法,它包括记录来自网络的锚文本属性,其中所述锚文本属性对应于网络上的源文档和目标文档;生成一个将每个目标文档同一个包含在锚文本中的词相关联的锚文本索引,其中所述锚文本索引独立于一内容索引;访问所述锚文本索引以确定与所述索引中一个特定目标文档的锚文本相关联的量;以及使用所述锚文本量调整一用于对文档排序以产生搜索结果的评分函数。2.如权利要求1所述的计算机实现的方法,其特征在于,记录锚文本属性还包括用已记录的文档和链接信息生成一网络表示。3.如权利要求2所述的计算机实现的方法,其特征在于,还包括使用所述网络表示用锚文本属性填充一个表。4.如权利要求1所述的计算机实现的方法,其特征在于,所述锚文本属性包括源标识符、目标标识符、锚文本和链接标识符中的至少一个。5.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据评分函数(score)对文档排序,该评分函数(score)的确定至少根据加权锚文本词频率(wtfAnchor)和锚文本长度归一化分量(BAnchor)。6.如权利要求5所述的计算机实现的方法,其特征在于,所述锚文本长度归一化分量(BAnchor)对应于一个锚文本加权文档长度(wdl)、一个平均加权文档长度(avwdl)。7.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档排序,该评分函数(score)的确定至少根据加权词频率(wtf)、加权锚文本词频率(wtfAnchor)、长度归一化分量、锚文本长度归一化分量(BAnchor)、平均加权文档长度(avwdl)、网络上的文档的数目(N),包含查询词的文档的数目(n)和常数(k1)。8.如权利要求7所述的计算机实现的方法,其特征在于,所述评分函数(score)由下式给出score=Σ(wtfB+wtfAnchorBAnchor)(k1+1)k1+(wtfB+wtfAnchorBAnchor)×log(Nn)]]>9.如权利要求8所述的计算机实现的方法,其特征在于,BAnchor因从锚文本索引中取的分量BAnchor以及从内容索引取分量B而不同于B。10.如权利要求8所述的计算机实现的方法,其特征在于,所述由BAnchor提供的长度归一化的强度通过选择一个与BAnchor相关联的不同的常数值来调整。11.一种用于对搜索结果排序的系统,它包括一包含在计算设备上的搜索引擎,所述搜索引擎被配置成执行计算机可执行指令,所述计算机可执行指令包括爬行一网络以发现网络上的文档;记录来自网络的锚文本属性,其中所述锚文本属性对应于网络上的一源文档和一目标文档;生成一将每个目标文档与一包含所述在锚文本中的词相关联的锚文本索引,其中所述锚文本索引独立于一内容索引;访问所述锚文本索引以确定与索引中一个特定目标文档的锚文本相关联的量;以及使用所述锚文本量调整一用于对文档排序以产生搜索结果的的评分函数。12.如权利要求11所述的系统,其特征在于,记录锚文本属性还包括用已记录的文档和链接信息生成一网络表示。13.如权利要求12所述的系统,其特征在于,还包括使用所述网络表示用所述锚文本属性填充一个表。14.如权利要求11所述的系统,其特征在于,还包括根据一评分函数(score)对文档排序,该评分函数(score)的确定至少根...

【专利技术属性】
技术研发人员:D梅耶宗H扎拉古扎MJ泰勒SE罗波特森
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1