【技术实现步骤摘要】
相关申请交叉参照本专利技术与序列号为10/804,326、专利技术名称为“文本文档搜索中的域加权(FieldWeighting in Text Document Searching)”、于2004年3月18日提交的专利申请有关。相关申请被转让给本专利申请的受让人,通过参考包括在此。
技术介绍
在文本文档搜索中,用户一般在搜索引擎中输入查询。搜索引擎对照一个编有索引的文档的数据库评价此查询,并返回最满足该查询的文档的有序列表。一个得分由搜索引擎按照运算法则生成,它是表示文档有多么满足查询的测度。常用的评分算法依赖于将查询分裂成搜索词、并使用关于被搜索的文本文档正文中个搜索词出现次数的统计信息。根据它们所对应的得分,文档按照等级顺序被排序,这样用户能够在搜索结果列表的最前面看到最匹配的搜索结果。许多这样的评分算法假设每个文档都是一个单一的、无差别的文本串。搜索词的查询被应用于文本串(或者更精确地说,被应用于产生自表示每个文档的无差别文本串的统计中)。然而,文档通常具有一些内部结构(例如包含标题的域、段标题、元数据域等),所以将这些文档简化为无差别文本串丧失了所有由这样的结构信息提供的搜索好处。一些现有的方法尝试通过为各个文档域创建统计表和为各个域产生得分的方法,将文档的内部结构纳入搜索之中。单个文档的得分随后被作为该文档的域得分的加权和来计算。一些现有的方法尝试包含文档的内部结构,但并不曾尝试把包含在其他文档中的有关该文档的文本考虑在内。
技术实现思路
本专利技术涉及使用引入了锚文本分量的评分函数来排序搜索结果的系统和方法。锚文本由一个指向另一个文档的URL(统一资 ...
【技术保护点】
一种用于对搜索结果排序的计算机实现的方法,它包括:记录来自网络的锚文本属性,其中所述锚文本属性对应于网络上的源文档和目标文档;生成一个将每个目标文档同一个包含在锚文本中的词相关联的锚文本索引,其中所述锚文本索引独立于一内容索引;访问所述锚文本索引以确定与所述索引中一个特定目标文档的锚文本相关联的量;以及使用所述锚文本量调整一用于对文档排序以产生搜索结果的评分函数。
【技术特征摘要】
US 2004-9-30 10/955,4621.一种用于对搜索结果排序的计算机实现的方法,它包括记录来自网络的锚文本属性,其中所述锚文本属性对应于网络上的源文档和目标文档;生成一个将每个目标文档同一个包含在锚文本中的词相关联的锚文本索引,其中所述锚文本索引独立于一内容索引;访问所述锚文本索引以确定与所述索引中一个特定目标文档的锚文本相关联的量;以及使用所述锚文本量调整一用于对文档排序以产生搜索结果的评分函数。2.如权利要求1所述的计算机实现的方法,其特征在于,记录锚文本属性还包括用已记录的文档和链接信息生成一网络表示。3.如权利要求2所述的计算机实现的方法,其特征在于,还包括使用所述网络表示用锚文本属性填充一个表。4.如权利要求1所述的计算机实现的方法,其特征在于,所述锚文本属性包括源标识符、目标标识符、锚文本和链接标识符中的至少一个。5.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据评分函数(score)对文档排序,该评分函数(score)的确定至少根据加权锚文本词频率(wtfAnchor)和锚文本长度归一化分量(BAnchor)。6.如权利要求5所述的计算机实现的方法,其特征在于,所述锚文本长度归一化分量(BAnchor)对应于一个锚文本加权文档长度(wdl)、一个平均加权文档长度(avwdl)。7.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档排序,该评分函数(score)的确定至少根据加权词频率(wtf)、加权锚文本词频率(wtfAnchor)、长度归一化分量、锚文本长度归一化分量(BAnchor)、平均加权文档长度(avwdl)、网络上的文档的数目(N),包含查询词的文档的数目(n)和常数(k1)。8.如权利要求7所述的计算机实现的方法,其特征在于,所述评分函数(score)由下式给出score=Σ(wtfB+wtfAnchorBAnchor)(k1+1)k1+(wtfB+wtfAnchorBAnchor)×log(Nn)]]>9.如权利要求8所述的计算机实现的方法,其特征在于,BAnchor因从锚文本索引中取的分量BAnchor以及从内容索引取分量B而不同于B。10.如权利要求8所述的计算机实现的方法,其特征在于,所述由BAnchor提供的长度归一化的强度通过选择一个与BAnchor相关联的不同的常数值来调整。11.一种用于对搜索结果排序的系统,它包括一包含在计算设备上的搜索引擎,所述搜索引擎被配置成执行计算机可执行指令,所述计算机可执行指令包括爬行一网络以发现网络上的文档;记录来自网络的锚文本属性,其中所述锚文本属性对应于网络上的一源文档和一目标文档;生成一将每个目标文档与一包含所述在锚文本中的词相关联的锚文本索引,其中所述锚文本索引独立于一内容索引;访问所述锚文本索引以确定与索引中一个特定目标文档的锚文本相关联的量;以及使用所述锚文本量调整一用于对文档排序以产生搜索结果的的评分函数。12.如权利要求11所述的系统,其特征在于,记录锚文本属性还包括用已记录的文档和链接信息生成一网络表示。13.如权利要求12所述的系统,其特征在于,还包括使用所述网络表示用所述锚文本属性填充一个表。14.如权利要求11所述的系统,其特征在于,还包括根据一评分函数(score)对文档排序,该评分函数(score)的确定至少根...
【专利技术属性】
技术研发人员:D梅耶宗,H扎拉古扎,MJ泰勒,SE罗波特森,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。