当前位置: 首页 > 专利查询>微软公司专利>正文

使用网络上的文档的偏离点击距离的排序函数制造技术

技术编号:2826507 阅读:222 留言:0更新日期:2012-04-11 18:40
公开了用于向网络上的文档提供文档相关性得分的方法。还公开了其上存储有用于执行一种向网络上的文档提供文档相关性得分的方法的计算机可执行指令的计算机可读介质。此外还公开了包含至少一个应用程序模块的计算系统,其中该至少一个应用程序模块包括用于执行向网络上的文档提供文档相关性得分的方法的应用程序代码。

【技术实现步骤摘要】
【国外来华专利技术】背景根据文档与给定搜索查询的相关性来对文档排序的排序函数是已知的。在本领域中继续努力开发为给定搜索查询提供比由搜索引擎使用已知排序函数生成的搜索结果更好的搜索结果的排序函数。概述在此所描述的特别地是用于确定网络上的给定文档的文档相关性得分的各种技术。文档相关性得分经由包括一个或多个查询无关组件的排序函数来生成,其中至少一个查询无关组件包括偏离点击距离(biased click distance)参数,该参数考虑了网络上的多个文档的偏离点击距离值。排序函数可以由搜索引擎用来基于多个文档的文档相关性得分按顺序(通常是降序)对多个文档排序。提供本概述一般以简化的形式向读者介绍在“详细描述”一节中所描述的一个或多个选择概念。本概述并非旨在标识所要求保护的主题的关键和/或必需特征。附图简述图1表示示出响应于由用户输入的搜索查询产生已排序的搜索结果的方法的示例性步骤的示例性逻辑流程图;图2是用于实现在此公开的方法和过程的示例性操作环境的一些主要组件的框图;图3描述了标识网络空间中的文档、文档之间的链接、具有分配的偏离点击距离值的权威节点和具有计算的偏离点击距离值的非权威节点的的示例性网图;图4A-4B表示示出为网图上的节点分配并生成偏离点击距离值的方法中的示例性步骤的逻辑流程图;图5A-5B表示示出为网图上非权威节点生成偏离点击距离值的方法中的示例性步骤的逻辑流程图;以及图6表示使用包含偏离点击距离值参数的排序函数来生成排序搜索结果的方-->法中的示例性步骤的逻辑流程图。详细描述为促进对在此所公开的方法和过程的原理的理解,使用以下的具体实施例的描述和特定语言来描述该具体实施例。然而应该理解,并不旨在通过使用特定语言来限制所公开的方法和过程的范围。所讨论的所公开的方法和过程的原理的改变、进一步的修改以及此类进一步的应用被认为通常是所公开的方法和过程所属的领域内的技术人员能想到的。公开了为网络上的文档确定文档相关性得分的方法。使用包含一个或多个查询相关分量(例如,依赖于给定搜索查询或搜索查询项的细节的函数分量)的以及一个或多个查询无关组件(例如,不依赖于给定搜索查询或搜索查询项的函数分量)的排序函数来计算每个文档相关性得分。由排序函数确定的文档相关性得分可以被用来根据每一文档相关性得分对网络空间(例如,公司的内联网空间)中的文档排序。其中可使用所公开的方法的一个示例性搜索过程在图1中被示为示例性过程10。图1描述示例性搜索过程10,它从处理步骤80开始,其中用户输入搜索查询。从步骤80,示例性搜索过程10前进到步骤200,其中搜索引擎搜索网络空间中的所有文档以得到该搜索查询的一个或多个项。从步骤200,示例性搜索过程10前进到步骤300,其中搜索引擎的排序函数基于每个文档的相关性得分对网络空间中的文档进行排序,该文档相关性得分基于一个或多个查询相关组件和一个或多个查询无关组件。从步骤300,示例性搜索10过程前进到步骤400,其中已排序的搜索结果通常以相关性的降序被呈现给用户,从而标识了网络空间里与搜索查询最相关的文档。如在下面更详细讨论的那样,在确定文档相关性得分的某些示例性方法中,被用来确定文档相关性得分的排序函数的至少一个查询无关组件考虑了网络空间里的每个文档的“偏离点击距离”。在此被称为网络中的“权威文档(authoritativedocument)”或网图上的“权威节点”的特定文档的偏离点击距离可以被分配一初始点击距离值,以便把这些文档标识为相对于彼此有不同的重要程度,并且可能是相对于网络上的其余文档更高的重要程度。在此被称为网络中的“非权威文档”或网图上的“非权威节点”的其余文档具有基于这些文档相对于网络空间中最接近的权威节点(或网图上最接近的权威节点)的位置来计算的偏离点击距离值,得到向-->权威节点偏离的点击距离值。在一个示例性实施例中,偏离点击距离值可以被分配给包括总共N个文档的网络上的m个权威文档,其中m大于或等于2且小于N。在这一示例性实施例中,系统管理员手动选择或搜索系统中的应用程序代码自动标识给定网络空间里在该网络空间中具有某一重要程度的m个权威文档。例如,m个权威文档的其中之一可以是网站的主页或直接链接到网站的主页的另一网页。在另一示例性实施例中,分配给m个权威文档的偏离点击距离值中的至少两个彼此不同。在这一实施例中,不同数值可以被分配给m个权威文档中的两个或多个,以便进一步量化一个权威文档对另一权威文档的重要性。例如,给定权威文档重要性可以由低偏离点击距离值来指示。在这一例子中,具有等于0的偏离点击距离值的权威文档将被认为是比具有大于0的偏离点击距离值的权威文档更重要。所公开的确定文档相关性得分的方法还可以利用包括至少一个查询无关组件的排序函数,其中该查询无关组件包括考虑了被分配给网络上的每条边的边值的边值参数,其中每条边把在网络的超链接结构中的一个文档连接到另一文档(或把网图上的一个节点连接到另一节点)。把边值分配给将网络上的文档相互连接的一条或多条边提供了影响网络上的文档的文档相关性得分的进一步方法。例如,在其中较低的偏离点击距离值指示给定文档的重要性的上述例子中,增加如第一文档和链接到该第一文档的第二文档等两个文档之间的边值会进一步减小第二文档(即被链接的文档)相对于第一文档的重要性。相反,通过把较低的边值分配给第一文档和第二文档之间的边,第二文档相对于第一文档的重要性变大。在一个示例性实施例中,链接网络空间中的文档的两条或多条边可以被分配彼此不同的边值。在这一示例性实施例中,不同的数值可以被分配给两条或多条边,以便进一步量化网络空间中一个文档对另一文档的重要性。在其他示例性实施例中,链接网络空间中的文档的所有边都被分配相同的边值,其中分配的边值是1或某一其他正数。在又一实施例中,边值彼此相等且等于或大于最初被分配给一个或多个权威文档的最高偏离点击距离值。在再一示例性实施例中,所公开的确定文档相关性得分的方法利用了包括至少一个查询无关组件的排序函数,该查询无关组件包括上述偏离点击距离参数和上述边值参数两者。文档相关性得分可以被用来对网络空间中的文档排序。例如,对网络上的文档排序的一种方法可以包括以下步骤:使用上述方法为网络上的每个文档确定文档-->相关性得分;以及基于每个文档的文档相关性得分以所需顺序(通常以降序)来对文档排序。文档相关性得分也可以被用来对搜索查询的搜索结果排序。例本文档来自技高网...

【技术保护点】
一种其上存储有用于对网络上的文档排序的计算机可执行指令的计算机可读介质,所述计算机可执行指令利用包括一个或多个查询无关分量的排序函数,其中至少一个查询无关分量包括偏离点击距离参数,所述偏离点击距离参数考虑了所述网络上的每个文档的偏离点击距离值。

【技术特征摘要】
【国外来华专利技术】US 2005-8-15 11/206,2861.一种其上存储有用于对网络上的文档排序的计算机可执行指令的计算机可
读介质,所述计算机可执行指令利用包括一个或多个查询无关分量的排序函数,其
中至少一个查询无关分量包括偏离点击距离参数,所述偏离点击距离参数考虑了所
述网络上的每个文档的偏离点击距离值。
2.如权利要求1所述的计算机可读介质,其特征在于,一偏离点击距离值被
分配给包括总共N个文档的网络上的m个权威文档,其中m大于或等于2且小于
N。
3.如权利要求2所述的计算机可读介质,其特征在于,所述分配的偏离点击
距离值中的至少两个相互不同。
4.如权利要求1所述的计算机可读介质,其特征在于,所述排序函数还包括
至少一个查询无关分量,所述查询无关分量包括考虑了所述网络上的每条边的边值
的边值参数,其中一个或多个边值是除1之外的数字。
5.如权利要求4所述的计算机可读介质,其特征在于,所述边值彼此相等并
等于除1之外的数字。
6.如权利要求4所述的计算机可读介质,其特征在于,所述边值彼此相等且
等于或大于最初被分配给一个或多个权威文档的最高偏离点击距离值。
7.如权利要求4所述的计算机可读介质,其特征在于,所述至少一个查询无
关分量包括所述偏离点击距离参数和所述边值参数两者。
8.如权利要求1所述的计算机可读介质,其特征在于,还包括用于将由所述
排序函数生成的得分分配给所述网络上的每个文档的计算机可执行指令,所述得分
被用来以升序或降序对文档排序。
9.如权利要求7所述的计算机可读介质,其特征在于,所述每个文档的得分
是使用以下公式生成的:
其中:
wtf′表示加权的项频率,
N表示所述网络上的文档数目,
n表示包含查询项的文档数目,
wcd表示查询无关分量的权重,
bcd表示点击距离的权重,
bud表示URL深度的权重,
CD表示文档的计算的点击距离或分配的偏离点击距离,
kew表示与边权重相关的调整常数,
UD表URL深度,以及
kcd和k1是常数。
10.如权利要求1所述的计算机可读介质,其特征在于,还包括用于接受由
用户输入的搜索查询、进行对网络上的文档的搜索以生成包括多个文档的搜索结
果、使用所述排序函数来对所述搜索结果的多个文档排序以生成经排序的搜索结
果、以及将所述经排序的搜索结果显示给用户的计算机可执行指令。
11.一种计算系统,所述计算系统包含可在所述计算系统上使用的至少一个
应用程序模块,其中所述至少一个应用程序模块包括从如权利要求1所述的计算机
可读介质载入到其上的应用程序代码。
12.一种为网络上的文档确定文档相关性得分的方法,所述方法包括以下步
骤:
储存网络上的文档以及关于文档的链接信息;
从所述文档和链接信息生成...

【专利技术属性】
技术研发人员:D梅耶左H扎拉格扎
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1