当前位置: 首页 > 专利查询>微软公司专利>正文

使用传播的文档相关性来训练排名功能制造技术

技术编号:2917279 阅读:183 留言:0更新日期:2012-04-11 18:40
一种用于训练文档排名组件的系统,包括: 包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文档进行的标记; 基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性组件(235);以及 训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关性来对文档对于查询的相关性进行排名的训练组件(241)。

【技术实现步骤摘要】
【国外来华专利技术】背景如Google(谷歌)和Overture(建议)等许多搜索引擎服务提供对能经由因特网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以通过“爬行(crawl)”web(即,万维网)来标识每一网页的关键词来生成。为爬行web,搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键字与查询的文字匹配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于可以按照其与查询的相关度、流行度、重要性和/或其它度量来确定的排名的顺序显示给用户。用于网页排名的三种公知技术是PageRank(页排名)、HITS(“引起超链接的主题搜索”)和DirectHIT(直接HIT)。PageRank基于网页将具有到重要网页的链接(即,“引出链接”)的原理。因而,网页重要性基于链接到该网页(即,“引入链接”)的其它网页的数量与重要性。用简单形式,网页之间的链接可以由邻接矩阵A表示,其中Aij表示从网页i到网页j的引出链接的数量。网页wj的重要性分数j可以由以下等式表示:wj=∑iAijwi该等式可以通过基于下面的等式的迭代计算来求解:ATw=w其中w是网页的重要性分数的向量,并且是AT的主本征向量。HITS技术另外基于具有到其它重要网页的许多链接的网页本身可能是重要的原理。因而,HITS将网页的“重要性”分成两个相关属性:“中心(hub)”和“权威(authority)”。“中心”是由网页所链接到的网页的“权威”分数-->来测量的,而“权威”是由链接到该网页的网页的“中心”分数测量的。与独立于查询来计算网页重要性的PageRank相比,HITS基于结果的网页和通过跟随引入和引出链接而与结果的网页相关的网页来计算重要性。HITS向搜索引擎服务提交查询并且使用结果的网页作为初始网页集。HITS向该集合添加作为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些网页。HITS随后使用迭代算法计算每一网页的权威和中心分数。权威和中心分数可以由以下等式来表示:a(p)=Σq→ph(q)]]>和h(p)=Σp→qa(q)]]>其中a(p)表示网页p的权威分数而h(p)表示网页p的中心分数。HITS使用邻接矩阵A来表示这些链接。邻接矩阵由以下等式表示:向量a和h分别对应于该集合中所有网页的权威和中心分数,并且可以用以下等式表示:a=ATh和h=Aa因而,a和h是矩阵ATA和AAT的本征向量。HITS还可被修改来将按访问数量测量的网页的流行度计算在内。基于对点进数据的分析,每当用户从网页i移动至网页j时就增加邻接矩阵的bij。DirectHIT基于过去的具有类似查询的结果的用户历史对网页排名。例如,如果提交类似查询的用户通常首先选择结果的第三个网页,则该用户历史会是第三个网页的排名应更高的指示。作为另一示例,如果提交类似查询的用户通常首先花费最多的时间查看结果的第四个网页,则该用户历史会是第四个网页的排名应更高的指示。DirectHIT从点进数据的分析中导出这些用户历史。某些排名技术使用机器学习算法从包括查询、表示页面的特征向量和对于每一查询的每一页面排名的训练数据中学习排名功能。排名功能用作从页面特征到其对于一给定查询的排名的映射。排名功能的学习被某些人认为是对于学习特征向量到已排序数值排名集合的一个成员的映射的回归问题。某些基于回归的技术试图提供可被用来对页面排名的绝对相关性分数。然而,排名功能不必提供绝对相关分数而仅仅需要提供页面的相对排名。因而,这些基于回归的技术解决比所需更困难的问题。-->用于排名功能的机器学习算法使用查询、特征向量和用户标记的相关性分数作为训练数据。为生成该训练数据,可以将查询提交给生成搜索结果的页面的搜索引擎。算法随后为这些页面生成特征向量并从用户输入每一页面的相关性分数。这种方法的一个难点是搜索引擎可以返回上百个页面作为其搜索结果。用户标记搜索结果的所有页面的代价很高。此外,用户准确评估这么大数量的页面的相关性是困难的。虽然用户可以只标记页面的一小部分,但是基于这一小部分的学习可能不能提供准确的排名功能。概述提供了一种用于将已标记文档对于一查询的相关性传播至未标记文档的相关性的方法和系统。传播系统提供包括查询、以其对于这些查询的相关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记,直到其收敛于一解。具有所传播的相关性的训练数据随后可以用于训练排名功能。提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附图简述图1是示出文档图的一部分的图。图2是示出一实施例中传播系统的组件的框图。图3是示出一实施例中传播系统的创建排名功能组件的处理的流程图。图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。图5是示出一实施例中传播系统的构建图组件的处理的流程图。图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。图7是示出一实施例中传播系统的归一化图权重组件的处理的流程图。图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的流程图。-->详细描述提供了用于将对于一查询的已标记文档的相关性传播至未标记文档的方法和系统。在一实施例中,该传播系统提供包括查询、以其对这些查询的相关性标记的文档(由特征向量所表示)和未标记文档的训练数据。例如,传播系统可以向搜索引擎提交查询并将搜索结果用作文档(例如,网页)。传播系统随后可以提示用户基于其与查询的相关性来标记搜索结果中的某些文档。传播系统随后计算训练数据中文档对之间的相似性。例如,该传播系统可以用特征向量表示每一文档并且可以基于特征空间中的欧几里得距离或本文档来自技高网...

【技术保护点】
一种用于训练文档排名组件的系统,包括: 包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文档进行的标记; 基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性组件(235);以及 训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关性来对文档对于查询的相关性进行排名的训练组件(241)。

【技术特征摘要】
【国外来华专利技术】1.一种用于训练文档排名组件的系统,包括:
包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对
于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文
档进行的标记;
基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性
组件(235);以及
训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关
性来对文档对于查询的相关性进行排名的训练组件(241)。
2.如权利要求1所述的系统,其特征在于,所述文档排名组件实现选
自由神经网络算法、自适应增强算法和支持向量机算法所组成的组的分类
算法。
3.如权利要求1所述的系统,其特征在于,所述文档排名组件实现基
于回归的算法。
4.如权利要求1所述的系统,其特征在于,所述传播相关性组件为每
一查询单独传播相关性,且所述训练组件使用所述单独传播的相关性来训
练所述文档排名组件。
5.如权利要求1所述的系统,其特征在于,所述传播相关性组件同时
为多个查询传播相关性,且所述训练组件使用所述同时传播的相关性来训
练所述文档排名组件。
6.如权利要求1所述的系统,其特征在于,包括创建其中文档被表示
为由表示文档之间的相似性的边所连接的节点的图的图组件。
7.如权利要求6所述的系统,其特征在于,所述图组件包括:
构建其中表示相似文档的节点通过边进行连接的图的构建图组件;以

基于由所述连接的节点所表示的文档的相似性为所述边生成权重的生
成权重组件。
8.如权利要求7所述的系统,其特征在于,所述构建图组件使用最近
邻居算法在节点之间建立边。
9.如权利要求1所述的系统,其特征在于,所述传播相关性组件使用
基于流形排名的算法来传播相关性。
10.一种包含用于控制计算机系统以一种方法来训练文档排名组件的
指令的计算机可读介质,所述方法包括:
提供(232)文档的表示以及对所述文档中的某一些的的标记,所述标
记指示文档对于一查询的相关性;
创建(236)其中文档被表示为由边连接的节点的图,所述边表示由所
述连接的节点表示的文档之间的相关性;
根据由所创建的图形所指示的文档之间的相似性并...

【专利技术属性】
技术研发人员:王珏李明敬马韦莹李智伟
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1