【技术实现步骤摘要】
【国外来华专利技术】背景如Google(谷歌)和Overture(建议)等许多搜索引擎服务提供对能经由因特网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以通过“爬行(crawl)”web(即,万维网)来标识每一网页的关键词来生成。为爬行web,搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键字与查询的文字匹配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于可以按照其与查询的相关度、流行度、重要性和/或其它度量来确定的排名的顺序显示给用户。用于网页排名的三种公知技术是PageRank(页排名)、HITS(“引起超链接的主题搜索”)和DirectHIT(直接HIT)。PageRank基于网页将具有到重要网页的链接(即,“引出链接”)的原理。因而,网页重要性基于链接到该网页(即,“引入链接”)的其它网页的数量与重要性。用简单形式,网页之间的链接可以由邻接矩阵A表示,其中Aij表示从网页i到网页j的引出链接的数量。网页wj的重要性分数j可以由以下等 ...
【技术保护点】
一种用于训练文档排名组件的系统,包括: 包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文档进行的标记; 基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性组件(235);以及 训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关性来对文档对于查询的相关性进行排名的训练组件(241)。
【技术特征摘要】
【国外来华专利技术】1.一种用于训练文档排名组件的系统,包括:
包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对
于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文
档进行的标记;
基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性
组件(235);以及
训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关
性来对文档对于查询的相关性进行排名的训练组件(241)。
2.如权利要求1所述的系统,其特征在于,所述文档排名组件实现选
自由神经网络算法、自适应增强算法和支持向量机算法所组成的组的分类
算法。
3.如权利要求1所述的系统,其特征在于,所述文档排名组件实现基
于回归的算法。
4.如权利要求1所述的系统,其特征在于,所述传播相关性组件为每
一查询单独传播相关性,且所述训练组件使用所述单独传播的相关性来训
练所述文档排名组件。
5.如权利要求1所述的系统,其特征在于,所述传播相关性组件同时
为多个查询传播相关性,且所述训练组件使用所述同时传播的相关性来训
练所述文档排名组件。
6.如权利要求1所述的系统,其特征在于,包括创建其中文档被表示
为由表示文档之间的相似性的边所连接的节点的图的图组件。
7.如权利要求6所述的系统,其特征在于,所述图组件包括:
构建其中表示相似文档的节点通过边进行连接的图的构建图组件;以
及
基于由所述连接的节点所表示的文档的相似性为所述边生成权重的生
成权重组件。
8.如权利要求7所述的系统,其特征在于,所述构建图组件使用最近
邻居算法在节点之间建立边。
9.如权利要求1所述的系统,其特征在于,所述传播相关性组件使用
基于流形排名的算法来传播相关性。
10.一种包含用于控制计算机系统以一种方法来训练文档排名组件的
指令的计算机可读介质,所述方法包括:
提供(232)文档的表示以及对所述文档中的某一些的的标记,所述标
记指示文档对于一查询的相关性;
创建(236)其中文档被表示为由边连接的节点的图,所述边表示由所
述连接的节点表示的文档之间的相关性;
根据由所创建的图形所指示的文档之间的相似性并...
【专利技术属性】
技术研发人员:王珏,李明敬,马韦莹,李智伟,
申请(专利权)人:微软公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。