【技术实现步骤摘要】
【国外来华专利技术】用于搜索检索和排名的神经网络
[0001]本申请大体上涉及神经网络在搜索检索(search retrieval)和排名中的使用。更具体地,本申请涉及用于在信息检索系统中检索文档并且对文档排名的神经网络的改进。
技术介绍
[0002]诸如互联网搜索系统等信息检索系统以大规模操作,索引数百万个网页,以使信息可通过用户提交的查询进行搜索。这种搜索系统的目标是快速标识与用户查询相关的那些文档并且返回相关搜索结果。正确配置的神经网络已在研究环境中证明,以提高搜索结果的相关性。然而,由于这种方法在计算上是昂贵的,并且由于规模庞大且需要低时延,因此在搜索系统中使用神经网络被限于对研究环境之外的搜索结果的有限集合进行重新排名。
[0003]本实施例正是在该上下文内出现的。
附图说明
[0004]图1图示了现有技术搜索系统架构的示例。
[0005]图2图示了现有技术神经网络的示例。
[0006]图3图示了用于在搜索系统中训练神经网络的示例现有技术方法。
[0007]图4图示了根据本公开的一些方面的用于转换训练数据的示例方法。
[0008]图5图示了根据本公开的一些方面的用于训练机器学习模型的示例方法。
[0009]图6图示了根据本公开的一些方面的描绘预先计算项目(term)
‑
文档索引的示例图。
[0010]图7图示了根据本公开的一些方面的示出预先计算的项目
‑
文档如何被计算的示例流程图。
[0011]图8图示了根据本公 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于信息检索的方法,包括:提供对预先计算的项目
‑
文档索引的访问,所述预先计算的项目
‑
文档索引中的每个排名分数由机器学习模型提供,所述机器学习模型使用训练数据集而被训练,所述训练数据集包括查询项目
‑
文档对;接收查询;将所述查询拆分为所述查询的组成查询项目;针对每个组成查询项目:基于来自所述预先计算的项目
‑
文档索引的所述组成查询项目,为文档集合中的每个文档检索对应的排名分数;以及通过文档聚合所述组成查询项目的所述排名分数;通过对应的聚合排名分数对所述文档集合进行排名;选择已排名的所述文档集合的子集作为搜索结果集合;以及响应于所述查询返回所述搜索结果集合。2.根据权利要求1所述的方法,其中所述预先计算的项目
‑
文档索引是使用包括以下步骤的方法而被创建的:标识查询集合;针对所述查询集合中的每个查询:将考虑中的查询拆分为所述查询的组成查询项目;以及针对每个组成查询项目:使用经训练的所述机器学习模型为所述文档集合中的每个文档计算所述排名分数;以及将所述排名分数存储在所述预先计算的项目
‑
文档索引中。3.根据权利要求1所述的方法,其中所述预先计算的项目
‑
文档索引是从另一系统被接收的。4.根据权利要求1所述的方法,其中所述预先计算的项目
‑
文档索引是在执行所述方法的系统上被计算的。5.根据权利要求1所述的方法,其中所述机器学习模型是使用包括以下步骤的方法而被训练的:标识包括查询
‑
文档对集合的第一训练数据;将每个查询
‑
文档对拆分为查询项目
‑
文档对集合,从而创建第二训练数据;标识与查询项目无关的损失函数;通过针对所述第二训练数据最小化所述与查询项目无关的损失函数,来训练所述机器学习模型。6.根据权利要求5所述的方法,其中所述与查询项目无关的损失函数是项目
‑
文档分数的加权和。7.根据权利要求5所述的方法,其中所述与查询项目无关的损失函数是正文档示例的项目
‑
文档分数与负文档示例的项目
‑
文档分数的差异的加权和的函数。8.根据权利要求5所述的方法,其中每个项目
‑
文档对包括:来自查询
‑
文档对的查询项目;以及
来自所述查询
‑<...
【专利技术属性】
技术研发人员:C,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。