一种语义检索的召回和排序联合训练方法及系统技术方案

技术编号:35553966 阅读:23 留言:0更新日期:2022-11-12 15:34
本发明专利技术提供一种语义检索的召回和排序联合训练方法及系统,涉及信息检索技术领域,所述方法包括:基于查询文本和检索文本建立召回和排序联合模型,使双塔模型和单塔模型输出分布拟合;基于查询文本对召回和排序联合模型进行无监督训练;基于查询文本和检索文本对召回和排序联合模型进行有监督训练;通过召回和排序联合模型的双塔模型生成难负样本;迭代训练召回和排序联合模型。本发明专利技术通过双塔模型和单塔模型的联合训练,拟合双塔模型和单塔模型的数据输出分布,提升语义检索中双塔模型的查全率;通过提升查全率,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。提升语义检索性能。提升语义检索性能。

【技术实现步骤摘要】
一种语义检索的召回和排序联合训练方法及系统


[0001]本专利技术涉及信息检索
,具体而言,涉及一种语义检索的召回和排序联合训练方法及系统。

技术介绍

[0002]传统的信息检索主要基于关键词,从字面意义上进行搜索。语义检索是指检索引擎的工作不再局限于用户所输入请求语句的字面本身,而是准确捕捉用户输入的真正意图,并以此进行检索,从而更准确地向用户返回最符合其需求的检索结果。
[0003]目前语义检索主要采用神经网络模型,包含交互型模型(单塔模型)和表示型模型(双塔模型)。交互型模型需要将两个待匹配的文本拼接作为神经网络的输入,因此每次检索时需要将检索文本与库内海量查询文本依次组合进行计算;表示型模型则可以离线计算库内所有文本的特征向量,并构建索引,每次检索时仅需要将检索文本进行神经网络的计算,从而节约大量时间。交互式模型因为在训练的过程中有信息交互,所以效果表现不错,缺点是计算时间长;表示型模型因为可以提前离线计算,计算时间短,也因模型底层无信息交互,因此效果较差。根据两种模型的优缺点,语义检索通常采用双塔模型在海量数据中召回一批数据,再对召回数据通过单塔模型进行排序。如果召回数据太多,也会影响检索性能。

技术实现思路

[0004]本专利技术实施例提供了一种语义检索的召回和排序联合训练方法及系统,由于双塔模型查全率比排序模型低,通过双塔模型和单塔模型的联合训练,拟合双塔模型和单塔模型的数据输出分布,提升语义检索中双塔模型的查全率;并且通过提升查全率,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。
[0005]在第一方面,本专利技术实施例中提供一种语义检索的召回和排序联合训练方法,所述方法包括以下步骤:(1)获取查询文本和检索文本;(2)基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;(3)基于查询文本对召回和排序联合模型进行无监督训练;(4)基于查询文本和检索文本对召回和排序联合模型进行有监督训练;(5)将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和难负样本;(6)基于正样本和难负样本迭代训练召回和排序联合模型。
[0006]作为本申请一些可选实施方式,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:(2.1)通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征
提取,得到文本特征、;(2.2)计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度:其中,为查询文本q=Text1和检索文本p= Text2的向量内积,为激活函数;(2.3)通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征;(2.4)计算查询文本和检索文本的单塔模型相似度:其中,为特殊字符拼接结果Text1+ Text2的1维向量,为激活函数;(2.5)基于双塔模型相似度和单塔模型相似度计算召回和排序联合模型的总损失,使得双塔模型和单塔模型输出分布拟合。
[0007]作为本申请一些可选实施方式,计算召回和排序联合模型的总损失的流程如下:(2.51)计算双塔模型的模型损失: (2.52)计算单塔模型的模型损失: (2.53)计算双塔模型和单塔模型的输出分布的欧拉距离:(2.54)基于模型损失、模型损失以及欧拉距离计算总损失,并且进行模型反向传播:其中,N表示训练样本的数量,表示与查询文本q相关的检索文本,表示与查询文本q不相关的检索文本;(0,1)表示边界,Q表示查询样本q的数量,即为N,表示对应检索文本的数量。
[0008]作为本申请一些可选实施方式,基于查询文本对召回和排序联合模型进行无监督训练的流程如下:(3.1)将两个查询文本q=Text1=Text2输入双塔模型,并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取,得到文本特征、;(3.2)计算查询文本Text1、Text2的双塔模型相似度,如果两个
查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;(3.3)将两个查询文本Text1、Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征;(3.4)计算两个查询文本Text1、Text2的单塔模型相似度;(3.5)基于正样本和负样本计算双塔模型的模型损失以及单塔模型的模型损失,并且进行模型反向传播。
[0009]作为本申请一些可选实施方式,基于查询文本和检索文本对召回和排序联合模型进行有监督训练的流程如下:(4.1)将查询文本q、与查询文本q相关的检索文本作为正样本,将查询文本q、与查询文本q不相关的检索文本作为负样本;(4.2)基于正样本和负样本计算双塔模型的模型损失以及单塔模型的模型损失,并且进行模型反向传播。
[0010]作为本申请一些可选实施方式,通过召回和排序联合模型的双塔模型生成正样本和难负样本的流程如下:(5.1)通过双塔模型对检索文本p进行文本特征提取,得到文本特征、、

、;(5.2)通过双塔模型对查询文本q进行文本特征提取,得到文本特征;(5.3)分别计算查询文本q与若干检索文本p的向量内积、、

、,并且对若干向量内积进行排序;(5.4)基于向量内积的排序选取前的检索文本、、

、,将查询文本q和检索文本、、

、分别组合,作为难负样本。
[0011]作为本申请一些可选实施方式,基于正样本和难负样本迭代训练召回和排序联合模型的流程如下:(6.1)将查询文本q、与查询文本q相关的检索文本作为正样本,将查询文本q和检索文本、、

、分别组合,作为难负样本;(6.2)基于正样本和难负样本计算双塔模型的模型损失以及单塔模型的模型损失;(6.3)重复进行步骤(6.1)和步骤(6.2),迭代训练召回和排序联合模型。
[0012]在第二方面,本专利技术提供一种语义检索的召回和排序联合训练系统,所述系统包括:数据获取单元,所述数据获取单元用于获取查询文本和检索文本;输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;难负样本生成单元,所述难负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和难负样本;联合训练单元,所述联合训练单元基于正样本和难负样本迭代训练召回和排序联合模型。
[0013]在第三方面,本专利技术提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义检索的召回和排序联合训练方法,其特征在于,所述方法包括以下步骤:基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;基于查询文本对召回和排序联合模型进行无监督训练;基于查询文本和检索文本对召回和排序联合模型进行有监督训练;将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和难负样本;基于正样本和难负样本迭代训练召回和排序联合模型。2.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征提取,得到文本特征、;计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度:其中,为查询文本q=Text1和检索文本p= Text2的向量内积,为激活函数;通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征;计算查询文本和检索文本的单塔模型相似度:其中,为特殊字符拼接结果Text1+ Text2的1维向量,为激活函数;基于双塔模型相似度和单塔模型相似度计算召回和排序联合模型的总损失,使得双塔模型和单塔模型输出分布拟合。3.根据权利要求2所述的一种语义检索的召回和排序联合训练方法,其特征在于,计算召回和排序联合模型的总损失的流程如下:计算双塔模型的模型损失: 计算单塔模型的模型损失: 计算双塔模型和单塔模型的输出分布的欧拉距离: 基于模型损失、模型损失以及欧拉距离计算总损失,并且进行模型
反向传播:其中,N表示训练样本的数量,表示与查询文本q相关的检索文本,表示与查询文本q不相关的检索文本;表示边界(0,1),Q表示查询样本q的数量,即为N,表示对应检索文本的数量。4.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,基于查询文本对召回和排序联合模型进行无监督训练的流程如下:将两个查询文本q=Text1=Text2输入双塔模型,并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取,得到文本特征、;计算查询文本Text1、Text2的双塔模型相似度,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;将两个查询文本Text1、Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征;计算两个查询文本Text1、Text2的单塔模型相似度;基于正样本和负样本计算双塔模型的模型损失以及...

【专利技术属性】
技术研发人员:ꢀ五一IntClG零六F四零二零五
申请(专利权)人:成都数之联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1