文档检索模型训练方法、检索方法及存储介质技术

技术编号:35612423 阅读:24 留言:0更新日期:2022-11-16 15:36
本发明专利技术涉及自然语言处理技术领域,特别涉及一种文档检索模型训练方法、检索方法及存储介质,训练方法包括以下步骤:获取数据库和当前批次中的查询,在数据库中对应各查询分别检索获得样本,样本包括与各查询对应的正样本以及难负样本;对于其中一查询,以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本;添加负样本缓存队列用于储存样本,对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本;基于查询以及其对应的负样本以及正样本对文档检索模型进行训练;训练完成后,该批次训练用的负样本以及正样本储存于负样本缓存队列中。通过添加负样本缓存队列存储负样本以增加训练时的负样本数量。时的负样本数量。时的负样本数量。

【技术实现步骤摘要】
文档检索模型训练方法、检索方法及存储介质


[0001]本专利技术涉及自然语言处理
,其特别涉及一种文档检索模型训练方法、检索方法及存储介质。

技术介绍

[0002]文档检索是信息检索领域的一项重要任务,它通过用户查询从数据库中匹配相关的文档。随着自然语言处理技术的不断发展,它也被用来解决许多自然语言处理的核心问题,例如开放领域问答、事实检查等。随着大规模预训练语言模型的研究逐渐深入,基于向量表示的稠密文档检索成为主流的研究方向。稠密文档检索模型通常采用双编码器架构,其中一个编码器用于编码用户查询,另一个编码器用于学习文档表示,并使用基于正负样本的对比学习损失进行训练。这使得数据库中文档的表示可以离线计算,提高了线上检索服务的速度。另一方面,多语言预训练语言模型已经表现出跨语言的泛化能力和从高资源语言到低资源语言的知识转移能力,为了使一个文档检索模型能够同时服务于多种语言,以往的多语言文档建模模型一般沿用单语言的检索模型结构,然后直接使用多语言预训练模型取代单语言预训练模型。这样的多语言设置在一定程度上对于没有足够训练数据的语言是有用的。
[0003]然而,在现有的多语言文档检索模型中,负样本没有得到有效的利用,尤其是难负样本和伪负样本。难负样本是与正样本相似的负样本,其相较普通的负样本更不容易辨别,因此如果能在检索时针对难负样本进行训练,能够有效增强检索模型对文档的细粒度辨别能力。例如,对于用户查询:“NBA(美国职业男子篮球联赛)比赛时间有多长”,关于女子篮球联赛比赛时间的文档就可以视作难负样本。而伪负样本是实际为正样本的负样本,由于目前的检索数据集一般只有极少量的正样本有人工标注,而其余的样本都被视为负样本,这会导致模型学习到错误的标注信息,同样会降低模型对文档的辨别能力。对于上面的例子,那么数据库中同样关于NBA比赛时间的未标注文档就是伪负样本。
[0004]目前的多语言文档检索模型为每种语言独立维护难负样本,这使得模型无法在不同语言间共享难以区分的文档的共同特征。其次,为了增加负样本的数量,一些研究工作在稠密检索模型中使用了批次内负样本技术,即对于某一样本而言,同一批次内其它样本均视为负样本。然而,研究表明对比学习需要较大的负样本量才能获得较好的效果,而负样本的不断增加将很快耗尽显存,因此很难进一步增加负样本的数量。第三,文档检索的候选数据规模往往十分庞大,能够达到百万甚至千万级别,而在标注数据时,标注人员只能标注一部分相关文档(即正样本),而其它未标注的相关文档在训练时就被当成负样本处理了。这一部分样本就被称为伪负样本,它的数量将会与批次内负样本数量同步增加。由于伪负样本实际上是正样本,这将误导模型的优化方向,导致训练更难收敛。

技术实现思路

[0005]为了解决现有技术中对多语言文档检索模型训练时的负样本未能有效利用的问
题,本专利技术提供一种文档检索模型训练方法、检索方法及存储介质。
[0006]本专利技术为解决上述技术问题,提供如下的技术方案:一种文档检索模型训练方法,包括以下步骤:获取数据库和当前批次中的查询,在数据库中对应各查询分别检索获得样本,样本包括与各查询对应的正样本以及难负样本;对于该批次中的其中一查询,以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本;添加负样本缓存队列用于储存样本,当负样本缓存队列存储有样本时,对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到该查询对应的负样本;当负样本缓存队列未存储有样本时,对批次内负样本进行过滤得到该查询对应的负样本;基于该批次中查询以及其对应的负样本以及正样本对文档检索模型进行训练;该批次训练完成后,该批次训练用的负样本以及正样本储存于负样本缓存队列中用于后续训练。
[0007]优选地,在数据库中对应各查询分别检索获得样本,样本包括与各查询正样本以及难负样本包括以下步骤:基于BM25算法获得数据库中与各查询对应的相关文档;对应各查询将至少部分相关文档标记为正样本作为该批次中对应查询的正样本;对应查询选择至少部分数据集中的除标注为正样本之外的其余文档作为该查询对应的难负样本;将查询翻译获得不同语言的查询,获得各自语言查询的难负样本后,合并得到多语言共享的难负样本。
[0008]优选地,基于BM25算法计算查询与数据集中的每个文档的分数;具体计算公式为:,其中Q表示查询,d表示一个候选文档,q
i
表示查询中的某一单词,W
i
表示当前的单词的权重,以查询中所有的单词和文档的相似度的和来表示这个文档和查询的分数;将分数在预设范围内的文档作为相关文档。
[0009]优选地,在得到多语言共享的难负样本之后还包括以下步骤:对查询以及难负样本进行编码,得到各自的向量表示;将查询与难负样本进行随机混合得到混合后的表示;对混合得到的表示进行归一化得到混合后的难负样本表示。
[0010]优选地,对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本包括以下步骤:对于批次中的查询,将其对应的正样本、批次内负样本以及负样本缓存队列中的样本合并为一个文档集合;基于K

means算法将这些文档分成至少一个簇;为每个文档随机分配伪标签,其中每个伪标签的概率是文档表示与每个簇中心表
示的标准化相似度;将与正样本具有相同伪标签的文档视为伪负样本,并将它们从批次内负样本以及负样本缓存队列中的样本排除得到负样本。
[0011]优选地,从批次内负样本以及负样本缓存队列中的样本排除的伪负样本加入到正样本中作为正样本使用。
[0012]优选地,训练时,采用NCE对比损失来优化文档检索模型,具体为:,其中q
i
表示查询、d
i+
和d
i

分别表示查询对应的正样本和负样本,L
i
是q
i
对应的正样本的伪标签。
[0013]优选地,向负样本缓存队列存储样本时,如果负样本缓存队列已满,负样本缓存队列中最早加入的样本将被去除。
[0014]本专利技术为解决上述技术问题,提供又一技术方案如下:一种文档检索方法,包括以下步骤:获取文档检索模型,文档检索模型采用前述所述的文档检索模型训练方法训练;输入查询至文档检索模型,通过文档检索模型在数据库中检索出相关的文档。
[0015]本专利技术为解决上述技术问题,提供又一技术方案如下:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述所述的一种文档检索方法。
[0016]与现有技术相比,本专利技术所提供的一种文档检索模型训练方法、检索方法及存储介质具有如下的有益效果:1.本专利技术实施例提供的一种多语言检索模型训练方法,将查询在数据集中检索获得对应的正样本以及难负样本后,通过采用当前批次中的其他样本作为批次内负样本,从而以很少的训练成本充分利用训练数据;为了进一步增加多语言环境下的负样本数量,提出了一个负样本缓存队列,将此前在缓存队列中存储的样本取出,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档检索模型训练方法,其特征在于:包括以下步骤:获取数据库和当前批次中的查询,在数据库中对应各查询分别检索获得样本,样本包括与各查询对应的正样本以及难负样本;对于该批次中的其中一查询,以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本;添加负样本缓存队列用于储存样本,当负样本缓存队列存储有样本时,对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到该查询对应的负样本;当负样本缓存队列未存储有样本时,对批次内负样本进行过滤得到该查询对应的负样本;基于该批次中的查询以及其对应的负样本和正样本对文档检索模型进行训练;该批次训练完成后,将该批次训练用的负样本以及正样本储存于负样本缓存队列中用于后续训练。2.如权利要求1所述的文档检索模型训练方法,其特征在于:在数据库中对应各查询分别检索获得样本,样本包括与各查询正样本以及难负样本包括以下步骤:基于BM25算法获得数据库中与各查询对应的相关文档;对应各查询将至少部分相关文档标记为正样本作为该批次中对应查询的正样本;对应查询选择至少部分数据集中的除标注为正样本之外的其余文档作为该查询对应的难负样本;将查询翻译获得不同语言的查询,获得各自语言查询的难负样本后,合并得到多语言共享的难负样本。3.如权利要求2所述的文档检索模型训练方法,其特征在于:基于BM25算法计算查询与数据集中的每个文档的分数;具体计算公式为:,其中Q表示查询,d表示一个候选文档,q
i
表示查询中的某一单词,W
i
表示当前的单词的权重,以查询中所有的单词和文档的相似度的和来表示这个文档和查询的分数;将分数在预设范围内的文档作为相关文档。4.如权利要求2所述的文档检索模型训练方法,其特征在于:在得到多语言共享的难负样本之后还包括以下步骤:对查询以及难负样本进行编码,得到各自的向量表示;将查询与难负样本进...

【专利技术属性】
技术研发人员:刘明童沈田浩周明
申请(专利权)人:北京澜舟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1