语义召回模型的训练方法及训练装置制造方法及图纸

技术编号:35278366 阅读:17 留言:0更新日期:2022-10-22 12:20
本发明专利技术公开了一种语义召回模型的训练方法及训练装置,该训练方法包括获取用户输入的搜索词、第一样本文档和第二样本文档;利用预训练语言模型分别生成搜索词的第一词嵌入向量、第一样本文档的第二词嵌入向量和第二样本文档的第三词嵌入向量;利用深度神经网络模型分别计算第一词嵌入向量对应的第一语义向量、第二词嵌入向量对应的第二语义向量和第三词嵌入向量对应的第三语义向量;计算第一语义向量和第二语义向量的第一相似度,以及计算第一语义向量和第三语义向量的第二相似度;根据第一相似度和第二相似度计算损失函数;根据损失函数训练预训练语言模型和深度神经网络模型。函数训练预训练语言模型和深度神经网络模型。函数训练预训练语言模型和深度神经网络模型。

【技术实现步骤摘要】
语义召回模型的训练方法及训练装置


[0001]本专利技术涉及互联网
,尤其涉及一种语义召回模型的训练方法及训练装置。

技术介绍

[0002]传统的召回主要是基于搜索词进行字/词级别的召回,存在一定的局限性,比如:完全相同的字或词,在不同语境下表达的意思可能是截然不同的。为了克服这一问题,语义召回技术逐渐开始被广泛应用。但现有的语义召回技术,缺乏对语义的理解能力和泛化能力,从而影响召回的准确性。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。
[0004]为此,本专利技术提出了一种语义召回模型的训练方法及训练装置,以解决现有的召回方法中缺乏对语义的理解能力和泛化能力,从而影响召回准确性的问题。
[0005]根据本申请的第一方面,提供了一种语义召回模型的训练方法,该方法包括:
[0006]获取用户输入的搜索词、第一样本文档和第二样本文档;
[0007]利用预训练语言模型分别生成所述搜索词的第一词嵌入向量、所述第一样本文档的第二词嵌入向量和所述第二样本文档的第三词嵌入向量;
[0008]利用深度神经网络模型分别计算所述第一词嵌入向量对应的第一语义向量、所述第二词嵌入向量对应的第二语义向量和所述第三词嵌入向量对应的第三语义向量;
[0009]计算所述第一语义向量和所述第二语义向量的第一相似度,以及计算所述第一语义向量和所述第三语义向量的第二相似度;
[0010]根据所述第一相似度和所述第二相似度计算损失函数;
>[0011]根据所述损失函数训练所述预训练语言模型和所述深度神经网络模型。
[0012]在上述方法中,所述预训练语言模型包括Bert模型、Albert模型和Roberta模型。
[0013]在上述方法中,所述计算所述第一语义向量和所述第二语义向量的第一相似度,以及计算所述第一语义向量和所述第三语义向量的第二相似度的步骤,包括:
[0014]计算所述第一语义向量和所述第二语义向量的第一夹角余弦值;以及计算所述第一语义向量和所述第三语义向量的第二夹角余弦值;所述第一夹角余弦值作为所述第一相似度,所述第二夹角余弦值作为所述第二相似度。
[0015]在上述方法中,所述根据所述第一相似度和所述第二相似度计算损失函数的步骤,包括:计算所述第一相似度大于所述第二相似度的概率。
[0016]在上述方法中,所述根据所述第一相似度和所述第二相似度计算损失函数的步骤,还包括:
[0017]根据所述第一相似度大于所述第二相似度的概率计算所述损失函数;
[0018]所述损失函数的计算公式为:
[0019][0020]其中,Q代表搜索词集合,D
q
代表候选文档集合,S(q,d+)表示第一相似度,S(q,d

)表示第二相似度,P(S(q,d+)>S(q,d

))表示第一相似度S(q,d+)大于第二相似度S(q,d

)的概率。
[0021]根据本申请的第二方面,提供了一种语义召回模型的训练装置,该装置包括:
[0022]检索样本获取模块,用于获取用户输入的搜索词、第一样本文档和第二样本文档;
[0023]词嵌入向量生成模块,用于利用预训练语言模型分别生成所述搜索词的第一词嵌入向量、所述第一样本文档的第二词嵌入向量和所述第二样本文档的第三词嵌入向量;
[0024]语义向量获取模块,用于利用深度神经网络模型分别计算所述第一词嵌入向量对应的第一语义向量、所述第二词嵌入向量对应的第二语义向量和所述第三词嵌入向量对应的第三语义向量;
[0025]相似度计算模块,用于计算所述第一语义向量和所述第二语义向量的第一相似度,以及计算所述第一语义向量和所述第三语义向量的第二相似度;
[0026]损失函数计算模块,用于根据所述第一相似度和所述第二相似度计算损失函数;
[0027]语言模型训练模块,用于根据所述损失函数训练所述预训练语言模型和所述深度神经网络模型。
[0028]在上述装置中,所述预训练语言模型包括Bert模型、Albert模型和Roberta模型。
[0029]在上述装置中,所述相似度计算模块包括:
[0030]第一夹角余弦值计算单元,用于计算所述第一语义向量和所述第二语义向量的第一夹角余弦值,所述第一夹角余弦值作为所述第一相似度;
[0031]第二夹角余弦值计算单元,用于计算所述第一语义向量和所述第三语义向量的第二夹角余弦值,所述第二夹角余弦值作为所述第二相似度;
[0032]余弦值比较单元,用于根据所述第一夹角余弦值和所述第二夹角余弦值的大小对比来判断所述搜索词和所述第一样本文档、所述搜索词和所述第二样本文档的相关的程度。
[0033]根据本申请的第三方面,提供了一种终端,该终端包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述任一项所述的语义召回模型的训练方法。
[0034]根据本申请的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在终端执行上述任一项所述的语义召回模型的训练方法。
[0035]根据本申请所提供的技术方案,至少具有如下有益效果:利用预训练语言模型分别生成搜索词的第一词嵌入向量、第一样本文档的第二词嵌入向量和第二样本文档的第三词嵌入向量;再利用深度神经网络模型分别计算第一词嵌入向量对应的第一语义向量、第二词嵌入向量对应的第二语义向量和第三词嵌入向量对应的第三语义向量;然后计算第一语义向量和第二语义向量的第一相似度,以及计算第一语义向量和第三语义向量的第二相似度;再根据第一相似度和第二相似度计算损失函数;通过损失函数优化预训练语言模型
和深度神经网络模型,可以使该语义召回模型通过“对比”的方式,学习到{搜索词,第一样本文档}和{搜索词,第二样本文档}之间的语义差异关系,继而提升预训练语言模型在语义层面的理解能力,最终使得语义召回更加准确。
[0036]本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0037]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0038]图1为本申请实施例提供的一种语义召回模型的架构图;
[0039]图2为本申请实施例提供的一种语义召回模型的训练方法的流程图;
[0040]图3为本申请实施例提供的一种语义召回模型的训练装置的结构框图;
[0041]图4为本申请实施例提供的一种语义召回方法的流程图。
具体实施方式
[0042]为了使本申请本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语义召回模型的训练方法,其特征在于,包括:获取用户输入的搜索词、第一样本文档和第二样本文档;利用预训练语言模型分别生成所述搜索词的第一词嵌入向量、所述第一样本文档的第二词嵌入向量和所述第二样本文档的第三词嵌入向量;利用深度神经网络模型分别计算所述第一词嵌入向量对应的第一语义向量、所述第二词嵌入向量对应的第二语义向量和所述第三词嵌入向量对应的第三语义向量;计算所述第一语义向量和所述第二语义向量的第一相似度,以及计算所述第一语义向量和所述第三语义向量的第二相似度;根据所述第一相似度和所述第二相似度计算损失函数;根据所述损失函数训练所述预训练语言模型和所述深度神经网络模型。2.根据权利要求1所述的语义召回模型的训练方法,其特征在于,所述预训练语言模型包括Bert模型、Albert模型和Roberta模型。3.根据权利要求1所述的语义召回模型的训练方法,其特征在于,所述计算所述第一语义向量和所述第二语义向量的第一相似度,以及计算所述第一语义向量和所述第三语义向量的第二相似度的步骤,包括:计算所述第一语义向量和所述第二语义向量的第一夹角余弦值;以及计算所述第一语义向量和所述第三语义向量的第二夹角余弦值;所述第一夹角余弦值作为所述第一相似度,所述第二夹角余弦值作为所述第二相似度。4.根据权利要求1所述的语义召回模型的训练方法,其特征在于,所述根据所述第一相似度和所述第二相似度计算损失函数的步骤,包括:计算所述第一相似度大于所述第二相似度的概率。5.根据权利要求4所述的语义召回模型的训练方法,其特征在于,所述根据所述第一相似度和所述第二相似度计算损失函数的步骤,还包括:根据所述第一相似度大于所述第二相似度的概率计算所述损失函数;所述损失函数的计算公式为:其中,Q代表搜索词集合,D
q
代表候选文档集合,S(q,d+)表示第一相似度,S(q,d

)表示第二相似度,P(S(q,d+)>S(q,d

))表示第一相似度S(q,d+)大于第二相似度S(q,d

【专利技术属性】
技术研发人员:陈方毅曾睿明
申请(专利权)人:厦门美柚股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1