一种语义文本相似度的计算方法、装置及存储介质制造方法及图纸

技术编号:34145139 阅读:23 留言:0更新日期:2022-07-14 18:46
本申请提供了一种语义文本相似度的计算方法、装置及存储介质,将第一目标句子和第二目标句子输入训练好的对比学习模型,以输出第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量;将第一目标句子对应的第一句子向量输入训练好的白化模型,以输出第一目标句子对应的第一转换向量;将第二目标句子对应的第二句子向量输入训练好的白化模型,以输出第二目标句子对应的第二转换向量;根据第一转换向量和第二转换向量,计算第一目标句子和第二目标句子的相似度,能够解决现有技术中存在的语义文本相似度计算结果与实际相似度偏差较大的问题。度偏差较大的问题。度偏差较大的问题。

A calculation method, device and storage medium of semantic text similarity

【技术实现步骤摘要】
一种语义文本相似度的计算方法、装置及存储介质


[0001]本申请涉及自然语言处理
,具体而言,涉及一种语义文本相似度的计算方法、装置及存储介质。

技术介绍

[0002]近年来随着AI(Artificial Intelligence,人工智能),特别是NLP(Natural Language Processing,自然语言处理)技术的迅猛发展,自然语言处理技术有了更多的落地应用场景。其中,文本语义相似度是NLP算法中比较核心的内容,在NLP技术中扮演者重要角色,为许多神经网络的算法带来了较好的性能提升,具有极大的研究价值。现有的语义文本相似度大多采用BERT

flow或BERT

whitening的结构,但这种计算方法的相似度结果与实际相似度偏差较大。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种语义文本相似度的计算方法、装置及存储介质,能够解决现有技术中存在的语义文本相似度计算结果与实际相似度偏差较大的问题。
[0004]第一方面,本申请提供了语义文本相似度的计算方法,方法包括:将第一目标句子和第二目标句子输入训练好的对比学习模型,以输出第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量;将第一目标句子对应的第一句子向量输入训练好的白化模型,以输出第一目标句子对应的第一转换向量;将第二目标句子对应的第二句子向量输入训练好的白化模型,以输出第二目标句子对应的第二转换向量;根据第一转换向量和第二转换向量,计算第一目标句子和第二目标句子的相似度。
[0005]优选的,训练句子库包括多个训练句子集,针对每个训练句子集,通过以下方式生成训练好的对比学习模型:将该训练句子集输入初始对比学习模型,以输出该训练句子集中每个训练句子对应的训练句子向量;确定每个训练句子对应的一个负样本训练句子向量和一个正样本训练句子向量,并将该训练句子对应的训练句子向量、负样本训练句子向量和正样本训练句子向量输入目标损失函数,以输出该训练句子对应的损失值;根据每个训练句子对应的损失值,调整初始对比学习模型,以使每个训练句子对应的损失值最小。
[0006]优选的,编码器包括预设数量的归一化层,通过以下方式输出每个训练句子对应的训练句子向量:将训练句子集输入文本增强模块,以输出每个训练句子对应的多个相似训练句子;针对该训练句子和对应的多个相似训练句子中的任一个句子,在该句子前添加预设标签并输入编码器,以将编码器的最后一个归一化层的输出向量中与预设标签对应的部分作为该句子对应的训练句子向量并输出。
[0007]优选的,编码器包括预设数量的归一化层,针对输入初始对比学习模型的每个训练句子,通过以下方式输出该训练句子对应的训练句子向量:将该训练句子输入文本增强模块,以输出多个相似训练句子;针对该训练句子和对应的多个相似训练句子中的任一个
句子,将该句子输入编码器,根据编码器的目标归一化层的输出向量的均值,确定该句子对应的训练句子向量并输出。
[0008]优选的,归一化层包括多个神经网络节点,通过以下方式确定每个训练句子对应的一个正样本训练句子向量:将该训练句子对应的训练句子向量中,除该训练句子外任一相似训练句子对应的训练句子向量,作为该训练句子对应的一个正样本训练句子向量;或将该训练句子和多个相似训练句子中的任一个句子输入编码器,将编码器的至少一个神经网络节点随机置零,以输出该训练句子对应的一个正样本训练句子向量;或将该训练句子和多个相似训练句子中的任一个句子输入编码器,将编码器中目标归一化层的输出向量的均值,作为该训练句子对应的一个正样本训练句子向量。
[0009]优选的,训练句子包括多个词语,将训练句子集输入文本增强模块,以输出每个训练句子对应的多个相似训练句子的步骤,具体包括:根据训练句子集中每个训练句子的词语,确定出所有词语;将该训练句子中的一个词语和其他词语中的任一个词语的位置交换;或将该训练句子中一个词语或多个连续的词语删除;或在该训练句子中的一个词语后插入其他词语中的任一个词语。
[0010]优选的,通过以下方式生成训练好的白化模型:确定与目标应用领域对应的至少一个目标训练句子集;将所有目标训练句子集输入训练好的对比学习模型,以输出每个目标训练句子集中每个训练句子对应的目标训练句子向量;根据所有目标训练句子向量,计算目标协方差矩阵;对目标协方差矩阵进行分解,以确定目标协方差矩阵的特征值和特征向量;根据目标协方差矩阵的特征值和特征向量,计算白化模型的参数,以生成训练好的白化模型。
[0011]第二方面,本申请提供了一种语义文本相似度的计算装置,装置包括:
[0012]提取模块,用于将第一目标句子和第二目标句子输入训练好的对比学习模型,以输出第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量;
[0013]转换模块,用于将第一目标句子对应的第一句子向量输入训练好的白化模型,以输出第一目标句子对应的第一转换向量;以及
[0014]将第二目标句子对应的第二句子向量输入训练好的白化模型,以输出第二目标句子对应的第二转换向量;
[0015]计算模块,用于根据第一转换向量和第二转换向量,计算第一目标句子和第二目标句子的相似度。
[0016]第三方面,本申请还提供一种电子设备,包括:处理器、存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线通信,机器可读指令被处理器执行时执行如上述的语义文本相似度的计算方法的步骤。
[0017]第四方面,本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的语义文本相似度的计算方法的步骤。
[0018]本申请提供的语义文本相似度的计算方法、装置及存储介质,将第一目标句子和第二目标句子输入训练好的对比学习模型,以输出所述第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量;将所述第一目标句子对应的第一句子向量输入训练好的白化模型,以输出第一目标句子对应的第一转换向量;将所述第二目标句子对应的第
二句子向量输入训练好的白化模型,以输出第二目标句子对应的第二转换向量;根据所述第一转换向量和所述第二转换向量,计算所述第一目标句子和第二目标句子的相似度。通过对比学习模型生成句子的句子向量,再通过白化模型将句子向量转换,转换后的句子向量相关性更小,基于转换后的句子向量计算语义文本相似度,结果更贴近真实的文本相似度,语义文本相似度计算结果更准确。
[0019]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0020]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义文本相似度的计算方法,其特征在于,所述方法包括:将第一目标句子和第二目标句子输入训练好的对比学习模型,以输出所述第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量;将所述第一目标句子对应的第一句子向量输入训练好的白化模型,以输出第一目标句子对应的第一转换向量;将所述第二目标句子对应的第二句子向量输入训练好的白化模型,以输出第二目标句子对应的第二转换向量;根据所述第一转换向量和所述第二转换向量,计算所述第一目标句子和第二目标句子的相似度。2.根据权利要求1所述的方法,其特征在于,训练句子库包括多个训练句子集,针对每个所述训练句子集,通过以下方式生成训练好的对比学习模型:将该训练句子集输入初始对比学习模型,以输出该训练句子集中每个训练句子对应的训练句子向量;确定每个训练句子对应的一个负样本训练句子向量和一个正样本训练句子向量,并将该训练句子对应的训练句子向量、负样本训练句子向量和正样本训练句子向量输入目标损失函数,以输出该训练句子对应的损失值;根据每个训练句子对应的损失值,调整所述初始对比学习模型,以使每个训练句子对应的损失值最小。3.根据权利要求2所述的方法,其特征在于,编码器包括预设数量的归一化层,通过以下方式输出每个训练句子对应的训练句子向量:将训练句子集输入文本增强模块,以输出每个训练句子对应的多个相似训练句子;针对该训练句子和对应的多个相似训练句子中的任一个句子,在该句子前添加预设标签并输入所述编码器,以将所述编码器的最后一个归一化层的输出向量中与所述预设标签对应的部分作为该句子对应的训练句子向量并输出。4.根据权利要求2所述的方法,其特征在于,编码器包括预设数量的归一化层,针对输入初始对比学习模型的每个训练句子,通过以下方式输出该训练句子对应的训练句子向量:将该训练句子输入文本增强模块,以输出多个相似训练句子;针对该训练句子和对应的多个相似训练句子中的任一个句子,将该句子输入所述编码器,根据所述编码器的目标归一化层的输出向量的均值,确定该句子对应的训练句子向量并输出。5.根据权利要求3或4所述的方法,其特征在于,所述归一化层包括多个神经网络节点,通过以下方式确定每个训练句子对应的一个正样本训练句子向量:将该训练句子对应的训练句子向量中,除该训练句子外任一相似训练句子对应的训练句子向量,作为该训练句子对应的一个正样本训练句子向量;或将该训练句子和多个相似训练句子中的...

【专利技术属性】
技术研发人员:姚雷杜新凯吕超
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1