一种语义文本相似度的计算方法、装置及存储介质制造方法及图纸

技术编号：34145139 阅读：23 留言：0更新日期：2022-07-14 18:46

本申请提供了一种语义文本相似度的计算方法、装置及存储介质，将第一目标句子和第二目标句子输入训练好的对比学习模型，以输出第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量；将第一目标句子对应的第一句子向量输入训练好的白化模型，以输出第一目标句子对应的第一转换向量；将第二目标句子对应的第二句子向量输入训练好的白化模型，以输出第二目标句子对应的第二转换向量；根据第一转换向量和第二转换向量，计算第一目标句子和第二目标句子的相似度，能够解决现有技术中存在的语义文本相似度计算结果与实际相似度偏差较大的问题。度偏差较大的问题。度偏差较大的问题。

A calculation method, device and storage medium of semantic text similarity

全部详细技术资料下载

【技术实现步骤摘要】
一种语义文本相似度的计算方法、装置及存储介质

[0001]本申请涉及自然语言处理
，具体而言，涉及一种语义文本相似度的计算方法、装置及存储介质。

技术介绍

[0002]近年来随着AI(Artificial Intelligence，人工智能)，特别是NLP(Natural Language Processing，自然语言处理)技术的迅猛发展，自然语言处理技术有了更多的落地应用场景。其中，文本语义相似度是NLP算法中比较核心的内容，在NLP技术中扮演者重要角色，为许多神经网络的算法带来了较好的性能提升，具有极大的研究价值。现有的语义文本相似度大多采用BERT
‑
flow或BERT
‑
whitening的结构，但这种计算方法的相似度结果与实际相似度偏差较大。

技术实现思路

[0003]有鉴于此，本申请的目的在于提供一种语义文本相似度的计算方法、装置及存储介质，能够解决现有技术中存在的语义文本相似度计算结果与实际相似度偏差较大的问题。
[0004]第一方面，本申请提供了语义文本相似度的计算方法，方法包括：将第一目标句子和第二目标句子输入训练好的对比学习模型，以输出第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量；将第一目标句子对应的第一句子向量输入训练好的白化模型，以输出第一目标句子对应的第一转换向量；将第二目标句子对应的第二句子向量输入训练好的白化模型，以输出第二目标句子对应的第二转换向量；根据第一转换向量和第二转换向量，计算第一目标句子和第...

【技术保护点】

【技术特征摘要】
1.一种语义文本相似度的计算方法，其特征在于，所述方法包括：将第一目标句子和第二目标句子输入训练好的对比学习模型，以输出所述第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量；将所述第一目标句子对应的第一句子向量输入训练好的白化模型，以输出第一目标句子对应的第一转换向量；将所述第二目标句子对应的第二句子向量输入训练好的白化模型，以输出第二目标句子对应的第二转换向量；根据所述第一转换向量和所述第二转换向量，计算所述第一目标句子和第二目标句子的相似度。2.根据权利要求1所述的方法，其特征在于，训练句子库包括多个训练句子集，针对每个所述训练句子集，通过以下方式生成训练好的对比学习模型：将该训练句子集输入初始对比学习模型，以输出该训练句子集中每个训练句子对应的训练句子向量；确定每个训练句子对应的一个负样本训练句子向量和一个正样本训练句子向量，并将该训练句子对应的训练句子向量、负样本训练句子向量和正样本训练句子向量输入目标损失函数，以输出该训练句子对应的损失值；根据每个训练句子对应的损失值，调整所述初始对比学习模型，以使每个训练句子对应的损失值最小。3.根据权利要求2所述的方法，其特征在于，编码器包括预设数量的归一化层，通过以下方式输出每个训练句子对应的训练句子向量：将训练句子集输入文本增强模块，以输出每个训练句子对应的多个相似训练句子；针对该训练句子和对应的多个相似训练句子中的任一个句子，在该句子前添加预设标签并输入所述编码器，以将所述编码器的最后一个归一化层的输出向量中与所述预设标签对应的部分作为该句子对应的训练句子向量并输出。4.根据权利要求2所述的方法，其特征在于，编码器包括预设数量的归一化层，针对输入初始对比学习模型的每个训练句子，通过以下方式输出该训练句子对应的训练句子向量：将该训练句子输入文本增强模块，以输出多个相似训练句子；针对该训练句子和对应的多个相似训练句子中的任一个句子，将该句子输入所述编码器，根据所述编码器的目标归一化层的输出向量的均值，确定该句子对应的训练句子向量并输出。5.根据权利要求3或4所述的方法，其特征在于，所述归一化层包括多个神经网络节点，通过以下方式确定每个训练句子对应的一个正样本训练句子向量：将该训练句子对应的训练句子向量中，除该训练句子外任一相似训练句子对应的训练句子向量，作为该训练句子对应的一个正样本训练句子向量；或将该训练句子和多个相似训练句子中的...

【专利技术属性】
技术研发人员：姚雷，杜新凯，吕超，
申请(专利权)人：阳光保险集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人