文本相似度模型训练方法、文本相似度检测方法及装置制造方法及图纸

技术编号：31084877 阅读：11 留言：0更新日期：2021-12-01 12:35

本申请涉及一种文本相似度模型训练方法、文本相似度检测方法及装置。其中方法通过分别对第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码，通过第一特征编码和第二特征编码对孪生神经网络进行训练，并获取孪生神经网络训练后的损失，基于损失确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征，进而对孪生神经网络进行迭代训练，从而得到用于文本相似度检测的文本相似度检测模型。由于本公开基于训练过程中的损失可以通过计算而产生新的训练数据，从而使得模型能够使用更多的数据进行训练，不仅可以提高模型的鲁棒性，还可以提升模型的泛化能力以及准确率。型的泛化能力以及准确率。型的泛化能力以及准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度模型训练方法、文本相似度检测方法及装置

[0001]本申请涉及计算机应用技术，特别是涉及一种文本相似度模型训练方法、文本相似度检测方法及装置。

技术介绍

[0002]在自然语言处理任务中，经常需要判断两篇文档是否相似，或者计算两篇文档的相似程度。比如，基于聚类算法发现微博热点话题时，需要度量各篇文本的内容相似度，然后让内容足够相似的微博聚成一个簇；而在问答系统中，则需要准备一些经典问题和对应的答案，当用户的问题和经典问题很相似时，系统直接返回准备好的答案；而监控稿件在互联网中的传播情况时，则可以把所有和原创稿件相似的文章，都看作转发，进而刻画原创稿件的传播范围；在对语料进行预处理时，则需要基于文本的相似度，把重复的文本给挑出来并删除。总之，文本相似度模型是一种非常有用的工具，可以帮助我们解决很多问题。
[0003]然而，在自然语言处理领域，通常采用传统的机器学习方法进行模型训练，但是，如果训练数据较少，则容易出现过拟合的现象，导致模型无法在验证集上得到较好的效果，从而无法在类似场景中直接应用。因此，传统的机器学习方法训练模型存在效果差、泛化能力不理想等弊端。

技术实现思路

[0004]基于此，有必要针对上述传统的机器学习方法训练模型存在效果差、泛化能力不理想的问题，提供一种文本相似度模型训练方法、文本相似度检测方法及装置。
[0005]一种文本相似度模型训练方法，所述方法包括：
[0006]分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第...

【技术保护点】

【技术特征摘要】
1.一种文本相似度模型训练方法，其特征在于，所述方法包括：分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码；通过所述第一特征编码和所述第二特征编码对孪生神经网络进行训练；获取所述孪生神经网络训练后的损失，基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征；根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练；重复执行上述获取所述孪生神经网络训练后的损失的步骤，直到所述损失最小时，得到用于文本相似度检测的文本相似度检测模型。2.根据权利要求1所述的方法，其特征在于，所述基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征，包括：获取所述损失关于所述第一特征编码的第一导数，将所述第一导数确定为所述第一特征编码的第一扰动特征；获取所述损失关于所述第二特征编码的第二导数，将所述第二导数确定为所述第二特征编码的第二扰动特征。3.根据权利要求1所述的方法，其特征在于，所述获取所述孪生神经网络训练后的损失，包括：获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果；根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失。4.根据权利要求3所述的方法，其特征在于，所述获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果，包括：将所述第一特征编码输入所述孪生神经网络的第一分支网络，得到所述第一分支网络输出的第一识别结果；将所述第二特征编码输入所述孪生神经网络的第二分支网络，得到所述第二分支网络输出的第二识别结果；获取所述第一识别结果与所述第二识别结果之间的距离，将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果。5.根据权利要求4所述的方法，其特征在于，所述获取所述第一识别结果与所述第二识别结果之间的距离，包括：其中，X
h
为第一识别结果，X
b
为第二识别结果，ξ为常数，D
w
则为指数距离。6.根据权利要求5所述的方法，其特征在于，所述损失为对比损失；所述根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失，包括：
L(w，(Y，X
h
，X
b
)
i
)＝(1
‑
Y)
×
L
D
(D
wi
)+Y
×
L
S
(D
wi
)；L
D
(D
wi
)＝max(0，margin
‑
D
wi
)2；L
S
(D
wi
)＝(D
wi
)2；其中，m为样本数，w为模型参数，Y是数据标签，(Y，X
h
，X
b
)
i
是第i个样本示例，L
S
(D

【专利技术属性】
技术研发人员：杨洋，李锋，张琛，万化，
申请(专利权)人：上海浦东发展银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人