编码器模型的训练方法及存储介质、相似度预测方法及系统技术方案

技术编号：33501065 阅读：19 留言：0更新日期：2022-05-19 01:11

本发明专利技术提供编码器模型的训练方法及存储介质、相似度预测方法及系统，包括：将两个文本序列输入嵌入层得到文本序列向量；将两个文本序列向量输入孪生神经网络编码器模型，以使其基于相同的神经网络参数确定隐状态；根据神经网络参数构造自监督损失函数；将隐状态输入池化层以使其根据隐状态进行池化处理，根据池化处理后的文本序列向量确定两个文本序列的相似度，并以其构造有监督损失函数；根据自监督和有监督损失函数确定损失函数，以更新神经网络参数；继续将新的文本序列输入直至损失函数的数值为最小值。该方法大幅提高了模型在计算文本序列相似度时的推理带宽，且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。似度的精准计算。似度的精准计算。

全部详细技术资料下载

【技术实现步骤摘要】
编码器模型的训练方法及存储介质、相似度预测方法及系统

[0001]本专利技术涉及文本相似度领域，更具体地，涉及编码器模型的训练方法及存储介质、相似度预测方法及系统。

技术介绍

[0002]文本相似度是指衡量两个文本的相似程度，应用的场景包括有文本分类、聚类、文本主题检测、主题跟踪、机器翻译等等。更具体地，在语音通信场景对通话线路进行监管也会要求确定文本之间的相似度，但语音通信场景中获取到的对话内容噪声大、夹杂口音、信息完整度不足，在现有技术中判断对话内容是否相似时需要依赖人工抽检，耗费大量人力和时间，且人工抽检存在的问题是抽检覆盖面较小，且人工检测存在主观性较强的问题，无法全面准确地检测出对话内容的相似性，因此通话线路监管的可信性和准确性也较低。

技术实现思路

[0003]本专利技术旨在克服上述现有技术的至少一种缺陷，提供编码器模型的训练方法及存储介质、相似度预测方法及系统，用于解决现有技术中在确定文本相似度时依赖人工抽检，存在检测覆盖面小且主观性较强的问题。
[0004]本专利技术采用的技术方案包括：第一方面，本专利技术提供一种深度神经网络编码器模型的训练方法，包括：对两个不同的文本序列执行训练操作；所述训练操作为：将两个所述文本序列输入嵌入层进行向量化，得到两个文本序列向量；将两个所述文本序列向量输入孪生神经网络编码器模型，以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态；同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数；将两个所述文本序列...

【技术保护点】

【技术特征摘要】
1.一种深度神经网络编码器模型的训练方法，其特征在于，包括：对两个不同的文本序列执行训练操作；所述训练操作为：将两个所述文本序列输入嵌入层进行向量化，得到两个文本序列向量；将两个所述文本序列向量输入孪生神经网络编码器模型，以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态；同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数；将两个所述文本序列向量的隐状态输入池化层，以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理，根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度；根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数；根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数，以使所述神经网络编码器模型根据所述损失函数更新神经网络参数；继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值，得到已训练的神经网络编码器模型。2.根据权利要求1所述的深度神经网络编码器模型的训练方法，其特征在于，根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数，具体包括：将所述自监督损失函数以及所述有监督损失函数的和作为所述神经网络编码器模型的损失函数。3.根据权利要求1所述的深度神经网络编码器模型的训练方法，其特征在于，根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度，具体包括：利用式子确定两个所述文本序列的相似度；其中，为两个所述文本序列的相似度，和分别表示两个文本序列，为两个池化处理后的文本序列向量的向量积；为两个池化处理后的文本序列向量的模的乘积。4.根据权利要求3所述的深度神经网络编码器模型的训练方法，其特征在于，所述有监督损失函数为：；其中，为和的真实文本相似度，为每次执行训练操作时所抓取的文本序列的数量。5.根据权利要求4所述的深度神经网络编码器模型的训练方法，其特征在于，所述自监督损失函数为：；其中，表示概率密度函数，为所述神经网络参数，和分别表示遮掩语言模型和下一句预测模型对应输出层的参数，与分别为遮掩语言模型和下一句预测模型的训练数据集，和分别为遮掩语言模型的预测词语和真实词语，表示下一句预测模型输出的与前后两个文本序列的连接关系，表示与前后两个文本序列的真实连接关系。...

【专利技术属性】
技术研发人员：肖清，赵文博，李剑锋，许程冲，周丽萍，
申请(专利权)人：联通广东产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人