编码器模型的训练方法及存储介质、相似度预测方法及系统技术方案

技术编号:33501065 阅读:19 留言:0更新日期:2022-05-19 01:11
本发明专利技术提供编码器模型的训练方法及存储介质、相似度预测方法及系统,包括:将两个文本序列输入嵌入层得到文本序列向量;将两个文本序列向量输入孪生神经网络编码器模型,以使其基于相同的神经网络参数确定隐状态;根据神经网络参数构造自监督损失函数;将隐状态输入池化层以使其根据隐状态进行池化处理,根据池化处理后的文本序列向量确定两个文本序列的相似度,并以其构造有监督损失函数;根据自监督和有监督损失函数确定损失函数,以更新神经网络参数;继续将新的文本序列输入直至损失函数的数值为最小值。该方法大幅提高了模型在计算文本序列相似度时的推理带宽,且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。似度的精准计算。似度的精准计算。

【技术实现步骤摘要】
编码器模型的训练方法及存储介质、相似度预测方法及系统


[0001]本专利技术涉及文本相似度领域,更具体地,涉及编码器模型的训练方法及存储介质、相似度预测方法及系统。

技术介绍

[0002]文本相似度是指衡量两个文本的相似程度,应用的场景包括有文本分类、聚类、文本主题检测、主题跟踪、机器翻译等等。更具体地,在语音通信场景对通话线路进行监管也会要求确定文本之间的相似度,但语音通信场景中获取到的对话内容噪声大、夹杂口音、信息完整度不足,在现有技术中判断对话内容是否相似时需要依赖人工抽检,耗费大量人力和时间,且人工抽检存在的问题是抽检覆盖面较小,且人工检测存在主观性较强的问题,无法全面准确地检测出对话内容的相似性,因此通话线路监管的可信性和准确性也较低。

技术实现思路

[0003]本专利技术旨在克服上述现有技术的至少一种缺陷,提供编码器模型的训练方法及存储介质、相似度预测方法及系统,用于解决现有技术中在确定文本相似度时依赖人工抽检,存在检测覆盖面小且主观性较强的问题。
[0004]本专利技术采用的技术方案包括:第一方面,本专利技术提供一种深度神经网络编码器模型的训练方法,包括:对两个不同的文本序列执行训练操作;所述训练操作为:将两个所述文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入孪生神经网络编码器模型,以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态;同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度;根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数;根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,以使所述神经网络编码器模型根据所述损失函数更新神经网络参数;继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值,得到已训练的神经网络编码器模型。
[0005]第二方面,本专利技术提供一种文本序列的相似度预测方法,将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型,以使所述神经网络编码器模型输出两个所述文本序列向量的隐状态;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理;根据池化处理后的两个文本序列向量确定两个所述文本序列的相似度。
[0006]第三方面,本专利技术提供一种文本序列的相似度预测系统,包括:词输入模块、词嵌
入模块、由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型、隐状态池化模块、向量相似度计算模块;所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本序列,并将其输出至所述词嵌入模块;所述词嵌入模块用于将两个所述文本序列进行向量化,得到两个文本序列向量并将其输出至所述神经网络编码器模型;所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的隐状态,并将其输出至隐状态池化模块;所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,并将池化处理后的文本序列向量输出至向量相似度计算模块;所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。
[0007]第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的深度神经网络编码器模型的训练方法,和/或上述的文本序列的相似度预测方法。
[0008]与现有技术相比,本专利技术的有益效果为:本实施例提供的编码器模型的训练方法,用于训练得到已训练的孪生神经网络编码器模型,由于孪生神经网络编码器模型共享同一个神经网络参数,因此大幅提高了该模型在计算文本序列之间语义相似度时的推理带宽,且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。同时,在训练过程中,采用自监督与有监督的方式联合训练神经网络编码器模型,以使最终更新得到的神经网络参数有利于提高神经网络编码器模型在语义层面计算语义相似度的准确性。
附图说明
[0009]图1为实施例1的方法步骤S110~S180的流程示意图。
[0010]图2为实施例1的神经网络编码器模型的训练过程示意图。
[0011]图3为实施例1的神经网络编码器模型的隐状态计算过程示意图。
[0012]图4为实施例2的方法步骤S210~S240的流程示意图。
[0013]图5为实施例2的预测方法的预测过程示意图。
[0014]图6为实施例3的预测系统的预测过程示意图。
具体实施方式
[0015]本专利技术附图仅用于示例性说明,不能理解为对本专利技术的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0016]实施例1本实施例提供一种深度神经网络编码器模型的训练方法,用于训练孪生神经网络编码器模型,孪生神经网络在广义上既可以由两个子网络构成,也可以由一个网络构成,关键在于孪生神经网络共享同一神经网络参数。
[0017]结合图1、2所示,该方法包括以下步骤:S110、将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;在本步骤中,文本序列是指已经经过预处理后的文本数据,以使其满足嵌入层兼
容的输入格式。在具体的实施方式中,预处理包括:对原始文本数据进行数据清洗;读取预设特殊符号、停用词与用户词典词表,去除文本数据中的特殊符号,结合所读取的用户词典对文本序列进行分词,去除文本数据中存在的停用词。将文本数据转换为多个子文本序列,并按长度将多个子文本序列进行排序并拼接,再根据预先设定的训练批次的数据大小进行裁切,得到若干个文本序列作为训练数据。
[0018]从训练数据中随机采样选择作为输入的多组文本序列,每组文本序列中包括两个不同的文本序列,并获取每一组文本序列对应的标签,由于本实施例提供的训练方法用于训练计算文本序列相似度的神经网络编码器模型,因此标签为每组文本序列中两个不同的文本序列之间的真实相似度。在输入嵌入层之前将已经选择作为输入的多组文本序列转换为整型数据。在优选的实施方式中,可采用Tokenizer将文本数据转换为整型数据。
[0019]嵌入层用于将输入的文本序列转换为具有固定大小的向量,具体是将文本序列映射到向量空间中,从而得到两个文本序列的文本序列向量。
[0020]S120、将两个文本序列向量输入孪生神经网络编码器模型,以使神经网络编码器模型确定两个文本序列向量的隐状态;在本步骤中,神经网络编码器模型接收本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度神经网络编码器模型的训练方法,其特征在于,包括:对两个不同的文本序列执行训练操作;所述训练操作为:将两个所述文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入孪生神经网络编码器模型,以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态;同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度;根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数;根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,以使所述神经网络编码器模型根据所述损失函数更新神经网络参数;继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值,得到已训练的神经网络编码器模型。2.根据权利要求1所述的深度神经网络编码器模型的训练方法,其特征在于,根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,具体包括:将所述自监督损失函数以及所述有监督损失函数的和作为所述神经网络编码器模型的损失函数。3.根据权利要求1所述的深度神经网络编码器模型的训练方法,其特征在于,根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度,具体包括:利用式子确定两个所述文本序列的相似度;其中,为两个所述文本序列的相似度,和分别表示两个文本序列,为两个池化处理后的文本序列向量的向量积;为两个池化处理后的文本序列向量的模的乘积。4.根据权利要求3所述的深度神经网络编码器模型的训练方法,其特征在于,所述有监督损失函数为:;其中,为和的真实文本相似度,为每次执行训练操作时所抓取的文本序列的数量。5.根据权利要求4所述的深度神经网络编码器模型的训练方法,其特征在于,所述自监督损失函数为:;其中,表示概率密度函数,为所述神经网络参数,和分别表示遮掩语言模型和下一句预测模型对应输出层的参数,与分别为遮掩语言模型和下一句预测模型的训练数据集,和分别为遮掩语言模型的预测词语和真实词语,表示下一句预测模型输出的与前后两个文本序列的连接关系,表示与前后两个文本序列的真实连接关系。...

【专利技术属性】
技术研发人员:肖清赵文博李剑锋许程冲周丽萍
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1