文本生成模型的训练方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:32829622 阅读:12 留言:0更新日期:2022-03-26 20:39
本发明专利技术公开了一种文本生成模型的训练方法、装置、存储介质及计算机设备,涉及机器学习技术领域。其中方法包括:获取多轮对话中的问题文本和多个上下文文本;利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型。本发明专利技术适用于文本生成模型的训练。练。练。

【技术实现步骤摘要】
文本生成模型的训练方法、装置、存储介质及计算机设备


[0001]本专利技术涉及机器学习
,尤其是涉及一种文本生成模型的训练方法、装置、存储介质及计算机设备。

技术介绍

[0002]在自然语言处理中,多轮对话始终是研究的热点,而如何准确、有效地生成回复文本对多轮对话的研究有重要意义。
[0003]目前,通常是基于多轮对话中对上下文的理解,利用深度学习模型,生成相应的回复文本。然而,这种方式在训练深度学习模型的过程中,并没有考虑生成的回复文本与多轮对话中的上下文对话主题是否深层次相关,进而导致利用该深度学习模型生成的回复文本偏离多轮对话的整体逻辑,无法保证回复文本的生成精度。

技术实现思路

[0004]本专利技术提供了一种文本生成模型的训练方法、装置、存储介质及计算机设备,主要在于能够保证生成的回复本文与上下文对话主题深层次相关,从而能够使生成的回复文本贴合多轮对话的整体逻辑,提高回复文本的生成精度。
[0005]根据本专利技术的第一个方面,提供一种文本生成模型的训练方法,包括:
[0006]获取多轮对话中的问题文本和多个上下文文本;
[0007]利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;
[0008]利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;
[0009]基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;
[0010]基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型。
[0011]根据本专利技术的第二个方面,提供一种文本生成模型的训练装置,包括:
[0012]获取单元,用于获取多轮对话中的问题文本和多个上下文文本;
[0013]生成单元,用于利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;
[0014]提取单元,用于利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;
[0015]构建单元,用于基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;
[0016]训练单元,用于基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型。
[0017]根据本专利技术的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程
序,该程序被处理器执行时实现以下步骤:
[0018]获取多轮对话中的问题文本和多个上下文文本;
[0019]利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;
[0020]利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;
[0021]基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;
[0022]基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型。
[0023]根据本专利技术的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
[0024]获取多轮对话中的问题文本和多个上下文文本;
[0025]利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;
[0026]利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;
[0027]基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;
[0028]基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型。
[0029]根据本专利技术提供的一种文本生成模型的训练方法、装置、存储介质及计算机设备,与目前利用深度学习模型生成相应的回复文本的方式相比,本专利技术通过获取多轮对话中的问题文本和多个上下文文本;并利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;与此同时,利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;并基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;最终基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型,由此通过提取上下文主题向量和回复文本主题向量,并基于该上下文本主题向量和回复文本主题向量,构建损失函数对文本生成模型进行训练,能够使回复文本主题向量和上下文主题向量尽可能相近,从而能够保证生成的回复文本与上下文对话主题深层次相关,使生成的回复文本贴合多轮对话的整体逻辑,进而提高了多轮对话中回复文本的生成精度。
附图说明
[0030]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0031]图1示出了本专利技术实施例提供的一种文本生成模型的训练方法流程图;
[0032]图2示出了本专利技术实施例提供的另一种文本生成模型的训练方法流程图;
[0033]图3示出了本专利技术实施例提供的一种文本生成模型的训练装置结构示意图;
[0034]图4示出了本专利技术实施例提供的另一种文本生成模型的训练装置结构示意图;
[0035]图5示出了本专利技术实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
[0036]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0037]目前,在训练深度学习模型的过程中,并没有考虑生成的回复文本与多轮对话中的上下文对话主题是否深层次相关,进而导致利用该深度学习模型生成的回复文本偏离多轮对话的整体逻辑,无法保证回复文本的生成精度。
[0038]为了解决上述问题,本专利技术实施例提供了一种文本生成模型的训练方法,如图1所示,所述方法包括:
[0039]101、获取多轮对话中的问题文本和多个上下文文本。
[0040]其中,多轮对话中至少包括三个语句文本,将最后一个语句文本作为问题文本,其他语句文本作为上下文文本。为了克服现有技术中生成的回复文本与上下文对话主题无法深层次相关,进而导致生成的回复文本偏离多轮对话整体逻辑的缺陷,本专利技术实施例,在训练文本生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成模型的训练方法,其特征在于,包括:获取多轮对话中的问题文本和多个上下文文本;利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵;利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量;基于所述上下文文本主题向量和所述回复文本主题向量,构建损失函数;基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练,构建文本生成模型。2.根据权利要求1所述的方法,其特征在于,所述初始文本向量生成模型包括初始编码器、初始解码器和第一初始前馈神经网络,所述利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵,包括:将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码,得到所述多个上下文文本分别对应的第一文本向量矩阵;将多个所述第一文本向量矩阵进行拼接,得到所述多轮对话对应的上下文文本向量矩阵;将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至所述初始解码器中进行解码,得到所述问题文本对应的第二文本向量矩阵;将所述第二文本向量矩阵输入至所述第一初始前馈神经网络中,得到所述问题文本对应的回复文本向量矩阵。3.根据权利要求2所述的方法,其特征在于,所述将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码,得到所述多个上下文文本分别对应的第一文本向量矩阵,包括:对所述多个上下文文本分别对应的嵌入向量进行相应的线性变换,得到所述多个上下文文本分别对应的第一查询矩阵、第一键矩阵和第一值矩阵;对所述第一键矩阵进行转置处理,将转置后的第一键矩阵与所述第一查询矩阵相乘,得到所述多个上下文文本分别对应的注意力强度矩阵;将所述注意力强度矩阵输入至所述初始编码器中的softmax层进行归一化处理,得到所述多个上下文文本分别对应的注意力系数矩阵;将所述注意力系数矩阵与所述第一值矩阵相乘,得到所述多个上下文文本分别对应的第一文本向量矩阵;所述初始解码器包括第一注意力层和第二注意力层,所述将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至初始解码器中进行解码,得到所述问题文本对应的第二文本向量矩阵,包括:将所述问题文本对应的嵌入向量输入至所述第一注意力层进行文本特征提取,得到所述问题文本对应的第三文本向量矩阵;根据所述第三文本向量矩阵,确定所述问题文本对应的第二查询矩阵;根据所述所述上下文文本向量矩阵,分别确定所述问题文本对应的第二键矩阵和第二
值矩阵;根据所述第二查询矩阵、所述第二键矩阵和所述第二值矩阵,计算所述问题文本对应的第二文本向量矩阵。4.根据权利要求1所述的方法,其特征在于,所述初始主题向量提取模型包括多个第二初始前馈神经网络,所述利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量,包括:确定所述多个第二初始前馈神经网络分别对应的主题向量参数;将所述第一文本向量矩阵和所述回复文本向量矩阵分别与所述多个主题向量参数相乘,得到所述第一文本向量矩阵对应的多个第一相乘结果和所述回复文本向量矩阵对应的多个第二相乘结果;将所...

【专利技术属性】
技术研发人员:舒畅陈又新肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1