文本生成模型的训练方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：32829622 阅读：12 留言：0更新日期：2022-03-26 20:39

本发明专利技术公开了一种文本生成模型的训练方法、装置、存储介质及计算机设备，涉及机器学习技术领域。其中方法包括：获取多轮对话中的问题文本和多个上下文文本；利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。本发明专利技术适用于文本生成模型的训练。练。练。

全部详细技术资料下载

【技术实现步骤摘要】
文本生成模型的训练方法、装置、存储介质及计算机设备

[0001]本专利技术涉及机器学习
，尤其是涉及一种文本生成模型的训练方法、装置、存储介质及计算机设备。

技术介绍

[0002]在自然语言处理中，多轮对话始终是研究的热点，而如何准确、有效地生成回复文本对多轮对话的研究有重要意义。
[0003]目前，通常是基于多轮对话中对上下文的理解，利用深度学习模型，生成相应的回复文本。然而，这种方式在训练深度学习模型的过程中，并没有考虑生成的回复文本与多轮对话中的上下文对话主题是否深层次相关，进而导致利用该深度学习模型生成的回复文本偏离多轮对话的整体逻辑，无法保证回复文本的生成精度。

技术实现思路

[0004]本专利技术提供了一种文本生成模型的训练方法、装置、存储介质及计算机设备，主要在于能够保证生成的回复本文与上下文对话主题深层次相关，从而能够使生成的回复文本贴合多轮对话的整体逻辑，提高回复文本的生成精度。
[0005]根据本专利技术的第一个方面，提供一种文本生成模型的训练方法，包括：
[0006]获取多轮对话中的问题文本和多个上下文文本；
[0007]利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；
[0008]利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；
[0009]基于所述上下文文本主题向量和所述回复文本主题向量，...

【技术保护点】

【技术特征摘要】
1.一种文本生成模型的训练方法，其特征在于，包括：获取多轮对话中的问题文本和多个上下文文本；利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。2.根据权利要求1所述的方法，其特征在于，所述初始文本向量生成模型包括初始编码器、初始解码器和第一初始前馈神经网络，所述利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵，包括：将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵；将多个所述第一文本向量矩阵进行拼接，得到所述多轮对话对应的上下文文本向量矩阵；将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至所述初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵；将所述第二文本向量矩阵输入至所述第一初始前馈神经网络中，得到所述问题文本对应的回复文本向量矩阵。3.根据权利要求2所述的方法，其特征在于，所述将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵，包括：对所述多个上下文文本分别对应的嵌入向量进行相应的线性变换，得到所述多个上下文文本分别对应的第一查询矩阵、第一键矩阵和第一值矩阵；对所述第一键矩阵进行转置处理，将转置后的第一键矩阵与所述第一查询矩阵相乘，得到所述多个上下文文本分别对应的注意力强度矩阵；将所述注意力强度矩阵输入至所述初始编码器中的softmax层进行归一化处理，得到所述多个上下文文本分别对应的注意力系数矩阵；将所述注意力系数矩阵与所述第一值矩阵相乘，得到所述多个上下文文本分别对应的第一文本向量矩阵；所述初始解码器包括第一注意力层和第二注意力层，所述将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵，包括：将所述问题文本对应的嵌入向量输入至所述第一注意力层进行文本特征提取，得到所述问题文本对应的第三文本向量矩阵；根据所述第三文本向量矩阵，确定所述问题文本对应的第二查询矩阵；根据所述所述上下文文本向量矩阵，分别确定所述问题文本对应的第二键矩阵和第二
值矩阵；根据所述第二查询矩阵、所述第二键矩阵和所述第二值矩阵，计算所述问题文本对应的第二文本向量矩阵。4.根据权利要求1所述的方法，其特征在于，所述初始主题向量提取模型包括多个第二初始前馈神经网络，所述利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量，包括：确定所述多个第二初始前馈神经网络分别对应的主题向量参数；将所述第一文本向量矩阵和所述回复文本向量矩阵分别与所述多个主题向量参数相乘，得到所述第一文本向量矩阵对应的多个第一相乘结果和所述回复文本向量矩阵对应的多个第二相乘结果；将所...

【专利技术属性】
技术研发人员：舒畅，陈又新，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人