多轮对话生成式模型建立方法、系统、电子设备及介质技术方案

技术编号：31714617 阅读：70 留言：0更新日期：2022-01-01 11:19

本申请公开了多轮对话生成式模型建立方法、系统、电子设备及介质，多轮对话生成式模型建立方法包括：基于注意力机制的编码层及基于LSTM网络的解码层构建初始多轮对话生成式模型；通过所述编码层对文本进行处理获得文本向量及注意力分布向量，通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本；通过所述回应文本对所述初始多轮对话生成式模型进行反向传播计算对所述编码层进行更新，获得最终多轮对话生成式模型。本发明专利技术通过设计针对多轮对话场景的注意力机制解决了往轮对话信息的存储问题，提高了往轮对话信息的利用率和挖掘程度。息的利用率和挖掘程度。息的利用率和挖掘程度。

全部详细技术资料下载

【技术实现步骤摘要】
多轮对话生成式模型建立方法、系统、电子设备及介质

[0001]本申请涉及深度学习
，尤其涉及一种多轮对话生成式模型建立方法、系统、电子设备及介质。

技术介绍

[0002]现有技术中，多轮对话生成式模型建立主要通过以下两种方案实现，一种是基于pipeline的方法，另一种是基于深度学习网络的方法。其中，基于pipeline的对话生成方法主要包括，自然语言理解、对话状态管理以及自然语言生成等三个部分，由于模型的整体表现受制于所有的部分，因此模型的泛化能力较差；基于深度学习网络的多轮对话生成方式主要受限于对往轮对话信息的存储和利用，随着对话轮数的增加背景信息也随之增加，而且对话的方式和序列长度等基本信息都不受控制。然而，如何解决往轮对话信息的存储问题以及提高往轮对话信息的利用率和挖掘程度成为一个亟待解决的问题。

技术实现思路

[0003]本申请实施例提供了一种多轮对话生成式模型建立方法、系统、电子设备及介质，以至少通过本专利技术解决了对话生成质量低、往轮对话信息的利用率与挖掘程度低以及对话信息存储不合理等问题。
[0004]本专利技术提供了多轮对话生成式模型建立方法，包括：
[0005]基于注意力机制的编码层及基于LSTM网络的解码层构建初始多轮对话生成式模型；
[0006]通过所述编码层对文本进行处理获得文本向量及注意力分布向量，通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本；
[0007]通过所述回应文本对所述初始多轮对话生成式模型进行反向传播...

【技术保护点】

【技术特征摘要】
1.一种多轮对话生成式模型建立方法，其特征在于，构建一多轮对话生成式模型以应用于多轮对话场景，包括：基于注意力机制的编码层及基于LSTM网络的解码层构建初始多轮对话生成式模型；通过所述编码层对文本进行处理获得文本向量及注意力分布向量，通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本；通过所述回应文本对所述初始多轮对话生成式模型进行反向传播计算对所述编码层进行更新，获得最终多轮对话生成式模型。2.根据权利要求1所述的多轮对话生成式模型建立方法，其特征在于，所述通过所述编码层对文本进行处理获得文本向量及注意力分布向量，通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本的步骤包括：对所述文本进行特征提取后获得文本特征，对所述文本特征进行向量化，获得所述文本向量；通过所述编码层的键矩阵与值矩阵对所述文本向量进行打分处理后获得所述注意力分布向量；对所述文本向量及所述注意力分布向量进行拼接后获得拼接向量；通过所述解码层根据所述拼接向量获得所述回应文本。3.根据权利要求2所述的多轮对话生成式模型建立方法，其特征在于，所述对所述文本向量及所述注意力分布向量进行拼接后获得拼接向量的步骤包括：基于跳跃连接方式对所述文本向量及所述注意力分布向量进行处理后获得所述拼接向量。4.根据权利要求2所述的多轮对话生成式模型建立方法，其特征在于，所述通过所述编码层的键矩阵与值矩阵对所述文本向量进行打分处理后获得所述注意力分布向量的步骤中包括：根据所述键矩阵对所述文本向量进行乘积运算后获得运算结果；根据所述值矩阵对所述运算结果进行乘积运算后获得所述注意力分布向量。5.根据权利要求2所述的多轮对话生成式模型建立方法，其特征在于，所述通过所述编码层对文...

【专利技术属性】
技术研发人员：刘伟硕，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人