本申请公开了多轮对话生成式模型建立方法、系统、电子设备及介质,多轮对话生成式模型建立方法包括:基于注意力机制的编码层及基于LSTM网络的解码层构建初始多轮对话生成式模型;通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本;通过所述回应文本对所述初始多轮对话生成式模型进行反向传播计算对所述编码层进行更新,获得最终多轮对话生成式模型。本发明专利技术通过设计针对多轮对话场景的注意力机制解决了往轮对话信息的存储问题,提高了往轮对话信息的利用率和挖掘程度。息的利用率和挖掘程度。息的利用率和挖掘程度。
【技术实现步骤摘要】
多轮对话生成式模型建立方法、系统、电子设备及介质
[0001]本申请涉及深度学习
,尤其涉及一种多轮对话生成式模型建立方法、系统、电子设备及介质。
技术介绍
[0002]现有技术中,多轮对话生成式模型建立主要通过以下两种方案实现,一种是基于pipeline的方法,另一种是基于深度学习网络的方法。其中,基于pipeline的对话生成方法主要包括,自然语言理解、对话状态管理以及自然语言生成等三个部分,由于模型的整体表现受制于所有的部分,因此模型的泛化能力较差;基于深度学习网络的多轮对话生成方式主要受限于对往轮对话信息的存储和利用,随着对话轮数的增加背景信息也随之增加,而且对话的方式和序列长度等基本信息都不受控制。然而,如何解决往轮对话信息的存储问题以及提高往轮对话信息的利用率和挖掘程度成为一个亟待解决的问题。
技术实现思路
[0003]本申请实施例提供了一种多轮对话生成式模型建立方法、系统、电子设备及介质,以至少通过本专利技术解决了对话生成质量低、往轮对话信息的利用率与挖掘程度低以及对话信息存储不合理等问题。
[0004]本专利技术提供了多轮对话生成式模型建立方法,包括:
[0005]基于注意力机制的编码层及基于LSTM网络的解码层构建初始多轮对话生成式模型;
[0006]通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本;
[0007]通过所述回应文本对所述初始多轮对话生成式模型进行反向传播计算对所述编码层进行更新,获得最终多轮对话生成式模型。
[0008]上述的多轮对话生成式模型建立方法中,所述通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本的步骤包括:
[0009]对所述文本进行特征提取后获得文本特征,对所述文本特征进行向量化,获得所述文本向量;
[0010]通过所述编码层的键矩阵与值矩阵对所述文本向量进行打分处理后获得所述注意力分布向量;
[0011]对所述文本向量及所述注意力分布向量进行拼接后获得拼接向量;
[0012]通过解码层根据拼接向量获得回应文本。
[0013]上述的多轮对话生成式模型建立方法中,所述对所述文本向量及所述注意力分布向量进行拼接后获得拼接向量的步骤包括:
[0014]基于跳跃连接方式对所述文本向量及所述注意力分布向量进行处理后获得所述
拼接向量。
[0015]上述的多轮对话生成式模型建立方法中,所述通过所述编码层的键矩阵与值矩阵对所述文本向量进行打分处理后获得所述注意力分布向量的步骤中包括:
[0016]根据所述键矩阵对所述文本向量进行乘积运算后获得运算结果;
[0017]根据所述值矩阵对所述运算结果进行乘积运算后获得所述注意力分布向量。
[0018]上述的多轮对话生成式模型建立方法中,所述通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本的步骤还包括:
[0019]通过所述编码层的多层感知机结构对所述拼接向量的维度进行调整。
[0020]上述的多轮对话生成式模型建立方法中,所述通过所述回应文本对所述多轮对话生成式模型进行反向传播计算对所述编码层进行更新,获得最终多轮对话生成式模型的步骤中包括:
[0021]根据所述回应文本对所述初始多轮对话生成式模型进行反向传播计算获得损失函数值后,根据所述损失函数值更新模型参数,获得所述最终多轮对话生成式模型。
[0022]上述的多轮对话生成式模型建立方法中,所述模型参数包括所述键矩阵及所述值矩阵中的至少一者。
[0023]本专利技术还提供多轮对话生成式模型建立系统,其中,适用于上述所述的多轮对话生成式模型建立方法,所述多轮对话生成式模型建立系统包括:
[0024]编码层构建单元,基于注意力机制构建编码层,通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本;
[0025]解码层构建单元,基于LSTM网络构建解码层,通过所述回应文本对所述初始多轮对话生成式模型进行反向传播计算对所述编码层进行更新,获得最终多轮对话生成式模型。
[0026]本专利技术还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的多轮对话生成式模型建立方法。
[0027]本专利技术还提供一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现上述任一项所述的多轮对话生成式模型建立方法。
[0028]相比于相关技术,本专利技术提出的多轮对话生成式模型建立方法、系统、电子设备及介质,在模型训练阶段对文本进行正向传播计算时,每一轮对文本进行注意力计算,使用的值矩阵、键矩阵是上一轮的值矩阵、键矩阵,上一轮的值矩阵、键矩阵中包含着之前所有轮对话的信息,之后在反向传播时本轮的相关信息又更新在值矩阵、键矩阵中,用于之后的对话使用,简单来说本专利技术只用两个矩阵就存储了往轮对话信息。解决了往轮对话信息存储不合理导致的往轮对话信息的利用率与挖掘程度低等问题,并提高了自然语言处理能力。
[0029]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0030]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0031]图1是根据本申请实施例的多轮对话生成式模型建立方法流程图;
[0032]图2是根据本申请实施例的多轮对话生成式模型的框架图;
[0033]图3为本专利技术的多轮对话生成式模型建立系统的结构示意图;
[0034]图4是根据本申请实施例的电子设备的框架图。
[0035]其中,附图标记为:
[0036]编码层构建单元:51;
[0037]解码层构建单元:52;
[0038]总线:80;
[0039]处理器:81;
[0040]存储器:82;
[0041]通信接口:83。
具体实施方式
[0042]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多轮对话生成式模型建立方法,其特征在于,构建一多轮对话生成式模型以应用于多轮对话场景,包括:基于注意力机制的编码层及基于LSTM网络的解码层构建初始多轮对话生成式模型;通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本;通过所述回应文本对所述初始多轮对话生成式模型进行反向传播计算对所述编码层进行更新,获得最终多轮对话生成式模型。2.根据权利要求1所述的多轮对话生成式模型建立方法,其特征在于,所述通过所述编码层对文本进行处理获得文本向量及注意力分布向量,通过所述解码层对所述文本向量及所述注意力分布向量进行处理获得回应文本的步骤包括:对所述文本进行特征提取后获得文本特征,对所述文本特征进行向量化,获得所述文本向量;通过所述编码层的键矩阵与值矩阵对所述文本向量进行打分处理后获得所述注意力分布向量;对所述文本向量及所述注意力分布向量进行拼接后获得拼接向量;通过所述解码层根据所述拼接向量获得所述回应文本。3.根据权利要求2所述的多轮对话生成式模型建立方法,其特征在于,所述对所述文本向量及所述注意力分布向量进行拼接后获得拼接向量的步骤包括:基于跳跃连接方式对所述文本向量及所述注意力分布向量进行处理后获得所述拼接向量。4.根据权利要求2所述的多轮对话生成式模型建立方法,其特征在于,所述通过所述编码层的键矩阵与值矩阵对所述文本向量进行打分处理后获得所述注意力分布向量的步骤中包括:根据所述键矩阵对所述文本向量进行乘积运算后获得运算结果;根据所述值矩阵对所述运算结果进行乘积运算后获得所述注意力分布向量。5.根据权利要求2所述的多轮对话生成式模型建立方法,其特征在于,所述通过所述编码层对文...
【专利技术属性】
技术研发人员:刘伟硕,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。