一种基于混合粒度注意力机制的任务型多轮对话模型构建方法技术

技术编号:23605222 阅读:52 留言:0更新日期:2020-03-28 06:10
本发明专利技术提供了一种基于混合粒度注意力机制的任务型多轮对话模型构建方法,包括以下步骤:S1:对文本进行分词、去停用词、词向量编码等预处理;S2:使用输入编码器将转化后的高维向量编码成句子向量,记忆对话的细节;S3:上下文编码器对句子向量进行编码;S4:上下文编码层输出结合句子粒度的注意力机制,实现对语境编码;S5:步骤S4输出作为输出解码器第一层的输入,通过解码层第一层进行解码;S6:计算单词粒度的注意力值;S7:解码器第一层的输出结合步骤S6计算所得的单词粒度的注意力值,将解码器产生的输出映射至单词表大小的维度上,输出结果。利用本发明专利技术大大提升了在实际数据集上进行多轮对话任务生成回复的准确性。

A task-based multi round dialogue model based on mixed granularity attention mechanism

【技术实现步骤摘要】
一种基于混合粒度注意力机制的任务型多轮对话模型构建方法
本专利技术涉及自然语言处理领域,具体涉及一种基于混合粒度注意力机制的任务型多轮对话模型构建方法。
技术介绍
自然语言领域中任务导向型多轮对话系统指的是在特定领域实现用户的需求,代表有:帮助用户导航、找寻商品、查看天气、制定日程、订购机票等,是实现人机交互的重要方式。任务型多轮对话系统可以显著降低人工成本、提升服务效率,为人们信息获取提供更加便捷、自然的服务,具有非常明确的实用价值和重要的应用前景。对近年来已有的任务型多轮对话系统的研究,可以分为两类,一类是传统领域任务型多轮对话系统,一类是端到端任务型多轮对话系统。传统领域的任务型多轮对话模型从输入到输出的每分模块都需要用不同方法和模型解决。这种分模块的解决方式在实际应用中已有不错的效果,但是还存在一些挑战和问题:第一,由于各个模块是相互独立的,因此下层的信息很难反馈到上层模块中;第二,传统领域任务型对话系统可扩展性差;第三,传统领域任务型对话系统大都需要大量人工注释的任务特定语料库。近年来,不少学者也尝试将序列到序列模型应用于任务型多轮对话系统中,实现端到端解决问题。虽然和传统领域的对话系统相比,这种端到端对话系统有着可扩展性好、克服误差传播等优势,但是,端到端对话系统采用的标准序列到序列模型不能很好地对历史对话信息进行建模。而在对话系统中,构建上下文信息是非常关键的。为了使端到端对话系统生成的句子更加符合多轮对话的特点,已有不少工作从不同角度提出了多种解决方案。一部分研究者将知识库引入对话系统,Wen等人(2014)提出了的基于端到端可训练的对话系统。这个方法虽然在一定程度上减少了人工干预,但是需要结合相关专业领域的结构化知识库数据,这类知识数据往往获取困难,需要依靠相关领域专家分析获取。Mou等人(2016)采用统计方法计算出应该在回复中出现的主题词,这种利用主题词的方法可减少生成无意义的回复。但是仅仅用一个单词作为语义层面的主题词,对于多轮对话系统来说,显然是不够的。Serban等人(2017)提出了一种分层的编码器解码器模型(HierarchicalEncoderDecoderModel,HRED),其核心思想是在标准的序列到序列模型基础上,增加了一层上下文编码器,用于对历史信息编码。对于多轮对话的建模,这种分层结构比传统的序列到序列模型更有优势。在反向传播的过程中,传统序列到序列结构的上下文向量信息会被新语句的信息逐步稀释。而HRED通过增加单独的上下文编码器从全局的角度为多轮对话系统历史信息建模,能更好地捕捉语义信息。Serban等人(2017)提出VHRED模型,在HRED基础上试图在上下文信息中引入高斯随机变量,增加回复的多样性。
技术实现思路
本专利技术提供了一种基于混合粒度注意力机制的任务型多轮对话模型构建方法。基于多轮对话具有语句由单词组成,多轮对话由语句组成这一层次结构特性,本专利技术设计了针对模型的句子粒度和单词粒度的混合注意力机制。句子粒度的注意力侧重于关注多轮对话整体语境、意图等信息,单词粒度的注意力机制更多关注细节,两者结合能够从不同层面提取更有效的上下文信息,使生成的回复更有意义。此外,本专利技术研究了现有的五种关键的建模及训练技术:为了使模型更准确,本专利技术采用多层网络结构,但同时也会带来梯度消失或梯度爆炸的问题,因此模型在每一子层引入残差连接(ResidualConnection)。由于数据集大小有限,复杂模型容易出现过拟合,本专利技术结合dropout机制和标签平滑化(1abelsmoothing)的方法从不同角度控制过拟合。为了使深层网络训练更稳定,模型的每一层输入采用层规范化(LayerNormalization)方法。考虑到多轮对话系统回复的多样性,本专利技术采用beamsearch方法寻找最可能的回复序列。这五种技术有机结合,进一步优化得到新的混合模型,大大提升了端到端任务型对话模型生成回复的准确性。一种基于混合粒度注意力机制的任务型多轮对话模型构建方法,包括以下步骤:S1:对输入的自然文本X1,X2,...,XN,经过词嵌入、去停用词等一系列自然语言处理步骤后,句子中每个词转换成固定长度的向量表示S2:使用输入编码器将转化后的高维向量编码成句子向量,记忆对话的细节,其中M表示编码器和解码器的层数S3:句子向量作为上下文编码器各个时间步的输入,通过上下文编码器对句子向量进行编码(h1,...,ht)=RNNContextEncoder(E1,...,EN);S4:上下文编码层输出结合句子粒度的注意力机制,实现对语境编码;S5:步骤S4输出作为输出解码器第一层的输入,通过解码层第一层进行解码D1=RNNDecoder1(v);S6:计算单词粒度的注意力值;S7:解码器第一层的输出结合步骤S6计算所得的单词粒度的注意力值,开始逐步进行解码,直到解码器产生终止符位置,将解码器产生的输出映射至单词表大小的维度上,输出结果。进一步地,步骤S4的具体过程为:S4.1:引入句子向量us,us最初是通过随机初始化赋值得到。对hi进行非线性变换得到ui;ui=tanh(Wshi+bs)S4.2:对ui和us进行相似度计算得到权重,softmax后得到归一化权重αi;S4.3:对hi进行加权平均得到最终的上下文向量v。进一步地,步骤S6的具体过程为:S6.1:为了获得不同子空间的信息,首先将D1和EN进行不同的线性变换,得到如下值(Query1,Value1,Key1)…(QueryN,ValueN,KeyN),为第i次线性变换的三个不同的待训练权值向量,第i次计算权值向量值公式为:S6.2:再进行缩放点积计算,dim为Keyi的维度,第i次计算公式为:S6.3:最后将第S6.2步计算所得的N个值拼接,再通过简单的线性变换得到预期维度的多头注意力值。mulAttention=concat(Att1,...,AttN)*Wout进一步地,步骤S7的具体过程为:S7.1:初始化解码输入d0=dinitial;S7.2:解码器第二层到最后一层按步解码的过程如下,其中Lmaxsize表示生成回复的最大长度,对于j=0,...,Lmaxsize:S7.3:将解码器产生的输出映射至单词表大小的维度上;S7.4:通过归一化,得到第j步的输出在词汇表上的分布;S7.5:找到每一步概率最大的单词对应的词表ID;S7.6:将单词ID转化为可读的字符串;S7.7:当解码器生成终止符后,停止解码,连接单词生成第N+1轮的回复。Y=join(y1,y2,...,yend)本专利技术基于混合注意力机制的端到端任务导向型对话模型构建方法具有以下优点:1、本专利技术使用混合粒度的注意力机制,其中句子粒度的注意力侧重于关注多本文档来自技高网
...

【技术保护点】
1.一种基于混合粒度注意力机制的任务型多轮对话模型构建方法,其特征在于,包括以下步骤:/nS1:对输入的自然文本X

【技术特征摘要】
1.一种基于混合粒度注意力机制的任务型多轮对话模型构建方法,其特征在于,包括以下步骤:
S1:对输入的自然文本X1,X2,...,XN,经过词嵌入、去停用词等一系列自然语言处理步骤后,句子中每个词转换成固定长度的向量表示
S2:使用输入编码器将转化后的高维向量编码成句子向量,记忆对话的细节,其中M表示编码器和解码器的层数
S3:句子向量作为上下文编码器各个时间步的输入,通过上下文编码器对句子向量进行编码(h1,...,ht)=RNNContextEncoder(E1,...,EN);
S4:上下文编码层输出结合句子粒度的注意力机制,实现对语境编码;
S5:步骤S4输出作为输出解码器第一层的输入,通过解码层第一层进行解码D1=RNNDecoder1(v);
S6:计算单词粒度的注意力值;
S7:解码器第一层的输出结合步骤S6计算所得的单词粒度的注意力值,开始逐步进行解码,直到解码器产生终止符位置,将解码器产生的输出映射至单词表大小的维度上,输出结果。


2.根据权利要求1所述的一种基于混合粒度注意力机制的任务型多轮对话模型构建方法,其特征在于,所述步骤S4的具体过程为:
S4.1:引入句子向量us,us最初是通过随机初始化赋值得到。对hi进行非线性变换得到ui,
ui=tanh(Wshi+bs);
S4.2:对ui和us进行相似度计算得到权重,softmax后得到归一化权重αi,



S4.3:对hi进行加权平均得到最终的上下文向量v,





3.根据权利要求2所述的一种基于混合粒度注意力机制的任务型多轮对话模型...

【专利技术属性】
技术研发人员:仇婕王鹏马婷婷窦海波高玮
申请(专利权)人:中国人民解放军六三六二六部队
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1