当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于多语言建模的低资源对话生成方法及系统技术方案

技术编号:31828844 阅读:19 留言:0更新日期:2022-01-12 13:02
本申请提供一种基于多语言建模的低资源对话生成方法及系统,涉及自然语言处理技术领域,对于不同语言的对话问询进行编码,通过降噪自编码器与反向翻译模块将不同语言的嵌入表示约束在同一空间,并利用单一语言对话映射与跨语言对话映射方法来学习并共享不同语言对话的共性特征;训练算法包括一个基于多目标优化算法的多任务学习框架及其相应的梯度更新方式:通过对偶问题平衡多语言表示对齐任务与多语言对话映射任务,获得两个任务目标的权重系数,并对于回传的梯度进行加权,使得模型能够收敛到更好的结果;输入包括不同语言的对话问询;输出包括对话系统生成的各个问询所对应的回复。应的回复。应的回复。

【技术实现步骤摘要】
一种基于多语言建模的低资源对话生成方法及系统


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于多语言建模的低资源对话生成方 法及系统。

技术介绍

[0002]人机对话系统一直以来是人工智能与自然语言处理领域的长期目标。从最早的图灵测试, 到如今业界例如Apple Siri,Microsoft XiaoIce和Alime助手等对话产品的应用,对话系统在 学术界和工业界有着非常广泛的研究与应用价值。从方法上来说,对话系统可分为两大类: 生成式对话模型,即系统根据用户输入的对话问询,通过条件语言模型生成对应的回复;检 索式对话模型,即系统通过匹配当前对话上下文与预先构建好的回复集合,从中检索出最合 适的语句作为当前的回复。
[0003]现有的生成式对话系统,大多是基于序列到序列的文本生成技术,首先通过文本编码器 理解用户输入的对话问询,并由此通过解码器生成对应的回复。不过,目前的人机对话系统 方法,往往仅局限于单一语言,即模型的训练语料与测试场景,均由同一种语言的对话问询 与回复对组成。因为深度模型的训练往往需要大规模的训练语料,这种单一语言数据的限制, 往往使得这类方法在缺乏对话语料的低资源语言场景下(例如小语种、低频对话场景等),难 以取得预期的效果。
[0004]因此,突破现有的基于单一语言的对话生成方法,对于低资源语言场景下对话系统的构 建与应用具有重要意义,而对于该问题的研究,在前人的工作鲜被涉及。所以一种有效的低 资源对话生成方法与系统,是目前亟待解决的一个需求。
专利技术内容
[0005]本专利技术的目的是提供一种基于多语言建模的低资源对话生成方法及系统,通过建模不同 语言之间的关联,实现利用高资源语言的对话语料来辅助构建低资源语言的对话系统,并提 升最终对话回复模型的效果。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]一种基于多语言建模的低资源对话生成方法,包括以下步骤:
[0008]构建编码器和解码器,该解码器包括表示对齐解码器和对话映射解码器,二者共享所述 编码器,表示对齐解码器包括降噪自编码器和反向翻译模块,对话映射解码器包括单语言对 话映射模块和跨语言对话映射模块;
[0009]构建多语言的对话样本训练数据,该对话样本包括自然语言的对话问询

回复语句,输入 到编码器,编码器通过词向量嵌入将输入的对话样本编码为对应的词向量,然后利用自注意 力机制构建词与词之间的语义关联,得到对话样本的向量表示,输入到表示对齐解码器和对 话映射解码器;
[0010]表示对齐解码器利用降噪自编码器对输入的单一语言的对话样本的向量表示加入噪声进 行扰动,再重构对话样本,根据输入的对话样本和重建的对话样本计算重构损
失;利用反向 翻译软件将输入的一源语言的对话样本的向量表示翻译为目标语言,再由目标语言翻译回源 语言的对话样本,根据输入的源语言和翻译的源语言的对话样本计算翻译损失;
[0011]对话映射解码器利用单语言对话映射模块对输入的对话样本的对话问询语句进行处理, 生成相同语言的对话回复语句,根据原对话回复语句和生成的对话回复语句计算单语言映射 损失;对于多种语言的对话样本,通过多任务学习方法进行交替学习训练,共享同一套编解 码参数;将一种语言对话问询语句经对齐解码器翻译成其他语言的对话问询语句,利用跨语 言对话映射模对翻译的对话问询语句进行处理生成跨语言对话回复语句,根据原对话回复语 句和生成的跨语言对话回复语句计算跨语言映射损失;
[0012]将重构损失与翻译损失相加得到表示对齐损失,通过单语言映射损失与跨语言映射损失 相加得到对话映射损失;对解码器进行训练,通过优化表示对齐解码器和对话映射解码器的 参数,使得表示对齐损失与对话映射损失的整体损失最小,得到训练好的解码器;
[0013]将待处理的多语言的对话问询语句输入到编码器,生成对话问询语句的向量表示并输入 到训练好的解码器中进行处理,生成指定语言的对话回复语句。
[0014]进一步地,编码器为基于自注意力机制的Transformer模型。
[0015]进一步地,在对解码器进行训练时,通过计算词粒度的交叉熵损失函数进行梯度更新。
[0016]进一步地,跨语言对话映射模块通过输入回复的开始符来指定生成的目标语言。
[0017]进一步地,降噪自编码器通过噪声函数进行扰动,噪声函数通过随机交换相邻词或者随 机掩码的方法来实现。
[0018]进一步地,通过梯度反向传播更新表示对齐解码器,将不同语言的语句向量表示对齐到 同一向量空间。
[0019]进一步地,对解码器进行训练时,通过求解原多目标问题KKT条件的对偶问题,得到对 齐表示损失函数和对话映射损失函数的权重系数,用来对回传梯度进行加权,更新解码器参 数,实现训练。
[0020]进一步地,对解码器进行训练时,采用基于对话样本数目的多项式分布批采样方法,通 过超参数来增加低资源语言数据的采样权重,并降低高资源语言数据的采样权重,实现不同 种语言数据的平衡。
[0021]一种基于多语言建模的低资源对话生成系统,包括编码器和解码器,其中解码器包括表 示对齐解码器和对话映射解码器,表示对齐解码器与对话映射解码器共享所述编码器;
[0022]编码器用于通过词向量嵌入方法将输入的自然语言的对话文本编码为对应的词向量,然 后利用自注意力机制构建词与词之间的语义关联,得到对话文本的向量表示;
[0023]表示对齐解码器用于处理所述对话文本的向量表示,将向量表示对齐到同一向量空间; 该表示对齐解码器包括降噪自编码器和反向翻译模块,其中降噪自编码器用于将输入的单一 语言的对话文本的向量表示加入噪声进行扰动,再重构对话样本,通过降低重构损失学习编 解码;反向翻译模块用于将输入的一源语言的对话文本的向量表示翻译为目标语言,再由目 标语言翻译回源语言的对话样本,根据输入的源语言和翻译的源语言的对
话样本计算翻译损 失;
[0024]对话映射解码器,包括单语言对话映射模块和跨语言对话映射模块,其中单语言对话映 射模块用于对输入的对话样本的对话问询语句进行处理,生成相同语言的对话回复语句,根 据原对话回复语句和生成的对话回复语句计算单语言映射损失;对于多种语言的对话样本, 通过多任务学习方法进行交替学习训练,共享同一套编解码参数;将一种语言对话问询语句 经对齐解码器翻译成其他语言的对话问询语句,利用跨语言对话映射模对翻译的对话问询语 句进行处理生成跨语言对话回复语句,根据原对话回复语句和生成的跨语言对话回复语句计 算跨语言映射损失;
[0025]其中,将重构损失与翻译损失相加得到表示对齐损失,通过单语言映射损失与跨语言映 射损失相加得到对话映射损失;对解码器进行训练,通过优化表示对齐解码器和对话映射解 码器的参数,使得表示对齐损失与对话映射损失的整体损失最小,得到训练好的解码器;将 待处理的多语言的对话问询语句输入到编码器,生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多语言建模的低资源对话生成方法,其特征在于,包括以下步骤:构建编码器和解码器,该解码器包括表示对齐解码器和对话映射解码器,二者共享所述编码器,表示对齐解码器包括降噪自编码器和反向翻译模块,对话映射解码器包括单语言对话映射模块和跨语言对话映射模块;构建多语言的对话样本训练数据,该对话样本包括自然语言的对话问询

回复语句,输入到编码器,编码器通过词向量嵌入将输入的对话样本编码为对应的词向量,然后利用自注意力机制构建词与词之间的语义关联,得到对话样本的向量表示,输入到表示对齐解码器和对话映射解码器;表示对齐解码器利用降噪自编码器对输入的单一语言的对话样本的向量表示加入噪声进行扰动,再重构对话样本,根据输入的对话样本和重建的对话样本计算重构损失;利用反向翻译软件将输入的一源语言的对话样本的向量表示翻译为目标语言,再由目标语言翻译回源语言的对话样本,根据输入的源语言和翻译的源语言的对话样本计算翻译损失;对话映射解码器利用单语言对话映射模块对输入的对话样本的对话问询语句进行处理,生成相同语言的对话回复语句,根据原对话回复语句和生成的对话回复语句计算单语言映射损失;对于多种语言的对话样本,通过多任务学习方法进行交替学习训练,共享同一套编解码参数;将一种语言对话问询语句经对齐解码器翻译成其他语言的对话问询语句,利用跨语言对话映射模对翻译的对话问询语句进行处理生成跨语言对话回复语句,根据原对话回复语句和生成的跨语言对话回复语句计算跨语言映射损失;将重构损失与翻译损失相加得到表示对齐损失,通过单语言映射损失与跨语言映射损失相加得到对话映射损失;对解码器进行训练,通过优化表示对齐解码器和对话映射解码器的参数,使得表示对齐损失与对话映射损失的整体损失最小,得到训练好的解码器;将待处理的多语言的对话问询语句输入到编码器,生成对话问询语句的向量表示并输入到训练好的解码器中进行处理,生成指定语言的对话回复语句。2.如权利要求1所述的方法,其特征在于,编码器为基于自注意力机制的Transformer模型。3.如权利要求1所述的方法,其特征在于,在对解码器进行训练时,通过计算词粒度的交叉熵损失函数进行梯度更新。4.如权利要求1所述的方法,其特征在于,跨语言对话映射模块通过输入回复的开始符来指定生成的目标语言。5.如权利要求1所述的方法,其特征在于,降噪自编码器通过噪声函数进行扰动,噪声函数通过随机交换相邻词或者随机掩码的方法来实现。6.如权利要求1所述的方法,...

【专利技术属性】
技术研发人员:赵东岩仇立松贾爱霞
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1