当前位置: 首页 > 专利查询>清华大学专利>正文

机器翻译自动后编辑方法及装置制造方法及图纸

技术编号:23288695 阅读:35 留言:0更新日期:2020-02-08 18:36
本发明专利技术实施例提供一种机器翻译自动后编辑方法及装置,方法包括:获取目标源语言句子和目标机器翻译草稿;将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可提升机器翻译自动后编辑的编辑效果,准确性较高。

Automatic post editing method and device of machine translation

【技术实现步骤摘要】
机器翻译自动后编辑方法及装置
本专利技术涉及机器翻译
,尤其涉及一种机器翻译自动后编辑方法及装置。
技术介绍
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上存在的语言种类繁多,各有特征,形式灵活,使得语言的自动处理,包括语言之间的机器翻译,成为至关重要的技术。机器翻译是指计算机在不需要人类指导的情况下进行某一特定语言到另一语言的文本翻译。然而翻译的质量不尽如人意,为了保证翻译的质量需要人工对已翻译文本(即机器翻译草稿)进行编辑修改,这样的翻译后编辑耗费的人力小于直接由语言专家对源语言文本进行翻译需要的人力。自动后编辑技术旨在将后编辑过程自动化,使计算机以源语言文本以及经过翻译的文本为输入,输出经过后编辑的文本。目前,现有的机器翻译通常使用基于深度学习的序列到序列方法,可以将源语言句子映射到目标语言句子。目前,现有的自动后编辑也使用基于深度学习的序列到序列方法,区别在于自动后编辑比机器翻译多了一个机器翻译草稿的输入,即双序列到单序列的映射。但是,现有的自动后编辑使用基于深度学习的序列到序列方法,虽然可以完成翻译后编辑工作,但是准确性较低,编辑效果较差。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种机器翻译自动后编辑方法及装置。本专利技术实施例提供一种机器翻译自动后编辑方法,包括:获取目标源语言句子和目标机器翻译草稿;将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可选地,在将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子之前,本实施例所述方法还包括:构建包含拷贝标签的训练集;基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。可选地,所述构建包含拷贝标签的训练集,包括:获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。可选地,所述基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型,包括:将SRC和MT转换为词嵌入序列;将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;其中,在训练阶段使用的损失函数Lall(θ)为:Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ),其中,α为超参数,θ为模型参数,Y表示PE的词嵌入序列,X表示SRC的词嵌入序列,表示MT的词嵌入序列,Lape(θ)为传统序列到序列学习的损失函数,Lpred(θ)为对预测器进行监督的损失函数,Lpred(θ)由预测的拷贝分数与拷贝标签的sigmoid交叉熵得到,K为MT中词的数量,lk为MT中第k个词的拷贝标签,Sk为MT中第k个词预测的拷贝分数。可选地,在训练阶段基于所述包含拷贝标签的训练集,使用Adam优化器对深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。本专利技术实施例提供一种机器翻译自动后编辑装置,包括:第一获取模块,用于获取目标源语言句子和目标机器翻译草稿;后编辑模块,用于将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可选地,所述装置还包括:构建模块,用于构建包含拷贝标签的训练集;训练模块,用于基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。可选地,所述构建模块,具体用于获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述方法的步骤。本专利技术实施例提供的机器翻译自动后编辑方法及装置,通过将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,自动本文档来自技高网...

【技术保护点】
1.一种机器翻译自动后编辑方法,其特征在于,包括:/n获取目标源语言句子和目标机器翻译草稿;/n将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;/n其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。/n

【技术特征摘要】
1.一种机器翻译自动后编辑方法,其特征在于,包括:
获取目标源语言句子和目标机器翻译草稿;
将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。


2.根据权利要求1所述的机器翻译自动后编辑方法,其特征在于,在将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子之前,本实施例所述方法还包括:
构建包含拷贝标签的训练集;
基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。


3.根据权利要求2所述的机器翻译自动后编辑方法,其特征在于,所述构建包含拷贝标签的训练集,包括:
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;
利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;
将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;
构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。


4.根据权利要求3所述的机器翻译自动后编辑方法,其特征在于,所述基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型,包括:
将SRC和MT转换为词嵌入序列;
将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;
将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ...

【专利技术属性】
技术研发人员:刘洋黄轩成栾焕博孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1