【技术实现步骤摘要】
机器翻译自动后编辑方法及装置
本专利技术涉及机器翻译
,尤其涉及一种机器翻译自动后编辑方法及装置。
技术介绍
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上存在的语言种类繁多,各有特征,形式灵活,使得语言的自动处理,包括语言之间的机器翻译,成为至关重要的技术。机器翻译是指计算机在不需要人类指导的情况下进行某一特定语言到另一语言的文本翻译。然而翻译的质量不尽如人意,为了保证翻译的质量需要人工对已翻译文本(即机器翻译草稿)进行编辑修改,这样的翻译后编辑耗费的人力小于直接由语言专家对源语言文本进行翻译需要的人力。自动后编辑技术旨在将后编辑过程自动化,使计算机以源语言文本以及经过翻译的文本为输入,输出经过后编辑的文本。目前,现有的机器翻译通常使用基于深度学习的序列到序列方法,可以将源语言句子映射到目标语言句子。目前,现有的自动后编辑也使用基于深度学习的序列到序列方法,区别在于自动后编辑比机器翻译多了一个机器翻译草稿的输入,即双序列到单序列的映射。但是,现有的自动后编辑使用基于深度学习的序列到序列方法,虽然可以完成翻译后编辑工作,但是准确性较低,编辑效果较差。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种机器翻译自动后编辑方法及装置。本专利技术实施例提供一种机器翻译自动后编辑方法,包括:获取目标源语言句子和目标机器翻译草稿;将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对 ...
【技术保护点】
1.一种机器翻译自动后编辑方法,其特征在于,包括:/n获取目标源语言句子和目标机器翻译草稿;/n将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;/n其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。/n
【技术特征摘要】
1.一种机器翻译自动后编辑方法,其特征在于,包括:
获取目标源语言句子和目标机器翻译草稿;
将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
2.根据权利要求1所述的机器翻译自动后编辑方法,其特征在于,在将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子之前,本实施例所述方法还包括:
构建包含拷贝标签的训练集;
基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
3.根据权利要求2所述的机器翻译自动后编辑方法,其特征在于,所述构建包含拷贝标签的训练集,包括:
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;
利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;
将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;
构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。
4.根据权利要求3所述的机器翻译自动后编辑方法,其特征在于,所述基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型,包括:
将SRC和MT转换为词嵌入序列;
将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;
将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ...
【专利技术属性】
技术研发人员:刘洋,黄轩成,栾焕博,孙茂松,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。