【技术实现步骤摘要】
机器翻译后编辑方法及系统
本专利技术涉及机器翻译
,尤其涉及一种机器翻译后编辑方法及系统。
技术介绍
后编辑是一种非常经典的人工翻译的工作模式,主要是给定待翻译的原文,调取机器翻译的结果,译员在此基础上进行修改和润色,进而提升翻译的质量。目前大多数的翻译辅助工具都提供了这种翻译模式的支持。后编辑的优势在于,其提供了参考翻译,以免译员从头开始进行翻译,以此减少译员的工作负担。然而,在实际工作中,当机器翻译的输出与期望的翻译结果差距较大时,后编辑模式往往会导致译员去做很多枯燥无味的修改编辑。这反而进一步增加了译员的工作负担。在此背景下,自动后编辑模型构建技术在辅助翻译中的应用越来越多。将待翻译的原文和机器翻译的译文输入自动后编辑模型,可以输出自动后编辑的译文。通过自动后编辑可以更进一步减少与译员所期望的译文的差距,减少译员的工作量。但是对自动后编辑模型进行训练时,需要高质量且数量众多的样本数据,该样本数据为三元平行语料(原文,机翻译文,后编辑译文)。现有的获取样本数据的方法,在二元平行语料(原文,人工编辑的译文)的基础上,通过调用商用机器翻译引擎来翻译原文,以获取相应的机器翻译的译文,并与二元平行语料合成三元平行语料。这种方法直接基于商用机器翻译引擎来翻译原文,使得机器翻译的译文和后编辑的译文之间缺少联系,即人工编辑的译文并不是在机翻译文的基础上进行人工修改获得的。因此,采用这种方式获取的样本数据对后编辑模型进行训练时,无法准确建立机器翻译的译文与自动后编辑的译文之间的关系,不仅自动后编辑模型训练的 ...
【技术保护点】
1.一种机器翻译后编辑方法,其特征在于,包括:/n将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;/n将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;/n将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;/n将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。/n
【技术特征摘要】
1.一种机器翻译后编辑方法,其特征在于,包括:
将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
2.根据权利要求1所述的机器翻译后编辑方法,其特征在于,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;
将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。
3.根据权利要求1所述的机器翻译后编辑方法,其特征在于,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。
4.根据权利要求3所述的机器翻译后编辑方法,其特征在于,所述将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,包括:
计算所述第一译文和第二译文之间的编辑距离、BLEU值和TER值;
判断所述编辑距离、BLEU值和TER值是否均在预设范围内。
5.根据权利要求1-4任一所述的机器翻译后编辑方法,其特征在于,所述将原双语平行语料库中的原文作为第一...
【专利技术属性】
技术研发人员:张睦,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。