机器翻译后编辑方法及系统技术方案

技术编号:28559975 阅读:87 留言:0更新日期:2021-05-25 17:54
本发明专利技术提供一种机器翻译后编辑方法及系统,包括:根据原双语平行语料库中的原文和原文的第一译文对机器翻译模型进行训练;根据单语语料库中的原文和基于机器翻译引擎预先获取的单语语料库中原文的译文对训练后的机器翻译模型进行再次训练;将原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出原双语平行语料库中原文的第二译文,并根据第二译文、原双语平行语料库中的原文和原文的第一译文对后编辑模型进行训练;将待翻译原文和基于机器翻译引擎预先获取的待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。本发明专利技术实现后编辑模型可以快速学习到第一译文与第二译文之间的关联关系,且收敛速度快和编辑精度高。

【技术实现步骤摘要】
机器翻译后编辑方法及系统
本专利技术涉及机器翻译
,尤其涉及一种机器翻译后编辑方法及系统。
技术介绍
后编辑是一种非常经典的人工翻译的工作模式,主要是给定待翻译的原文,调取机器翻译的结果,译员在此基础上进行修改和润色,进而提升翻译的质量。目前大多数的翻译辅助工具都提供了这种翻译模式的支持。后编辑的优势在于,其提供了参考翻译,以免译员从头开始进行翻译,以此减少译员的工作负担。然而,在实际工作中,当机器翻译的输出与期望的翻译结果差距较大时,后编辑模式往往会导致译员去做很多枯燥无味的修改编辑。这反而进一步增加了译员的工作负担。在此背景下,自动后编辑模型构建技术在辅助翻译中的应用越来越多。将待翻译的原文和机器翻译的译文输入自动后编辑模型,可以输出自动后编辑的译文。通过自动后编辑可以更进一步减少与译员所期望的译文的差距,减少译员的工作量。但是对自动后编辑模型进行训练时,需要高质量且数量众多的样本数据,该样本数据为三元平行语料(原文,机翻译文,后编辑译文)。现有的获取样本数据的方法,在二元平行语料(原文,人工编辑的译文)的基础上,通过调用商用机器翻译引擎来翻译原文,以获取相应的机器翻译的译文,并与二元平行语料合成三元平行语料。这种方法直接基于商用机器翻译引擎来翻译原文,使得机器翻译的译文和后编辑的译文之间缺少联系,即人工编辑的译文并不是在机翻译文的基础上进行人工修改获得的。因此,采用这种方式获取的样本数据对后编辑模型进行训练时,无法准确建立机器翻译的译文与自动后编辑的译文之间的关系,不仅自动后编辑模型训练的效率低,且性能差,使用该自动后编辑模型对待编辑机器翻译译文进行自动后编辑时,难以获取准确的后编辑译文。
技术实现思路
本专利技术提供一种机器翻译后编辑方法及系统,用以解决现有技术中获取的样本数据无法准确建立机器翻译的译文与自动后编辑的译文之间的关系,导致训练后的性能差,难以对待编辑机器翻译的译文进行准确编辑的缺陷,实现对机器翻译的译文进行准确的自动后编辑。本专利技术提供一种机器翻译后编辑方法,包括:将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。根据本专利技术提供的一种机器翻译后编辑方法,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。根据本专利技术提供的一种机器翻译后编辑方法,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。根据本专利技术提供的一种机器翻译后编辑方法,所述将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,包括:计算所述第一译文和第二译文之间的编辑距离、BLEU值和TER值;判断所述编辑距离、BLEU值和TER值是否均在预设范围内。根据本专利技术提供的一种机器翻译后编辑方法,所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:在所述原双语平行语料库中每条原文的起始位置添加第一语言标签;在所述原双语平行语料库中每条原文的第一译文的起始位置添加第二语言标签;将所述添加第一语言标签的原文作为第一样本,将所述添加第二语言标签的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。根据本专利技术提供的一种机器翻译后编辑方法,所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:对所述原双语平行语料库中的原文进行分词处理;基于词嵌入算法将所述原双语平行语料库中原文的词转换为词向量;将所述原双语平行语料库中原文的词的词向量作为所述第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。根据本专利技术提供的一种机器翻译后编辑方法,所述词嵌入算法为Skip-Gram算法。本专利技术还提供一种机器翻译后编辑系统,包括:第一训练模块,用于将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;第二训练模块,用于将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;第三训练模块,用于将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;编辑模块,用于将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述机器翻译后编辑方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述机器翻译后编辑方法的步骤。本专利技术提供的机器翻译后编辑方法及系统,通过一方面采用原双语平行语料库中的原文和原文的第一译文对机器翻译模型进行训练,以使机器翻译模型学习到原文和第一译文之间的映射关系,本文档来自技高网
...

【技术保护点】
1.一种机器翻译后编辑方法,其特征在于,包括:/n将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;/n将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;/n将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;/n将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。/n

【技术特征摘要】
1.一种机器翻译后编辑方法,其特征在于,包括:
将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。


2.根据权利要求1所述的机器翻译后编辑方法,其特征在于,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;
将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。


3.根据权利要求1所述的机器翻译后编辑方法,其特征在于,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。


4.根据权利要求3所述的机器翻译后编辑方法,其特征在于,所述将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,包括:
计算所述第一译文和第二译文之间的编辑距离、BLEU值和TER值;
判断所述编辑距离、BLEU值和TER值是否均在预设范围内。


5.根据权利要求1-4任一所述的机器翻译后编辑方法,其特征在于,所述将原双语平行语料库中的原文作为第一...

【专利技术属性】
技术研发人员:张睦
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1