当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于预训练编码网络的机器翻译方法及装置制造方法及图纸

技术编号:35443940 阅读:22 留言:0更新日期:2022-11-03 11:56
本发明专利技术提供一种基于预训练编码网络的机器翻译方法及装置,其中的机器翻译方法包括:获取目标语言数据集以及双语平行数据集;基于机器翻译任务和降噪自编码任务,利用目标语言数据集和双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型;原始机器翻译模型包括预训练编码网络、适配网络和解码网络;将待翻译源语言数据输入至机器翻译模型,得到机器翻译结果。该方法并未使用伪平行数据,不会存在现有技术中噪声引入的问题,并且,在编码网络和解码网络的基础上引入了适配网络,通过充分有效地利用大规模单语数据,大大提升了机器翻译的翻译质量和效率。机器翻译的翻译质量和效率。机器翻译的翻译质量和效率。

【技术实现步骤摘要】
一种基于预训练编码网络的机器翻译方法及装置


[0001]本专利技术涉及机器翻译
,尤其涉及一种基于预训练编码网络的机器翻译方法及装置。

技术介绍

[0002]随着经济的发展,国际间的交流日益深入,人们对语言间翻译的需求也与日俱增。机器翻译作为能够自动将不同语种间进行翻译的技术,起到了越来越重要的作用。
[0003]目前机器翻译模型的训练离不开大规模且高质量的双语平行数据,双语平行数据通常是请人工译员进行翻译得到的,构建大规模的双语平行数据需要耗费巨大的人力资源和时间成本,往往难以获取。作为对比,单语数据不仅数量庞大,而且极其容易获取,因此,如何利用单语数据提升机器翻译的翻译性能是一个值得关注的问题。
[0004]传统机器翻译通常会使用前向翻译(Forward Translation)和反向翻译技术(Backward Translation),即采用已有的机器翻译模型将源端或目标端数据翻译为另一端数据,以构成伪平行数据,然后以伪平行数据和真正的平行数据作为训练数据集,对机器翻译模型进行训练,从而将训练好的机器翻译模型投入使用。
[0005]但是,上述前向翻译和反向翻译技术存在两个方面的不足:一方面,由于伪平行数据的构建依赖于已有机器翻译模型,而机器翻译模型的翻译质量会受很多因素影响,从而不可避免地会引入噪声;另一方面,机器翻译模型的翻译速度较慢,难以在较短的时间内将大量的单语数据进行翻译,限制了数据的使用规模。
[0006]因此,现有技术中无法充分高效地利用单语数据提升机器翻译的翻译质量的问题,是机器翻译
亟待解决的技术问题。

技术实现思路

[0007]本专利技术提供一种基于预训练编码网络的机器翻译方法及装置,用以克服现有技术中无法充分高效地利用单语数据提升机器翻译的翻译质量的缺陷,有效提升了机器翻译的翻译质量和效率。
[0008]一方面,本专利技术提供一种基于预训练编码网络的机器翻译方法,包括:获取目标语言数据集以及双语平行数据集;基于机器翻译任务和降噪自编码任务,利用所述目标语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型;将待翻译源语言数据输入至所述机器翻译模型,得到机器翻译结果。
[0009]进一步地,所述原始机器翻译模型包括预训练编码网络,所述预训练编码网络包括源语言预训练编码网络和目标语言预训练编码网络;利用所述目标语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,之前还包括:获取源语言数据集,并利用所述源语言数据集对源语言编码网络进行训练,得到源语言预训练编码网络;利用所述目标语言数据集对目标语言编码网络进行训练,得到目标语言预训练编码网络。
[0010]进一步地,所述原始机器翻译模型包括适配网络和解码网络;所述利用所述目标
语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型,包括:根据所述目标语言数据集和所述双语平行数据集,通过预设损失函数训练所述适配网络和所述解码网络。
[0011]进一步地,所述预设损失函数包括机器翻译损失函数和降噪自编码损失函数;所述机器翻译损失函数的公式如下:
[0012]L
MT


log P(y|x)
[0013]其中,x为所述双语平行数据集中的源语言数据,y为所述双语平行数据集中的目标语言数据;
[0014]所述降噪自编码损失函数的公式如下:
[0015]L
DAE


log P(y|y

)
[0016]其中,y为所述目标语言数据集中的目标语言单语数据,y

为将所述目标语言单语数据中预设数量词汇用特殊词汇替换后得到的目标语言噪声数据。
[0017]进一步地,所述适配网络由多头自注意力层、编码器

适配器多头注意力层和前馈网络层构成。
[0018]进一步地,所述解码网络由遮掩自注意力层、适配器

解码器注意力层和前馈网络层构成。
[0019]第二方面,本专利技术还提供一种基于预训练编码网络的机器翻译装置,包括:数据获取模块,用于获取源语言数据集、目标语言数据集以及双语平行数据集;模型训练模块,用于基于机器翻译任务和降噪自编码任务,利用所述目标语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型;语言翻译模块,用于将待翻译源语言数据输入至所述机器翻译模型,得到机器翻译结果。
[0020]进一步地,所述原始机器翻译模型包括预训练编码网络,所述预训练编码网络包括源语言预训练编码网络和目标语言预训练编码网络;所述基于预训练编码网络的机器翻译装置还包括:预训练模块,用于获取源语言数据集,并利用所述源语言数据集对源语言编码网络进行训练,得到源语言预训练编码网络;利用所述目标语言数据集对目标语言编码网络进行训练,得到目标语言预训练编码网络。
[0021]进一步地,所述原始机器翻译模型包括适配网络和解码网络;所述模型训练模块还用于根据所述目标语言数据集和所述双语平行数据集,通过预设损失函数训练所述适配网络和所述解码网络。
[0022]进一步地,所述模型训练模块还包括损失函数模块,所述损失函数模块通过预设损失函数训练所述适配网络和所述解码网络;所述预设损失函数包括机器翻译损失函数和降噪自编码损失函数;所述机器翻译损失函数的公式如下:
[0023]L
MT


log P(y|x)
[0024]其中,x为所述双语平行数据集中的源语言数据,y为所述双语平行数据集中的目标语言数据;
[0025]所述降噪自编码损失函数的公式如下:
[0026]L
DAE


log P(y|y

)
[0027]其中,y为所述目标语言数据集中的目标语言单语数据,y

为将所述目标语言单语数据中预设数量词汇用特殊词汇替换后得到的目标语言噪声数据。
[0028]进一步地,所述适配网络由多头自注意力层、编码器

适配器多头注意力层和前馈网络层构成。
[0029]进一步地,所述解码网络由遮掩自注意力层、适配器

解码器注意力层和前馈网络层构成。
[0030]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的基于预训练编码网络的机器翻译方法的步骤。
[0031]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的基于预训练编码网络的机器翻译方法的步骤。
[0032]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的基于预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练编码网络的机器翻译方法,其特征在于,包括:获取目标语言数据集以及双语平行数据集;基于机器翻译任务和降噪自编码任务,利用所述目标语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型;将待翻译源语言数据输入至所述机器翻译模型,得到机器翻译结果。2.根据权利要求1所述的基于预训练编码网络的机器翻译方法,其特征在于,所述原始机器翻译模型包括预训练编码网络,所述预训练编码网络包括源语言预训练编码网络和目标语言预训练编码网络;利用所述目标语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,之前还包括:获取源语言数据集,并利用所述源语言数据集对源语言编码网络进行训练,得到源语言预训练编码网络;利用所述目标语言数据集对目标语言编码网络进行训练,得到目标语言预训练编码网络。3.根据权利要求2所述的基于预训练编码网络的机器翻译方法,其特征在于,所述原始机器翻译模型包括适配网络和解码网络;所述利用所述目标语言数据集和所述双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型,包括:根据所述目标语言数据集和所述双语平行数据集,通过预设损失函数训练所述适配网络和所述解码网络。4.根据权利要求3所述的基于预训练编码网络的机器翻译方法,其特征在于,所述预设损失函数包括机器翻译损失函数和降噪自编码,损失函数;所述机器翻译损失函数的公式如下:L
MT


log P(y|x)其中,x为所述双语平行数据集中的源语言数据,y为所述双语平行数据集中的目标语言数据;所述降噪自编码损失函数的公式如下:L
DAE


log P(y|y

【专利技术属性】
技术研发人员:刘洋孙茂松谭知行张慧盟
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1