当前位置: 首页 > 专利查询>澳门大学专利>正文

机器翻译方法、装置及电子设备制造方法及图纸

技术编号:38986485 阅读:10 留言:0更新日期:2023-10-07 10:17
本发明专利技术提供了一种机器翻译方法、装置及电子设备,涉及于自然语言处理及转换技术领域,包括:获取待翻译文本;将待翻译文本输入至第一模型中,输出待翻译文本的第一上下文表示以及第一上下文表示对应的第一概率分布;从第一数据库中检索与第一上下文表示最近邻的第一键值对;基于第一键值对生成第二概率分布;基于第一概率分布和第二概率分布生成待翻译文本的翻译结果,提高了翻译的准确性。通过基于第一模型、第一模型对应的第一训练语料、第二模型和第二模型对应的第二训练语料进行跨语言迁移学习,提高了第二模型的利用率,利用第二模型对第一模型可以使用最近邻检索的性能进一步增强,以及增强了第一模型使用最近邻检索方法的实用性。索方法的实用性。索方法的实用性。

【技术实现步骤摘要】
机器翻译方法、装置及电子设备


[0001]本专利技术涉及自然语言处理及转换
,尤其是涉及一种机器翻译方法、装置及电子设备。

技术介绍

[0002]机器翻译是指运用计算机技术将一种自然语言自动转换为另一种自然语言的过程。随着深度学习技术的发展,神经机器翻译已经成为目前机器翻译的主流方法,在高资源翻译场景已达到相对优越的性能。但神经机器翻译在低资源翻译场景中,性能会发生大幅下降,所以如何通过低资源模型开发过程中进行全面的跨语言迁移学习,进而提高低资源模型的性能和实用性,是当前亟待解决的问题。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种机器翻译方法、装置及电子设备。
[0004]第一方面,本专利技术实施例提供了一种机器翻译方法,包括:获取待翻译文本;将待翻译文本输入至第一模型中,输出待翻译文本的第一上下文表示以及第一上下文表示对应的第一概率分布;第一模型用于第一语言与第二语言的互译;从第一数据库中检索与第一上下文表示最近邻的第一键值对;第一数据库基于第一模型、第一模型对应的第一训练语料、第二模型和第二模型对应的第二训练语料进行跨语言迁移学习的过程中获得,第二模型用于第三语言与第二语言的互译,键值对包括上下文表示和上下文表示对应的词元;基于第一键值对生成第二概率分布;基于第一概率分布和第二概率分布生成待翻译文本的翻译结果。
[0005]在本专利技术较佳的实施例中,上述第一模型、第一模型对应的第一训练语料、第二模型和第二模型对应的第二训练语料进行跨语言迁移学习得到第一数据库,包括:将第一训练语料包括的目标端句子输入至第二模型,输出平行语料;基于第二模型生成第二训练语料包括的词元的第二上下文表示;基于词元和第二上下文表示构成第二数据库;基于第二模型对平行语料进行推理得到第三上下文表示;从第二数据库中提取与第三上下文表示对应的第二键值对;基于第二键值对构成第一数据库。
[0006]在本专利技术较佳的实施例中,上述将第一训练语料包括的目标端句子输入至第二模型,输出平行语料,包括:将目标端句子输入至第二模型,输出对应目标端句子的伪源端句子;合成伪源端句子、目标端句子和第一训练语料包括的源端句子,得到平行语料。
[0007]在本专利技术较佳的实施例中,上述将第二训练语料包括的目标端句子输入至第二模型,输出平行语料之后,包括:初始化第一模型;基于第一训练语料和平行语料训练初始化后的第一模型。
[0008]在本专利技术较佳的实施例中,上述初始化第一模型,包括:将第二模型的嵌入层以外的参数复制到第一模型中;
[0009]对比第二模型的第一词表和第一模型的第二词表;词表用于示出源端句子的词元
和目标端句子的词元的对应关系;若第一词表中的第一词元和第二词表中的第二词元相同,将与第一词元对应的词元复制到第一模型中;将第二词表中的没有被初始化的其余词元基于正态分布随机初始化。
[0010]在本专利技术较佳的实施例中,上述基于第一训练语料和平行语料训练初始化后的第一模型,包括:将第一训练语料输入至初始化后的第一模型中,输出第四上下文表示;将平行语料输入至第二模型中,输出第五上下文表示;基于第四上下文表示和第五上下文表示确定损失函数;基于损失函数训练初始化后的第一模型。
[0011]在本专利技术较佳的实施例中,上述基于第二模型对平行语料进行推理得到第三上下文表示,包括:基于第二模型和平行语料得到第六上下文表示;计算第六上下文表示与第二数据库中每个上下文表示的欧式距离;检索得到欧式距离最近邻的预设个数的第三上下文表示。
[0012]在本专利技术较佳的实施例中,上述基于第一概率分布和第二概率分布生成待翻译文本的翻译结果,包括:通过以下算式基于第一概率分布和第二概率分布生成第三概率分布:本的翻译结果,包括:通过以下算式基于第一概率分布和第二概率分布生成第三概率分布:
[0013]其中,表示第三概率分布,表示第三概率分布,表示第三概率分布,表示第一概率分布,λ表示超参数,表示第二概率分布,表示当前解码步骤的上下文表示,表示当前解码步骤的上下文表示与第一数据库中各个上下文表示的欧氏距离,τ表示温度系数,k
j
和v
j
表示第一键值对;基于第三概率分布确定待翻译文本的翻译结果。
[0014]第二方面,本专利技术实施例还提供一种机器翻译装置,包括:待翻译文本获取模块,用于获取待翻译文本;待翻译文本输入模块,用于将待翻译文本输入至第一模型中,输出待翻译文本的第一上下文表示以及第一上下文表示对应的第一概率分布;第一模型用于第一语言与第二语言的互译;第一数据库检索模块,用于从第一数据库中检索与第一上下文表示最近邻的第一键值对;第一数据库基于第一模型、第一模型对应的第一训练语料、第二模型和第二模型对应的第二训练语料进行跨语言迁移学习的过程中获得,第二模型用于第三语言与第二语言的互译,键值对包括上下文表示和上下文表示对应的词元;第二概率分布生成模块,用于基于第一键值对生成第二概率分布;翻译结果生成模块,用于基于第一概率分布和第二概率分布生成待翻译文本的翻译结果。
[0015]第三方面,本专利技术实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述第一方面的机器翻译方法。
[0016]本专利技术实施例带来了以下有益效果:
[0017]本专利技术实施例提供了一种机器翻译方法、装置及电子设备,通过从第一数据库检索与第一上下文表示最近邻的第一键值对,利用第一键值对生成第二概率分布,再通过第一概率分布和第二概率分布生成待翻译文本的翻译结果,使得翻译结果更准确。通过基于
第一模型、第一模型对应的第一训练语料、第二模型和第二模型对应的第二训练语料进行跨语言迁移学习,提高了第二模型的利用率,利用第二模型对第一模型可以使用最近邻检索的性能进一步增强,以及增强了第一模型使用最近邻检索方法的实用性。
[0018]本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0019]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0020]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的一种机器翻译方法的流程图;
[0022]图2为本专利技术实施例提供的另一种机器翻译方法的流程图;
[0023]图3为本专利技术实施例提供的第一模型和第二模型一致性训练过程的示意图;
[0024]图4为本专利技术实施例提供的跨语言迁移学习过程示意图;
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译方法,其特征在于,包括:获取待翻译文本;将所述待翻译文本输入至第一模型中,输出所述待翻译文本的第一上下文表示以及所述第一上下文表示对应的第一概率分布;所述第一模型用于第一语言与第二语言的互译;从第一数据库中检索与所述第一上下文表示最近邻的第一键值对;所述第一数据库基于所述第一模型、所述第一模型对应的第一训练语料、第二模型和所述第二模型对应的第二训练语料进行跨语言迁移学习的过程中获得,所述第二模型用于第三语言与所述第二语言的互译,键值对包括上下文表示和所述上下文表示对应的词元;基于所述第一键值对生成第二概率分布;基于所述第一概率分布和所述第二概率分布生成所述待翻译文本的翻译结果。2.根据权利要求1所述的方法,其特征在于,基于所述第一模型、所述第一模型对应的第一训练语料、第二模型和所述第二模型对应的第二训练语料进行跨语言迁移学习得到所述第一数据库,包括:将所述第一训练语料包括的目标端句子输入至所述第二模型,输出平行语料;基于所述第二模型生成所述第二训练语料包括的词元的第二上下文表示;基于所述词元和所述第二上下文表示构成第二数据库;基于所述第二模型对所述平行语料进行推理得到第三上下文表示;从所述第二数据库中提取与所述第三上下文表示对应的第二键值对;基于所述第二键值对构成所述第一数据库。3.根据权利要求2所述的方法,其特征在于,所述将所述第一训练语料包括的目标端句子输入至所述第二模型,输出平行语料,包括:将所述目标端句子输入至所述第二模型,输出对应所述目标端句子的伪源端句子;合成所述伪源端句子、所述目标端句子和所述第一训练语料包括的源端句子,得到所述平行语料。4.根据权利要求2所述的方法,其特征在于,在所述将所述第二训练语料包括的目标端句子输入至所述第二模型,输出平行语料之后,所述方法包括:初始化所述第一模型;基于第一训练语料和所述平行语料训练初始化后的第一模型。5.根据权利要求4所述的方法,其特征在于,所述初始化所述第一模型,包括:将所述第二模型的嵌入层以外的参数复制到所述第一模型中;对比所述第二模型的第一词表和所述第一模型的第二词表;词表用于示出源端句子的词元和目标端句子的词元的对应关系;若所述第一词表中的第一词元和所述第二词表中的第二词元相同,将与所述第一词元对应的词元复制到所述第一模型中;将所述第二词表中的没有被初始化的其余词元基于正态分布随机初始化。6.根据权利要求4所述的方法,其特征在于,所述基于第一训练语料和所述平行语...

【专利技术属性】
技术研发人员:黄辉刘树东李昭聪刘学博
申请(专利权)人:澳门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1