一种机器翻译模型训练方法和装置制造方法及图纸

技术编号:38540950 阅读:12 留言:0更新日期:2023-08-19 17:08
本申请涉及机器翻译技术领域,提供了一种机器翻译模型训练方法和装置。该方法包括:获取包括多个平行语料的训练集;其中平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;将配置特定标记的多个源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;依据第一损失函数迭代更新机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的机器翻译模型;其中第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。本申请在传统损失函数基础上加入语句向量间平行关系并进行正则化处理,提高了模型泛化能力,使模型更好地适用于新语料或复杂语料。复杂语料。复杂语料。

【技术实现步骤摘要】
一种机器翻译模型训练方法和装置


[0001]本申请涉及机器翻译
,尤其涉及一种机器翻译模型训练方法和装置。

技术介绍

[0002]早期的机器翻译模型主要是基于规则的机器翻译方法,该方法需要人来书写规则,虽然对少部分句子具有较高的翻译精度,但是对翻译现象的覆盖度有限,而且对规则或者模板中的噪声非常敏感,模型的鲁棒性较差。而基于数据驱动的机器翻译方法不依赖人书写的规则,机器翻译的建模、训练和推断都可以自动地从数据中学习,特别是统计机器翻译很快成了当时机器翻译研究与应用的代表性方法。随着机器学习的进步,特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用,同时也广泛应用于机器翻译。
[0003]现有的机器翻译模型大多数都依赖于大量的有标签的平行语料进行训练。然而该方法在遇到新的语言或者语料时难以获得良好的翻译效果,在翻译语言结构复杂的句子时也往往表现不佳。因此,如何能够使模型在遇到新的语言或者语料时具有更强的泛化能力,提高翻译效果,是亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种机器翻译模型训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术在遇到新的语言或者语料时泛化能力有限的问题。
[0005]本申请实施例的第一方面,提供了一种机器翻译模型训练方法,包括:获取包括多个平行语料的训练集;其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型;其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
[0006]本申请实施例的第二方面,提供了一种机器翻译模型训练装置,适用于第一方面所述的机器翻译模型训练方法,包括:训练集获取模块,能够获取包括多个平行语料的训练集;其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;目标语言翻译模块,能够将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;机器翻译模型训练模块,能够依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型;其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
[0007]本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在
存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现第一方面所述方法的步骤。
[0008]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
[0009]本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例获取包括多个平行语料的训练集,平行语料包括具有对应关系的源语言语句序列和目标语言语句序列,将配置特定标记的多个源语言语句序列输入至机器翻译模型,获得对应的目标语言翻译结果,依据第一损失函数迭代更新该机器翻译模型的参数,获得经训练的机器翻译模型,该第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。本申请实施例的机器翻译模型训练方法,在传统损失函数基础上加入了语句向量间平行关系并进行正则化处理,提高模型的泛化能力,使得模型能够很好地适用于新语料或者复杂语料。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之一;图2是本申请实施例提供的机器翻译模型结构示意图;图3是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之二;图4是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之三;图5是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之四;图6是本申请实施例提供的机器翻译模型训练的一种实现方式示意图;图7是本申请实施例提供的一种机器翻译模型训练装置的结构示意图;图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0013]下面将结合附图详细说明根据本申请实施例的一种机器翻译模型训练方法、装置、电子设备和计算机可读存储介质。
[0014]如
技术介绍
所述,基于规则的机器翻译实现了翻译的机器化,提出了机器翻译最基本的工作原理及运行模式,但由于词典及转换法则无法更好地应对深层次复杂信息而逐渐退出历史舞台。基于实例的机器翻译技术的诞生及应用取决于互联网的发展,大量免费的平行文本、多语料文本为机器翻译提供了可靠的翻译实例,但由于数据及低资源语种实例的稀缺,最终被基于统计的机器翻译取代。基于统计的机器翻译首次用算法来表示人类大脑的认知过程,在词汇、句法、语义、篇章层面力图应用数学知识逐个得出能被机器处理
的运算公式,可以说是人类在计算机、因特网、认知科学、数学、计算语言学、语料库翻译学等各类领域齐头并进发展后的一种必然。
[0015]但传统的基于统计的机器翻译无法有效突破其在建模上的局限,因而在应对复杂语言问题时显得力不从心。深度学习技术很好地弥补了传统的基于统计的机器翻译在算法及建模上的不足,不仅可以更好地处理深层次语言信息,更能够实现自动的数据存储及技术升级。但由于对神经机器翻译进行数据训练的难度较大,且无法完全依靠机器的自我学习,深度学习技术支持下的神经机器翻译同样面临着诸多挑战。
[0016]基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用,带来性能的飞跃式提升。深度学习方法也被用于机器翻译,在训练算法、先验约束、模型架构、受限词汇量及低资源语种翻译等方面都有长足的进展。现有的机器翻译模型大多数都依赖于大量的有标签的平行语料进行训练,主要问题集中在长句子的处理上。神经机器翻译在调序上更加复杂耗时,因而对其进行数据训练的难度更大。由于编码器在处理长句子时依然会按照固定纬度的向量编码,因而会出现误翻或漏翻的情况。为解决神经机器翻译在长句子处理上的困境,“注意力”机制作为一种可行的解决方案被引入。“注意力”机制通过同时应用正向神经循环和逆向神经循环,将两个循环的端到端“编码

解码”过程链接起来进行向量表示。这一链接可以使解码器在目标语言端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译模型训练方法,其特征在于,包括:获取包括多个平行语料的训练集,其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型,其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。2.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括编码器和解码器;和/或,将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果的过程,包括:将配置特定标记的多个所述源语言语句序列输入至所述编码器,分别获得多个对应于所述源语言语句序列的源语言潜向量以及多个对应于所述特定标记的第一标记向量;将多个所述源语言潜向量和多个所述第一标记向量输入至所述解码器,分别获得多个对应的目标语言潜向量以及多个对应于所述目标语言潜向量的第二标记向量。3.根据权利要求2所述的方法,其特征在于,由基于跨语言语句向量差的平行程度的正则项确定所述第一损失函数的过程,包括:依次获得与多个对应于所述平行语料的所述第一标记向量与所述第二标记向量的向量差;确定任意多个所述向量差的平行程度表征,以及获得相应的平行程度正则项;依据所述平行程度正则项,修正所述机器翻译模型的监督损失函数,以便获得所述第一损失函数:;其中为修正因子。4.根据权利要求3所述的方法,其特征在于,确定多个所述向量差的平行程度表征,并获得相应的平行程度正则项,包括:当有个所述向量差时,至少选择其中1个所述向量差...

【专利技术属性】
技术研发人员:蒋敏暴宇健
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1