一种机器翻译模型训练方法和装置制造方法及图纸

技术编号：38540950 阅读：22 留言：0更新日期：2023-08-19 17:08

本申请涉及机器翻译技术领域，提供了一种机器翻译模型训练方法和装置。该方法包括：获取包括多个平行语料的训练集；其中平行语料包括具有对应关系的源语言语句序列和目标语言语句序列；将配置特定标记的多个源语言语句序列输入至机器翻译模型，以便获得对应的目标语言翻译结果；依据第一损失函数迭代更新机器翻译模型的参数，直至达到预设的迭代终止条件，以便获得经训练的机器翻译模型；其中第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。本申请在传统损失函数基础上加入语句向量间平行关系并进行正则化处理，提高了模型泛化能力，使模型更好地适用于新语料或复杂语料。复杂语料。复杂语料。

全部详细技术资料下载

【技术实现步骤摘要】
一种机器翻译模型训练方法和装置

[0001]本申请涉及机器翻译
，尤其涉及一种机器翻译模型训练方法和装置。

技术介绍

[0002]早期的机器翻译模型主要是基于规则的机器翻译方法，该方法需要人来书写规则，虽然对少部分句子具有较高的翻译精度，但是对翻译现象的覆盖度有限，而且对规则或者模板中的噪声非常敏感，模型的鲁棒性较差。而基于数据驱动的机器翻译方法不依赖人书写的规则，机器翻译的建模、训练和推断都可以自动地从数据中学习，特别是统计机器翻译很快成了当时机器翻译研究与应用的代表性方法。随着机器学习的进步，特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用，同时也广泛应用于机器翻译。
[0003]现有的机器翻译模型大多数都依赖于大量的有标签的平行语料进行训练。然而该方法在遇到新的语言或者语料时难以获得良好的翻译效果，在翻译语言结构复杂的句子时也往往表现不佳。因此，如何能够使模型在遇到新的语言或者语料时具有更强的泛化能力，提高翻译效果，是亟待解决的技术问题。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种机器翻译模型训练方法、装置、电子设备及计算机可读存储介质，以解决现有技术在遇到新的语言或者语料时泛化能力有限的问题。
[0005]本申请实施例的第一方面，提供了一种机器翻译模型训练方法，包括：获取包括多个平行语料的训练集；其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列；将配置特定标记的多个所述源语言语句序列输入至机器翻译模型，以便获得对应的目标语...

【技术保护点】

【技术特征摘要】
1.一种机器翻译模型训练方法，其特征在于，包括：获取包括多个平行语料的训练集，其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列；将配置特定标记的多个所述源语言语句序列输入至机器翻译模型，以便获得对应的目标语言翻译结果；依据第一损失函数迭代更新所述机器翻译模型的参数，直至达到预设的迭代终止条件，以便获得经训练的所述机器翻译模型，其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。2.根据权利要求1所述的方法，其特征在于，所述机器翻译模型包括编码器和解码器；和/或，将配置特定标记的多个所述源语言语句序列输入至机器翻译模型，以便获得对应的目标语言翻译结果的过程，包括：将配置特定标记的多个所述源语言语句序列输入至所述编码器，分别获得多个对应于所述源语言语句序列的源语言潜向量以及多个对应于所述特定标记的第一标记向量；将多个所述源语言潜向量和多个所述第一标记向量输入至所述解码器，分别获得多个对应的目标语言潜向量以及多个对应于所述目标语言潜向量的第二标记向量。3.根据权利要求2所述的方法，其特征在于，由基于跨语言语句向量差的平行程度的正则项确定所述第一损失函数的过程，包括：依次获得与多个对应于所述平行语料的所述第一标记向量与所述第二标记向量的向量差；确定任意多个所述向量差的平行程度表征，以及获得相应的平行程度正则项；依据所述平行程度正则项，修正所述机器翻译模型的监督损失函数，以便获得所述第一损失函数：；其中为修正因子。4.根据权利要求3所述的方法，其特征在于，确定多个所述向量差的平行程度表征，并获得相应的平行程度正则项，包括：当有个所述向量差时，至少选择其中1个所述向量差...

【专利技术属性】
技术研发人员：蒋敏，暴宇健，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人