模型训练及数据处理方法、装置、电子设备、存储介质制造方法及图纸

技术编号:31225831 阅读:21 留言:0更新日期:2021-12-08 09:30
本公开实施例公开了一种模型训练及数据处理方法、装置、电子设备、存储介质,方法包括:获得训练数据,所述训练数据包括第一原文、第一译文和第一译后参考译文;利用所述训练数据对译后编辑模型进行训练:使用预训练的语言模型作为所述译后编辑模型的编码器;所述编码器的初始参数为所述预训练的语言模型的参数;将所述训练数据经过所述编码器进入所述译后编辑模型的解码器;根据所述解码器的输出对所述译后编辑模型的参数进行调整。本公开利用大量的预训练数据学习原文及其对应的译文之间的语义知识,并将该语义知识迁移到译后编辑模型的训练过程中,使得译后编辑模型更具有鲁棒性,同时还解决了训练数据这类三元组获取成本较高的问题。较高的问题。较高的问题。

【技术实现步骤摘要】
模型训练及数据处理方法、装置、电子设备、存储介质


[0001]本公开涉及计算机
,具体涉及一种模型训练及数据处理方法、装置、电子设备、存储介质。

技术介绍

[0002]机器翻译是指利用计算机程序将语句从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的技术。目前较为常用的神经网络架构Transformer是一个完全基于注意力机制(attention-based)的编码器-解码器(encoder-decoder)模型。其主要思想是将待翻译的语句(在下文中统称为原文)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对原文的向量表示进行解码,翻译成为其对应的译文(在下文中统称为译文。
[0003]为了在机器翻译基础上得到更好的翻译效果,通常会由相关人员对机器翻译的译文进行译后编辑,但是这种方式将会消耗大量的人力成本。因此,如何节省人工成本以及提高译后编辑的效率是机器翻译领域所要解决的主要技术问题之一。

技术实现思路

[0004]本公开实施例提供一种模型训练及数据处理方法、装置、电子设备、存储介质。
[0005]第一方面,本公开实施例中提供了一种模型训练方法,包括:
[0006]获得训练数据,所述训练数据包括第一原文、第一译文和第一译后参考译文;
[0007]利用所述训练数据对译后编辑模型进行训练:
[0008]使用预训练的语言模型作为所述译后编辑模型的编码器;所述编码器的初始参数为所述预训练的语言模型的参数;
[0009]将所述训练数据经过所述编码器进入所述译后编辑模型的解码器;
[0010]根据所述解码器的输出对所述译后编辑模型的参数进行调整。
[0011]进一步地,所述将所述训练数据经过所述编码器进入所述译后编辑模型的解码器,包括:
[0012]所述编码器利用自注意力机制对所述第一原文进行处理,得到第一原文特征;
[0013]所述编码器利用注意力机制对所述第一原文特征和所述第一译文进行处理,得到第一联合特征;
[0014]将所述第一译后参考译文、所述第一原文特征和所述第一联合特征输入所述解码器。
[0015]进一步地,所述根据所述解码器的输出对所述译后编辑模型的参数进行调整,包括:
[0016]所述解码器利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理,得到预测联合特征;
[0017]利用所述预测联合特征预测所述第一译后参考译文对应的目标预测结果;
[0018]利用所述目标预测结果对所述译后编辑模型的参数进行调整。
[0019]进一步地,所述利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理,得到预测联合特征,包括:
[0020]利用注意力机制对所述第一联合特征和第一原文特征中的其中之一、所述第一译后参考译文进行处理并输出第一中间特征;
[0021]利用注意力机制对所述第一联合特征和第一原文特征中的其中之另一、所述第一中间特征进行编码后输出所述预测联合特征。
[0022]进一步地,所述方法还包括:
[0023]获得预训练数据,所述预训练数据包括第二原文及其对应的第二译文;
[0024]利用自注意力机制对所述第二原文进行处理,得到第二原文特征;
[0025]利用注意力机制对第二原文特征和掩盖了部分译文内容的第二译文进行处理,得到第二联合特征;
[0026]利用所述第二联合特征预测所述第二译文中被掩盖了的部分译文内容,得到译文预测结果;
[0027]根据所述译文预测结果对所述语言模型的参数进行调整。
[0028]第二方面,本公开实施例中提供了一种数据处理方法,包括:
[0029]获取待处理的原文以及所述原文对应的机器翻译的译文;
[0030]将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文;所述译后编辑模型利用第一方面所述的方法训练得到。
[0031]第三方面,本公开实施例中提供了一种数据处理方法,包括:
[0032]获取待处理的原文以及所述原文对应的机器翻译的译文;
[0033]将所述原文、所述译文输入至译后编辑模型,所述译后编辑模型包括编码器和解码器;
[0034]所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征,以及利用注意力机制对所述第三原文特征和所述译文进行处理并输出第三联合特征;
[0035]所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征,以及利用所述第四联合特征确定所述候选信息是否为所述译文的目标译后参考译文;
[0036]输出所述目标译后参考译文。
[0037]进一步地,所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征,包括:
[0038]利用注意力机制对所述第三原文特征、第三联合特征的其中之一、所述候选信息进行处理后输出第二中间特征;
[0039]利用注意力机制对所述第三原文特征、第三联合特征的其中之另一、所述第二中间特征进行处理并输出所述第四联合特征。
[0040]第四方面,本专利技术实施例中提供了一种模型训练装置,包括:
[0041]第一获取模块,被配置为获得训练数据,所述训练数据包括第一原文、第一译文和第一译后参考译文;
[0042]第一训练模块,被配置为利用所述训练数据对译后编辑模型进行训练;所述第一
训练模块被实施为:
[0043]使用预训练的语言模型作为所述译后编辑模型的编码器;所述编码器的初始参数为所述预训练的语言模型的参数;
[0044]将所述训练数据经过所述编码器进入所述译后编辑模型的解码器;
[0045]根据所述解码器的输出对所述译后编辑模型的参数进行调整。
[0046]第五方面,本专利技术实施例中提供了一种数据处理装置,包括:
[0047]第三获取模块,被配置为获取待处理的原文以及所述原文对应的机器翻译的译文;
[0048]第四获取模块,被配置为将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文;所述译后编辑模型利用第四方面所述的装置训练得到。
[0049]第六方面,本专利技术实施例中提供了一种数据处理装置,包括:
[0050]第五获取模块,被配置为获取待处理的原文以及所述原文对应的机器翻译的译文;
[0051]输入模块,被配置为将所述原文、所述译文输入至译后编辑模型,所述译后编辑模型包括编码器和解码器;
[0052]第三处理模块,被配置为在所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征,以及利用注意力机制对所述第三原文特征和所述译文进行处理并输出第三联合特征;
[0053]第四处理模块,被配置为在所述解码器利用注意力机制对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其中,包括:获得训练数据,所述训练数据包括第一原文、第一译文和第一译后参考译文;利用所述训练数据对译后编辑模型进行训练:使用预训练的语言模型作为所述译后编辑模型的编码器;所述编码器的初始参数为所述预训练的语言模型的参数;将所述训练数据经过所述编码器进入所述译后编辑模型的解码器;根据所述解码器的输出对所述译后编辑模型的参数进行调整。2.根据权利要求1所述的方法,所述将所述训练数据经过所述编码器进入所述译后编辑模型的解码器,包括:所述编码器利用自注意力机制对所述第一原文进行处理,得到第一原文特征;所述编码器利用注意力机制对所述第一原文特征和所述第一译文进行处理,得到第一联合特征;将所述第一译后参考译文、所述第一原文特征和所述第一联合特征输入所述解码器。3.根据权利要求2所述的方法,所述根据所述解码器的输出对所述译后编辑模型的参数进行调整,包括:所述解码器利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理,得到预测联合特征;利用所述预测联合特征预测所述第一译后参考译文对应的目标预测结果;利用所述目标预测结果对所述译后编辑模型的参数进行调整。4.根据权利要求3所述的方法,所述利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理,得到预测联合特征,包括:利用注意力机制对所述第一联合特征和第一原文特征中的其中之一、所述第一译后参考译文进行处理并输出第一中间特征;利用注意力机制对所述第一联合特征和第一原文特征中的其中之另一、所述第一中间特征进行编码后输出所述预测联合特征。5.根据权利要求1-4中任一项所述的方法,还包括:获得预训练数据,所述预训练数据包括第二原文及其对应的第二译文;利用自注意力机制对所述第二原文进行处理,得到第二原文特征;利用注意力机制对第二原文特征和掩盖了部分译文内容的第二译文进行处理,得到第二联合特征;利用所述第二联合特征预测所述第二译文中被掩盖了的部分译文内容,得到译文预测结果;根据所述译文预测结果对所述语言模型的参数进行调整。6.一种数据处理方法,其中,包括:获取待处理的原文以及所述原文对应的机器翻译的译文;将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文;所述译后编辑模型利用权利要求1-5任一项所述的方法训练得到。7.一种数据处理方法,其中,包括:获取待处理的原文以及所述原文对应的机器翻译的译文;
将所述原文、所述译文输入至译后编辑模型,所述译后编辑模型包括编码器和解码器;所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征,以及利用...

【专利技术属性】
技术研发人员:汪嘉怿赵宇张昱琪骆卫华施杨斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1