当前位置: 首页 > 专利查询>新疆大学专利>正文

多向循环神经网络机器翻译模型训练方法与装置制造方法及图纸

技术编号:29098724 阅读:29 留言:0更新日期:2021-06-30 10:10
本发明专利技术公开了一种多向循环神经网络机器翻译模型训练方法与装置,涉及机器翻译领域,该多向循环神经网络机器翻译模型包括初始翻译、循环源端翻译和循环目标端翻译三部分组成,在训练时,利用平行数据的特点,在训练阶段通过翻译模型重新生成源端句子序列和目标端句子序列并通过计算重构生成的句子序列的损失来优化初始翻译模型的部分参数来提升初始翻译模型中的性能,针对不同重构得到的句子序列的上下文向量与初始翻译模型输出的源端句子上下文向量或者目标端句子上下文向量计算相似度。相似度。相似度。

【技术实现步骤摘要】
多向循环神经网络机器翻译模型训练方法与装置


[0001]本专利技术涉及机器翻译领域,特别涉及一种多向循环神经网络机器翻译模型训练方法与装置。

技术介绍

[0002]目前翻译模型的训练方案是为每一个句子提供真实的目标序列,利用交叉熵损失的方式将生成的字符的概率分布逼近真实目标句子中字符的概率分布,之后利用各种搜索策略对得到字符的概率分布进行处理来得到目标端的句子。然而通过这种方法得到的句子所包含的语义与解码器预测的特征之间存在偏差。除此之外,数据量的大小、数据中包含的噪声以及模型建模的能力,都可能使模型无法完全适合训练数据导致模型翻译的目标句子所包含的语义与真实目标句子所包含的语义存在差异。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种多向循环神经网络机器翻译模型训练方法与装置,采用了transformer翻译模型,通过多个翻译模型来评价初始翻译模型输出结果,并利用评价结果来提升翻译模型的性能。
[0004]为实现上述目的,本专利技术提供以下的技术方案:
[0005]该多向循环神经网络机器翻译模型包括初始翻译、循环源端翻译和循环目标端翻译三部分组成,在训练时,利用平行数据的特点,在训练阶段通过翻译模型重新生成源端句子序列和目标端句子序列并通过计算重构生成的句子序列的损失来优化初始翻译模型的部分参数来提升初始翻译模型中的性能,针对不同重构得到的句子序列的上下文向量与初始翻译模型输出的源端句子上下文向量或者目标端句子上下文向量计算相似度。
[0006]该多向循环神经网络机器翻译模型训练方法包括如下步骤:
[0007](1)对平行数据进行预处理:分词、bpe切分;
[0008](2)利用处理好的数据对本专利技术提出的模型进行训练;
[0009](3)对于需要翻译的源端文本进行处理后,输入到翻译模型中可以得到翻译的结果。
[0010]采用以上技术方案的有益效果是:该多向循环神经网络机器翻译模型训练方法与装置提出的模型比transformer模型的在低资源语言对汉维、维汉、汉英和英汉上有至少1个bleu的提升。对于资源比较丰富的资源,如英德翻译任务上有0.5个bleu的提升。在俄语到英语上有1个bleu的提升。通过一共多个翻译模型来评价初始翻译模型输出结果,并利用评价结果来提升翻译模型的性能。
附图说明
[0011]下面结合附图对本专利技术的具体实施方式作进一步详细的描述。
[0012]图1是该多向循环神经网络机器翻译模型训练方法与装置的结构图;
[0013]图2是该多向循环神经网络机器翻译模型训练方法与装置的结构图。
具体实施方式
[0014]下面结合附图详细说明本专利技术多向循环神经网络机器翻译模型训练方法与装置的优选实施方式。
[0015]图1和图2出示本专利技术多向循环神经网络机器翻译模型训练方法与装置的具体实施方式:
[0016]结合图1和图2,该多向循环神经网络机器翻译模型包括初始翻译、循环源端翻译和循环目标端翻译三部分组成,在训练时,利用平行数据的特点,在训练阶段通过翻译模型重新生成源端句子序列和目标端句子序列并通过计算重构生成的句子序列的损失来优化初始翻译模型的部分参数来提升初始翻译模型中的性能,针对不同重构得到的句子序列的上下文向量与初始翻译模型输出的源端句子上下文向量或者目标端句子上下文向量计算相似度。
[0017]该多向循环神经网络机器翻译模型训练方法包括如下步骤:
[0018](1)对平行数据进行预处理:分词、bpe切分;
[0019](2)利用处理好的数据对本专利技术提出的模型进行训练;
[0020](3)对于需要翻译的源端文本进行处理后,输入到翻译模型中可以得到翻译的结果。
[0021]该多向循环神经网络机器翻译模型训练方法与装置提出的模型比transformer模型的在低资源语言对汉维、维汉、汉英和英汉上有至少1个bleu的提升。对于资源比较丰富的资源,如英德翻译任务上有0.5个bleu的提升。在俄语到英语上有1个bleu的提升。通过一共多个翻译模型来评价初始翻译模型输出结果,并利用评价结果来提升翻译模型的性能。
[0022]以上的仅是本专利技术的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本专利技术创造构思的前提下,还可以做出若干变形和改进,这些都属于本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多向循环神经网络机器翻译模型训练方法与装置,其特征在于:所述多向循环神经网络机器翻译模型包括初始翻译、循环源端翻译和循环目标端翻译三部分组成,在训练时,利用平行数据的特点,在训练阶段通过翻译模型重新生成源端句子序列和目标端句子序列并通过计算重构生成的句子序列的损失来优化初始翻译模型的部分参数来提升初始翻译模型中的性能,针对不同重...

【专利技术属性】
技术研发人员:艾山
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1