System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 神经机器翻译Transformer模型的位置编码方法、系统和电子设备技术方案_技高网

神经机器翻译Transformer模型的位置编码方法、系统和电子设备技术方案

技术编号:41880887 阅读:10 留言:0更新日期:2024-07-02 00:34
本发明专利技术实施例提供一种神经机器翻译Transformer模型的位置编码方法、系统和电子设备。该方法包括:获取源语种的待翻译内容;基于源语种以及要翻译的目标语种,确定神经机器翻译Transformer模型的三角函数位置编码的修改方式,其中,修改方式包括:基于源语种以及目标语种确定对三角函数位置编码内正弦函数的第一修改方式、基于待翻译内容的字数确定对三角函数位置编码的周期的第二修改方式;利用确定的第一修改方式以及第二修改方式对神经机器翻译Transformer模型进行位置编码调整;基于位置编码调整后的神经机器翻译Transformer模型确定待翻译内容在目标语种下的翻译内容。本发明专利技术实施例修改三角函数的方差和周期,提高模型的重排序能力,使模型提高在神经机器翻译任务上的性能。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,尤其涉及一种神经机器翻译transformer模型的位置编码方法、系统和电子设备。


技术介绍

1、transformer模型在序列到序列任务(尤其是机器翻译任务)上取得了显著性能。位置编码是在transformer模型中对序列信息直接进行建模的一种方式。现有技术通常使用以下几种位置编码:

2、循环位置编码:将模型的输入表示(input representation)分为两部分,一部分是单词嵌入和三角函数位置编码组成的原始表示,一部分是经过循环神经网络获得词的循环位置编码信息。这两部分表示合并构成了模型的输入表示。旋转位置编码:通过复数变换,将相对位置信息依赖集成到自注意力层中,能够提升transformer模型架构性能的位置编码方式。

3、在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:

4、循环位置编码和旋转位置编码都是使用另外的位置编码方式,而没有改善原始的三角函数位置编码,从而缺乏对于transformer模型的原始三角函数位置编码对神经机器翻译任务性能表现的分析,也没有改善三角函数位置编码的表现。


技术实现思路

1、为了至少解决现有技术中对位置编码的改进不完善,有进一步提升空间的问题。第一方面,本专利技术实施例提供一种神经机器翻译transformer模型的位置编码方法,包括:

2、获取源语种的待翻译内容;

3、基于所述源语种以及要翻译的目标语种,确定神经机器翻译transformer模型的三角函数位置编码的修改方式,其中,所述修改方式包括:基于所述源语种以及所述目标语种确定对所述三角函数位置编码内正弦函数的第一修改方式、基于所述待翻译内容的字数确定对所述三角函数位置编码的周期的第二修改方式;

4、利用确定的所述第一修改方式以及所述第二修改方式对所述神经机器翻译transformer模型进行位置编码调整;

5、基于位置编码调整后的神经机器翻译transformer模型确定所述待翻译内容在所述目标语种下的翻译内容。

6、第二方面,本专利技术实施例提供一种神经机器翻译transformer模型的位置编码系统,包括:

7、内容获取模块,用于获取源语种的待翻译内容;

8、修改方式确定模块,用于基于所述源语种以及要翻译的目标语种,确定神经机器翻译transformer模型的三角函数位置编码的修改方式,其中,所述修改方式包括:基于所述源语种以及所述目标语种确定对所述三角函数位置编码内正弦函数的第一修改方式、基于所述待翻译内容的字数确定对所述三角函数位置编码的周期的第二修改方式;

9、编码模块,用于利用确定的所述第一修改方式以及所述第二修改方式对所述神经机器翻译transformer模型进行位置编码调整;

10、翻译模块,用于基于位置编码调整后的神经机器翻译transformer模型确定所述待翻译内容在所述目标语种下的翻译内容。

11、第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的神经机器翻译transformer模型的位置编码方法的步骤。

12、第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的神经机器翻译transformer模型的位置编码方法的步骤。

13、第五方面,本专利技术实施例提供一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本专利技术任一实施例的神经机器翻译transformer模型的位置编码方法的步骤。

14、本专利技术实施例的有益效果在于:本方法修改三角函数的方差,可以针对于不同语种对应的提高模型在神经机器翻译任务上的性能,同时修改了三角函数的周期,以提高模型的重排序能力,最后调整三角函数位置编码的添加位置,使模型整体上提高在神经机器翻译任务上的性能。

本文档来自技高网...

【技术保护点】

1.一种神经机器翻译Transformer模型的位置编码方法,包括:

2.根据权利要求1所述的方法,其中,所述修改方式还包括:

3.根据权利要求1所述的方法,其中,所述基于所述源语种以及所述目标语种确定对所述三角函数位置编码内正弦函数的第一修改方式包括:

4.根据权利要求1所述的方法,其中,所述基于所述待翻译内容的字数确定对所述三角函数位置编码的周期的第二修改方式包括:

5.根据权利要求2所述的方法,其中,所述基于所述源语种以及所述目标语种确定出,对所述神经机器翻译Transformer模型内编码器和/或解码器的每一层中添加三角函数位置编码的第三修改方式包括:

6.根据权利要求1所述的方法,其中,所述待翻译内容以及翻译内容包括:文本、语句。

7.一种神经机器翻译Transformer模型的位置编码系统,包括:

8.一种存储介质,其上存储有计算机程序产品,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

9.一种计算机程序产品,其在存储介质上嵌入有指令,所述指令实现权利要求1-6中任一项所述方法的步骤。

10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种神经机器翻译transformer模型的位置编码方法,包括:

2.根据权利要求1所述的方法,其中,所述修改方式还包括:

3.根据权利要求1所述的方法,其中,所述基于所述源语种以及所述目标语种确定对所述三角函数位置编码内正弦函数的第一修改方式包括:

4.根据权利要求1所述的方法,其中,所述基于所述待翻译内容的字数确定对所述三角函数位置编码的周期的第二修改方式包括:

5.根据权利要求2所述的方法,其中,所述基于所述源语种以及所述目标语种确定出,对所述神经机器翻译transformer模型内编码器和/或解码器的每一层中添加三角函数位置编码的第三修改方式包括:

6.根据权利要求1所...

【专利技术属性】
技术研发人员:王瑞郝宏坤
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1