一种翻译模型的训练方法及装置制造方法及图纸

技术编号:25836645 阅读:28 留言:0更新日期:2020-10-02 14:17
本申请提供一种翻译模型的训练方法及装置,所述翻译模型包括编码器和解码器,所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,和/或,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数,其中所述方法包括:接收训练语句和训练语句对应的目标语句;获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量;将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量,并根据所述解码向量计算损失值;根据所述损失值调整所述翻译模型的参数,直至达到训练停止条件。

【技术实现步骤摘要】
一种翻译模型的训练方法及装置
本申请涉及人工智能
,特别涉及一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质。
技术介绍
随着计算机运算能力的提升,神经网络的应用越来越广泛,例如构建翻译模型,以实现待翻译语句到目标语句的转换。翻译模型是一种端到端的网络结构,包括编码器和解码器,编码器包括L个编码层,解码器包括L个解码层,其中,编码器对接收的待翻译语句进行词编码处理获得编码结果,并将所述编码结果输入至解码器中,解码器同时接收解码器的输入和编码器的编码结果进行解码获得解码结果,在翻译模型进做前向(Forward)时,模型的参数不参与更新,在模型计算损失值做后向运算(BackPropagation)时,会对整个模型中每个解码层和编码层中的参数进行更新,在参数更新过程中,当更新第k层解码器或编码器的参数时,第k层参数只受到损失值和第k-L层参数的影响,不受第1-(k-1)层参数的影响,因此导致翻译模型的参数更新不充分,翻译模型的训练时间较长,翻译模型的BLEU分数较低。因此,如何能使翻译模型的训练效果更好、时间更短,就成为技术人员亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供了一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种翻译模型的训练方法,所述翻译模型包括编码器和解码器,所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,和/或,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数,m和n均为大于1的整数;所述翻译模型的训练方法包括:接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量;将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量,并根据所述解码向量计算损失值;根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。可选的,所述编码器还包括第一嵌入层,所述解码器还包括第二嵌入层;获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量,包括:将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量;将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。可选的,根据所述解码向量计算损失值,包括:将所述解码向量与预设的向量验证集进行对比,得到所述解码向量的损失值。可选的,根据所述损失值调整所述翻译模型的参数,包括:将所述损失值反向传播依次更新每个所述解码层的解码参数和每个所述编码层的编码参数。可选的,在所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数的情况下,所述编码器的前m个编码层与后m个编码层一一对应地共享编码参数,所述解码器的前n个解码层与后n个解码层一一对应地共享解码参数。可选的,在所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数的情况下,所述编码器的前m个编码层与后m个编码层一一对应地共享编码参数。可选的,在所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数的情况下,所述解码器的前n个解码层与后n个解码层一一对应地共享解码参数。可选的,将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量,包括:将所述编码器中每个编码层输出的编码层向量根据预设的权重生成编码向量。根据本申请实施例的第二方面,提供了一种翻译方法,包括:获取待翻译语句;将所述待翻译语句输入至翻译模型的编码器中进行编码,获得所述待翻译语句对应的编码向量,其中,所述翻译模型是通过上述任意一项翻译模型的训练方法训练得到的;将所述编码向量输入至所述翻译模型的解码器中进行解码,获得所述待翻译语句对应的目标语句。根据本申请实施例的第三方面,提供了一种翻译模型的训练装置,所述翻译模型包括编码器和解码器,所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,和/或,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数,m和n均为大于1的整数;所述翻译模型的训练装置包括:接收模块,被配置为接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;获取模块,被配置为获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;编码模块,被配置为将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量;解码模块,被配置为将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量,并根据所述解码向量计算损失值;训练模块,被配置为根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。根据本申请实施例的第四方面,提供了一种翻译模型的训练装置,包括:获取模块,被配置为获取待翻译语句;编码模块,被配置为将所述待翻译语句输入至翻译模型的编码器中进行编码,获得所述待翻译语句对应的编码向量,其中,所述翻译模型是通过上述任意一项翻译模型的训练方法训练得到的;解码模块,被配置为将所述编码向量输入至所述翻译模型的解码器中进行解码,获得所述待翻译语句对应的目标语句。根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述翻译模型的训练方法或所述翻译方法的步骤。根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述翻译模型的训练方法或所述翻译方法的步骤。根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述翻译模型的训练方法或所述翻译方法的步骤。本申请实施例中,通过翻译模型的解码层中共享解码参数,编码层中共享编码参数,在翻译模型根据损失值做反向运算更新模型参数时,每个解码层或编码层都会受到其他层的影响,在保证模型参数量不增加的情况下,实现了模型参数的充分更新,提高了训练效率,最终获得性能更好的翻译模型,有效提高翻译模型的BLEU分数。附图说明图1是本申请实施例提供的翻译模型的结构示意图;图2是本申请实施例提供的计算设备的结构框图;图3是本申请实施例提供的翻译模型的训练方法的流程图;图4是本申请实施例提供的更新解码器中各解码层的解码参数的示意图;...

【技术保护点】
1.一种翻译模型的训练方法,其特征在于,所述翻译模型包括编码器和解码器,所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,和/或,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数,m和n均为大于1的整数;/n所述翻译模型的训练方法包括:/n接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;/n获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;/n将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量;/n将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量,并根据所述解码向量计算损失值;/n根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。/n

【技术特征摘要】
1.一种翻译模型的训练方法,其特征在于,所述翻译模型包括编码器和解码器,所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,和/或,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数,m和n均为大于1的整数;
所述翻译模型的训练方法包括:
接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;
获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;
将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量;
将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量,并根据所述解码向量计算损失值;
根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。


2.如权利要求1所述的翻译模型的训练方法,其特征在于,所述编码器还包括第一嵌入层,所述解码器还包括第二嵌入层;
获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量,包括:
将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量;
将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。


3.如权利要求1所述的翻译模型的训练方法,其特征在于,根据所述解码向量计算损失值,包括:
将所述解码向量与预设的向量验证集进行对比,得到所述解码向量的损失值。


4.如权利要求1所述的翻译模型的训练方法,其特征在于,根据所述损失值调整所述翻译模型的参数,包括:
将所述损失值反向传播依次更新每个所述解码层的解码参数和每个所述编码层的编码参数。


5.如权利要求1所述的翻译模型的训练方法,其特征在于,在所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数,所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数的情况下,所述编码器的前m个编码层与后m个编码层一一对应地共享编码参数,所述解码器的前n个解码层与后n个解码层一一对应地共享解码参数。


6.如权利要求1所述的翻译模型的训练方法,其特征在于,在所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数的情况下,所述编码器的前m个编码层与后m个编码层一一对应地共享编码参数。


7.如权利要求1所述的翻译模型的训练方法,其特征在于,在所述解码器包括2n+1个顺次连接的解码层且前n个解码层与...

【专利技术属性】
技术研发人员:李长亮郭馨泽
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1