一种翻译模型的训练方法及装置制造方法及图纸

技术编号：25836645 阅读：35 留言：0更新日期：2020-10-02 14:17

本申请提供一种翻译模型的训练方法及装置，所述翻译模型包括编码器和解码器，所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数，和/或，所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数，其中所述方法包括：接收训练语句和训练语句对应的目标语句；获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量；将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量，并根据所述解码向量计算损失值；根据所述损失值调整所述翻译模型的参数，直至达到训练停止条件。

全部详细技术资料下载

【技术实现步骤摘要】
一种翻译模型的训练方法及装置
本申请涉及人工智能
，特别涉及一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质。
技术介绍
随着计算机运算能力的提升，神经网络的应用越来越广泛，例如构建翻译模型，以实现待翻译语句到目标语句的转换。翻译模型是一种端到端的网络结构，包括编码器和解码器，编码器包括L个编码层，解码器包括L个解码层，其中，编码器对接收的待翻译语句进行词编码处理获得编码结果，并将所述编码结果输入至解码器中，解码器同时接收解码器的输入和编码器的编码结果进行解码获得解码结果，在翻译模型进做前向（Forward）时，模型的参数不参与更新，在模型计算损失值做后向运算（BackPropagation）时，会对整个模型中每个解码层和编码层中的参数进行更新，在参数更新过程中，当更新第k层解码器或编码器的参数时，第k层参数只受到损失值和第k-L层参数的影响，不受第1-（k-1）层参数的影响，因此导致翻译模型的参数更新不充分，翻译模型的训练时间较长，翻译模型的BLEU分数较低。因此，如何能使翻译模型的训练效果更好、时间更短，就成为技术人员亟待解决的问题。
技术实现思路
有鉴于此，本申请实施例提供了一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面，提供了一种翻译模型的训练方法，所述翻译模型包括编码器和解码器，所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数，和/或，所述解

【技术保护点】
1.一种翻译模型的训练方法，其特征在于，所述翻译模型包括编码器和解码器，所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数，和/或，所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数，m和n均为大于1的整数；/n所述翻译模型的训练方法包括：/n接收训练数据，其中，所述训练数据包括训练语句和训练语句对应的目标语句；/n获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；/n将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量；/n将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量，并根据所述解码向量计算损失值；/n根据所述损失值调整所述翻译模型的参数，继续训练所述翻译模型，直至达到训练停止条件。/n

【技术特征摘要】
1.一种翻译模型的训练方法，其特征在于，所述翻译模型包括编码器和解码器，所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数，和/或，所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数，m和n均为大于1的整数；
所述翻译模型的训练方法包括：
接收训练数据，其中，所述训练数据包括训练语句和训练语句对应的目标语句；
获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；
将所述训练语句向量输入至所述编码器中进行编码处理获得编码向量；
将所述编码向量和所述目标语句向量输入至所述解码器中进行解码处理获得解码向量，并根据所述解码向量计算损失值；
根据所述损失值调整所述翻译模型的参数，继续训练所述翻译模型，直至达到训练停止条件。

2.如权利要求1所述的翻译模型的训练方法，其特征在于，所述编码器还包括第一嵌入层，所述解码器还包括第二嵌入层；
获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量，包括：
将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量；
将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。

3.如权利要求1所述的翻译模型的训练方法，其特征在于，根据所述解码向量计算损失值，包括：
将所述解码向量与预设的向量验证集进行对比，得到所述解码向量的损失值。

4.如权利要求1所述的翻译模型的训练方法，其特征在于，根据所述损失值调整所述翻译模型的参数，包括：
将所述损失值反向传播依次更新每个所述解码层的解码参数和每个所述编码层的编码参数。

5.如权利要求1所述的翻译模型的训练方法，其特征在于，在所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数，所述解码器包括2n+1个顺次连接的解码层且前n个解码层与后n个解码层对应共享解码参数的情况下，所述编码器的前m个编码层与后m个编码层一一对应地共享编码参数，所述解码器的前n个解码层与后n个解码层一一对应地共享解码参数。

6.如权利要求1所述的翻译模型的训练方法，其特征在于，在所述编码器包括2m+1个顺次连接的编码层且前m个编码层与后m个编码层对应共享编码参数的情况下，所述编码器的前m个编码层与后m个编码层一一对应地共享编码参数。

7.如权利要求1所述的翻译模型的训练方法，其特征在于，在所述解码器包括2n+1个顺次连接的解码层且前n个解码层与...

【专利技术属性】
技术研发人员：李长亮，郭馨泽，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人