一种模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33707156 阅读：85 留言：0更新日期：2022-06-06 08:32

本公开提供了一种模型训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及自然语言处理技术领域。具体实现方案为：获取多组句子对，每组句子对包含源语言句子和目标语言句子；针对各组句子对，确定句子对中包含的源语言句子中的第一语义元素的第一词向量，并确定句子对中包含的目标语言句子中的第二语义元素的第二词向量；利用第一语义元素的第一词向量和第二语义元素的第二词向量，确定句子对对应的样本对；利用句子对和对应的样本对确定第一损失函数，采用第一损失函数对模型进行训练。本公开能够降低模型训练过程的复杂度。程的复杂度。程的复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，尤其涉及自然语言处理

技术介绍

[0002]自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
[0003]机器翻译(MT，Machine Translation)是借助机器之力将一种自然语言(可以称为源语言)文本翻译成另一种自然语言(可以称为目标语言)文本的过程，是NLP的重要研究领域，也是目前互联网常用服务之一。近年来，神经网络模型在机器翻译任务上取得了重大的进步并超越了统计机器翻译，尤其是基于转换器(Transformer)的神经机器翻译(NMT，Neural Machine Translation)模型在大量数据的训练下取得了最好的翻译质量。但是，随着模型愈趋复杂，模型的训练方式也越来越复杂。

技术实现思路

[0004]本公开提供了一种用于模型训练方法、装置、设备以及存储介质。
[0005]根据本公开的一方面，提供了一种模型训练方法，包括：
[0006]获取多组句子对，每组句子对包含源语言句子和目标语言句子；
[0007]针对各组所述句子对，确定所述句子对中包含的所述源语言句子中的第一语义元素的第一词向量，并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量；
[0008]利用所述第一语义元素的第一词向量和所...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，包括：获取多组句子对，每组句子对包含源语言句子和目标语言句子；针对各组所述句子对，确定所述句子对中包含的所述源语言句子中的第一语义元素的第一词向量，并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量；利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量，确定所述句子对对应的样本对；利用所述句子对和对应的样本对确定第一损失函数，采用所述第一损失函数对所述模型进行训练。2.根据权利要求1所述的方法，其中，所述利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量，确定所述句子对对应的样本对，包括：按照预定概率，对所述源语言句子中的各个第一语义元素的第一词向量进行置零，并对所述目标语言句子中的各个第二语义元素的第二词向量进行置零，得到所述样本对；其中，所述样本对包括第一样本和第二样本；所述第一样本包括按照所述预定概率对所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果，所述第二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量进行置零后得到的数据结果。3.根据权利要求2所述的方法，其中，所述预定概率为P
cut
；所述按照预定概率，对所述源语言句子中的各个第一语义元素的第一词向量进行置零，包括：针对所述源语言句子中的各个第一语义元素的第一词向量，控制每个第一词向量有P
cut
的概率被替换为零向量、并且有1
‑
P
cut
的概率保持不变；所述按照预定概率，对所述目标语言句子中的各个第二语义元素的第二词向量进行置零，包括：针对所述目标语言句子中的各个第二语义元素的第二词向量，控制每个第二词向量有P
cut
的概率被替换为零向量、并且有1
‑
P
cut
的概率保持不变。4.根据权利要求1至3中任一所述的方法，其中，所述利用所述句子对和对应的样本对确定第一损失函数，包括：确定第一概率分布与所述句子对中包含的目标语言句子的标签的交叉熵函数，并确定第一概率分布和第二概率分布的相对熵函数；其中，所述第一概率分布对应于所述句子对，所述第二概率分布对应于所述句子对对应的样本对；利用所述交叉熵函数、所述相对熵函数和预设的超参数，确定所述第一损失函数。5.根据权利要求4所述的方法，其中，所述采用所述第一损失函数对所述模型进行训练，包括：采用所述第一损失函数，利用梯度下降法对所述模型的参数进行调整，在所述调整过程中，从所述第一概率分布对应的模型参数和所述第二概率分布对应的模型参数进行两侧回传。6.根据权利要求1至5中任一所述的方法，其中，所述模型包括神经机器翻译NMT模型。7.一种模型训练装置，包括：句子对获取模块，用于获取多组句子对，每组句子对包含源语言句子和目标语言句子；样本对确定模块，用于针对各组所述句子对，确定所述句子对中包含的所述源语言句
子中的第一...

【专利技术属性】
技术研发人员：高鹏至，何中军，李芝，吴华，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人