一种模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33707156 阅读:76 留言:0更新日期:2022-06-06 08:32
本公开提供了一种模型训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理技术领域。具体实现方案为:获取多组句子对,每组句子对包含源语言句子和目标语言句子;针对各组句子对,确定句子对中包含的源语言句子中的第一语义元素的第一词向量,并确定句子对中包含的目标语言句子中的第二语义元素的第二词向量;利用第一语义元素的第一词向量和第二语义元素的第二词向量,确定句子对对应的样本对;利用句子对和对应的样本对确定第一损失函数,采用第一损失函数对模型进行训练。本公开能够降低模型训练过程的复杂度。程的复杂度。程的复杂度。

【技术实现步骤摘要】
一种模型训练方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理


技术介绍

[0002]自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
[0003]机器翻译(MT,Machine Translation)是借助机器之力将一种自然语言(可以称为源语言)文本翻译成另一种自然语言(可以称为目标语言)文本的过程,是NLP的重要研究领域,也是目前互联网常用服务之一。近年来,神经网络模型在机器翻译任务上取得了重大的进步并超越了统计机器翻译,尤其是基于转换器(Transformer)的神经机器翻译(NMT,Neural Machine Translation)模型在大量数据的训练下取得了最好的翻译质量。但是,随着模型愈趋复杂,模型的训练方式也越来越复杂。

技术实现思路

[0004]本公开提供了一种用于模型训练方法、装置、设备以及存储介质。
[0005]根据本公开的一方面,提供了一种模型训练方法,包括:
[0006]获取多组句子对,每组句子对包含源语言句子和目标语言句子;
[0007]针对各组所述句子对,确定所述句子对中包含的所述源语言句子中的第一语义元素的第一词向量,并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量;
[0008]利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量,确定所述句子对对应的样本对;
[0009]利用所述句子对和对应的样本对确定第一损失函数,采用所述第一损失函数对所述模型进行训练。
[0010]根据本公开的另一方面,提供了一种模型训练装置,包括:
[0011]句子对获取模块,用于获取多组句子对,每组句子对包含源语言句子和目标语言句子;
[0012]样本对确定模块,用于针对各组所述句子对,确定所述句子对中包含的所述源语言句子中的第一语义元素的第一词向量,并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量;利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量,确定所述句子对对应的样本对;
[0013]训练模块,用于利用所述句子对和对应的样本对确定第一损失函数,采用所述第一损失函数对所述模型进行训练。
[0014]根据本公开的另一方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述模型训练方法。
[0018]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述模型训练方法。
[0019]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述模型训练方法。
[0020]本公开通过采用多组句子对生成对应的样本对,并利用句子对和对应的样本对确定第一损失函数,提供了简单有效的构建损失函数的方式,从而降低模型训练过程的复杂度。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0023]图1是根据本公开的一种应用场景示意图;
[0024]图2是根据本公开一实施例的模型训练方法的实现流程示意图;
[0025]图3是根据本公开一实施例的模型训练方法的实现流程示意图
[0026]图4是根据本公开一实施例不同超参数对模型在IWSLT14德英数据集上的影响的示意图;
[0027]图5是根据本公开实施例的一种模型训练装置500的结构示意图;
[0028]图6是根据本公开实施例的一种模型训练装置600的结构示意图
[0029]图7是用来实现本公开实施例的模型训练方法的电子设备的框图。
具体实施方式
[0030]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031]神经网络在自然语言文本翻译上质量很高。以NMT模型为例,NMT模型使用基于神经网络的技术来实现更多上下文精确的翻译,而不是一次翻译一个单词的破碎句子。使用大型人工神经网络计算单词序列的概率,NMT将完整的句子放入一个集成模型中,能够一次翻译整个句子,NMT模型的输出效果可以类似于人工翻译。
[0032]但是,由于模型越发复杂,模型训练过拟合的问题逐渐凸显出来,尤其是在一些低资源的场景下更为严重。简单来讲,拟合是指寻找模型最优参数的动态的过程。当这个过程执行结束后就会产生多种拟合后的状态,例如过拟合、欠拟合等。过拟合现象就是在训练集上表现很好,而在测试集上表现不佳。当某个模型过度地学习训练数据中的细节和噪音,以至于该模型在新的数据上表现很差,则可以称为发生了过拟合现象。这意味着训练数据中的噪音或者随机波动也被当作训练数据的特征被模型学习了,而问题在于这些特征不适用
于新的数据,因此会出现过拟合,导致模型泛化性能的变差。
[0033]为了缓解模型过拟合的问题,可以采用正则化方法等方法,一致性训练(consistency training)是一种常用的正则化方法。例如,相关技术中,可以采用语义元素(Token)裁剪(Cutoff)方法进行一致性正则化训练,Token Cutoff方法可以随机选取句子中包含的语义元素(Token),并将该Token的词向量(Embedding)整行置为零。但是,Token Cutoff方法的损失函数非常复杂,其引入了4个超参数,使得超参数的选取费时费力,导致模型训练过程过于复杂和耗时,特别是在训练资源紧张的情况下,这一问题尤其突出。
[0034]针对这一问题,本公开提出了一种简便的基于词向量丢弃的一致性正则化训练方法,该方法能够减少超参数的个数,并且能够缓解模型在训练过程中的过拟合问题,从而降低了模型训练的复杂度,并能够提升模型的翻译质量。
[0035]本公开提出一种模型训练方法,该方法可以应用于图1所示的应用场景。如图1所示,模型训练装置可以采用本公开提出的训练方法进行模型训练,并将训练完成的模型发送至翻译平台。该模型可以为NMT模型。在训练过程中,模型训练装置可以从数据集平台获取训练数据,并采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:获取多组句子对,每组句子对包含源语言句子和目标语言句子;针对各组所述句子对,确定所述句子对中包含的所述源语言句子中的第一语义元素的第一词向量,并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量;利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量,确定所述句子对对应的样本对;利用所述句子对和对应的样本对确定第一损失函数,采用所述第一损失函数对所述模型进行训练。2.根据权利要求1所述的方法,其中,所述利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量,确定所述句子对对应的样本对,包括:按照预定概率,对所述源语言句子中的各个第一语义元素的第一词向量进行置零,并对所述目标语言句子中的各个第二语义元素的第二词向量进行置零,得到所述样本对;其中,所述样本对包括第一样本和第二样本;所述第一样本包括按照所述预定概率对所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果,所述第二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量进行置零后得到的数据结果。3.根据权利要求2所述的方法,其中,所述预定概率为P
cut
;所述按照预定概率,对所述源语言句子中的各个第一语义元素的第一词向量进行置零,包括:针对所述源语言句子中的各个第一语义元素的第一词向量,控制每个第一词向量有P
cut
的概率被替换为零向量、并且有1

P
cut
的概率保持不变;所述按照预定概率,对所述目标语言句子中的各个第二语义元素的第二词向量进行置零,包括:针对所述目标语言句子中的各个第二语义元素的第二词向量,控制每个第二词向量有P
cut
的概率被替换为零向量、并且有1

P
cut
的概率保持不变。4.根据权利要求1至3中任一所述的方法,其中,所述利用所述句子对和对应的样本对确定第一损失函数,包括:确定第一概率分布与所述句子对中包含的目标语言句子的标签的交叉熵函数,并确定第一概率分布和第二概率分布的相对熵函数;其中,所述第一概率分布对应于所述句子对,所述第二概率分布对应于所述句子对对应的样本对;利用所述交叉熵函数、所述相对熵函数和预设的超参数,确定所述第一损失函数。5.根据权利要求4所述的方法,其中,所述采用所述第一损失函数对所述模型进行训练,包括:采用所述第一损失函数,利用梯度下降法对所述模型的参数进行调整,在所述调整过程中,从所述第一概率分布对应的模型参数和所述第二概率分布对应的模型参数进行两侧回传。6.根据权利要求1至5中任一所述的方法,其中,所述模型包括神经机器翻译NMT模型。7.一种模型训练装置,包括:句子对获取模块,用于获取多组句子对,每组句子对包含源语言句子和目标语言句子;样本对确定模块,用于针对各组所述句子对,确定所述句子对中包含的所述源语言句
子中的第一...

【专利技术属性】
技术研发人员:高鹏至何中军李芝吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1