深度学习模型的训练方法、文本数据处理方法和装置制造方法及图纸

技术编号:33654217 阅读:60 留言:0更新日期:2022-06-02 20:33
本公开提供了一种深度学习模型的训练方法,涉及人工智能领域,尤其涉及自然语言处理技术领域和机器翻译技术领域。具体实现方案为:利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;根据第一输出值和第二输出值,确定正则化函数值;以及根据正则化函数值,调整深度学习模型的参数,得到经预训练的深度学习模型。本公开还提供了一种文本数据处理方法、装置、电子设备和存储介质。子设备和存储介质。子设备和存储介质。

【技术实现步骤摘要】
深度学习模型的训练方法、文本数据处理方法和装置


[0001]本公开涉及人工智能
,尤其涉及自然语言处理
和机器翻译
更具体地,本公开提供了一种深度学习模型的训练方法、文本数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]基于自然语言处理技术,可以将一种自然语言文本翻译为另一种自然语言文本。

技术实现思路

[0003]本公开提供了一种深度学习模型的训练方法、文本数据处理方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种深度学习模型的训练方法,该方法包括:利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;根据所述第一输出值和第二输出值,确定正则化函数值;以及根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。
[0005]在一些实施例中,所述样本源数据包括第一语言文本数据,所述样本目标数据包括第二语言文本数据。
[0006]根据第二方面,提供了一种文本数据处理方法,该方法包括:将文本数据输入深度学习模型,得到处理结果,其中,所述深度学习模型是利用根据本公开提供的方法训练的。
[0007]根据第三方面,提供了一种深度学习模型的训练装置,该装置包括:第一获得模块,用于利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;确定模块,用于根据所述第一输出值和第二输出值,确定正则化函数值;以及第一调整模块,用于根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。
[0008]根据第四方面,提供了一种文本数据处理装置,该装置包括:第四获得模块,用于将文本数据输入深度学习模型,得到处理结果,其中,所述深度学习模型是利用根据本公开提供的装置训练的。
[0009]根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0010]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0011]根据第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
[0015]图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
[0016]图3是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
[0017]图4是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
[0018]图5是根据本公开的一个实施例的深度学习模型的训练方法的原理图;
[0019]图6是根据本公开的一个实施例的文本数据处理方法的流程图;
[0020]图7是根据本公开的一个实施例的深度学习模型的训练装置的框图;
[0021]图8是根据本公开的一个实施例的文本处理装置的框图;以及
[0022]图9是根据本公开的一个实施例的可以应用深度学习模型的训练方法和/或文本数据处理方法的电子设备的框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]基于自然语言处理技术,可以利用深度学习模型进行翻译。可以通过增加训练数据量的方式,提高相关深度学习模型的性能。但现有的语料训练样本的数量是有限的,深度学习模型的性能难以进一步提高。
[0025]图1是根据本公开的一个实施例的深度学习模型的训练方法的流程图。
[0026]如图1所示,该方法100可以包括操作S110~操作S130。
[0027]在操作S110,利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值
[0028]在本公开实施例中,样本源数据可以包括第一语言文本数据,样本目标数据可以包括第二语言文本数据。
[0029]例如,第一语言文本数据可以是一种自然语言的文本,第二语言文本数据可以是另一种自然语言的文本。
[0030]例如,样本源数据为中文文本数据,样本目标数据为英文文本数据。在一个示例中,样本源数据x为“今天天气很好”,样本目标数据y为“The weather is good today”。
[0031]又例如,可以将样本源数据x输入深度学习模型,得到第一基准输出值f(x,y;θ)。此外,可以将样本目标数据y输入深度学习模型,得到第二基准输出值f(y,x;θ)。可以将第一基准输出值f(x,y;θ)和第二基准输出值f(y,x;θ),作为第一输出值。在一个示例中,θ可以表征深度学习模型的一个或多个参数。
[0032]在本公开实施例中,可以对样本源数据进行处理,得到处理后的样本源数据。可以对样本目标数据进行处理,得到处理后的样本目标数据。
[0033]例如,可以将处理后的样本源数据x_proc输入深度学习模型,得到第一处理后输出值f(x_proc,y_proc;θ)。可以将处理后的样本目标数据y_proc输入深度学习模型,得到
第二处理后输出值f(y_proc,x_proc;θ)。
[0034]可以将第一处理后输出值f(x_proc,y_proc;θ)和第二处理后输出值f(y_proc,x_proc;θ),作为第二输出值。
[0035]在操作S120,根据第一输出值和第二输出值,确定正则化函数值。
[0036]例如,可以确定第一基准输出值f(x,y;θ)和第一处理后输出值f(x_proc,y_proc;θ)之间的差异,以及可以确定第二基准输出值f(y,x;θ)和第二处理后输出值f(y_proc,x_proc;θ)之间的差异。根据这两个差异,可以确定正则化函数值。在一个示例中,正则化函数值可以是一致性正则化函数值。
[0037]在操作S130,根据正则化函数值,调整深度学习模型的参数,得到经预训练的深度学习模型。
[0038]例如,可以调整深度学习模型的参数,使得正则化函数值满足预设条件,以得到经预训练的深度学习模型。
[0039]通过本公开实施例,可以进一步提高深度学习模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习模型的训练方法,包括:利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;根据所述第一输出值和第二输出值,确定正则化函数值;以及根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。2.根据权利要求1所述的方法,其中,所述利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值包括:将所述样本源数据和所述样本目标数据分别输入所述深度学习模型,得到第一基准输出值和第二基准输出值,作为第一输出值;对所述样本源数据和所述样本目标数据分别进行切词,得到多个源数据段和多个目标数据段;分别遮蔽所述多个源数据段中的至少一部分和遮蔽所述多个目标数据段中的至少一部分,得到经遮蔽的源数据和经遮蔽的目标数据;将所述经遮蔽的源数据和所述经遮蔽的目标数据分别输入所述深度学习模型,得到第一遮蔽输出值和第二遮蔽输出值,作为第二输出值。3.根据权利要求2所述的方法,其中,所述根据所述第一输出值和第二输出值,确定正则化函数值包括:确定所述第一基准输出值和所述第一遮蔽输出值之间的第一相对熵;确定所述第二基准输出值和所述第二遮蔽输出值之间的第二相对熵;以及根据所述第一相对熵和第二相对熵,确定所述正则化函数值。4.根据权利要求3所述的方法,其中,所述样本源数据具有第一标签,所述样本目标数据具有第二标签;所述根据所述第一输出值和第二输出值,确定正则化函数值还包括:确定所述第一基准输出值与所述第一标签之间的第一交叉熵;确定所述第二基准输出值与所述第二标签之间的第二交叉熵;以及根据所述第一交叉熵、所述第二交叉熵、所述第一相对熵和所述第二相对熵,确定所述正则化函数值。5.根据权利要求2

4之一所述的方法,还包括:将所述样本源数据输入所述经预训练的深度学习模型,得到第三基准输出值;将所述经遮蔽的源数据输入所述经预训练的深度学习模型,得到第三遮蔽输出值;以及根据所述第三基准输出值和所述第三遮蔽输出值,调整所述经预训练的深度学习模型的参数,得到经训练的深度学习模型。6.根据权利要求5所述的方法,其中,所述根据所述第三基准输出值和所述第三遮蔽输出值,调整所述经预训练的深度学习模型的参数,得到经训练的深度学习模型包括:确定所述第三基准输出值与第一标签之间的第三交叉熵;确定所示第三基准输出值与所述第三遮蔽输出值之间的第三相对熵;以及根据所述第三交叉熵和所述第三相对熵,调整所述经预训练的深度学习模型的参数。7.一种文本数据处理方法,包括:
将文本数据输入深度学习模型,得到处理结果,其中,所述深度学习模型是利用根据权利要求1

6之一所述的方法训练的。8.一种深度学习模型的训练装置,包括:第一获得模块,用于利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;确定模块,用于根据所述第一输出值和第二输出值,确定正则化函数值;以及第一调整模块,用于根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。9.根据权利要...

【专利技术属性】
技术研发人员:高鹏至何中军李芝吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1