【技术实现步骤摘要】
深度学习模型的训练方法、文本数据处理方法和装置
[0001]本公开涉及人工智能
,尤其涉及自然语言处理
和机器翻译
更具体地,本公开提供了一种深度学习模型的训练方法、文本数据处理方法、装置、电子设备和存储介质。
技术介绍
[0002]基于自然语言处理技术,可以将一种自然语言文本翻译为另一种自然语言文本。
技术实现思路
[0003]本公开提供了一种深度学习模型的训练方法、文本数据处理方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种深度学习模型的训练方法,该方法包括:利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;根据所述第一输出值和第二输出值,确定正则化函数值;以及根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。
[0005]在一些实施例中,所述样本源数据包括第一语言文本数据,所述样本目标数据包括第二语言文本数据。
[0006]根据第二方面,提供了一种文本数据处理方法,该方法包括:将文本数据输入深度学习模型,得到处理结果,其中,所述深度学习模型是利用根据本公开提供的方法训练的。
[0007]根据第三方面,提供了一种深度学习模型的训练装置,该装置包括:第一获得模块,用于利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;确定模块,用于根据所述第一输出值和第二输出值,确定正则化函数值;以及第一调整模块,用于根据所述正则化函数值,调整所述深度 ...
【技术保护点】
【技术特征摘要】
1.一种深度学习模型的训练方法,包括:利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;根据所述第一输出值和第二输出值,确定正则化函数值;以及根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。2.根据权利要求1所述的方法,其中,所述利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值包括:将所述样本源数据和所述样本目标数据分别输入所述深度学习模型,得到第一基准输出值和第二基准输出值,作为第一输出值;对所述样本源数据和所述样本目标数据分别进行切词,得到多个源数据段和多个目标数据段;分别遮蔽所述多个源数据段中的至少一部分和遮蔽所述多个目标数据段中的至少一部分,得到经遮蔽的源数据和经遮蔽的目标数据;将所述经遮蔽的源数据和所述经遮蔽的目标数据分别输入所述深度学习模型,得到第一遮蔽输出值和第二遮蔽输出值,作为第二输出值。3.根据权利要求2所述的方法,其中,所述根据所述第一输出值和第二输出值,确定正则化函数值包括:确定所述第一基准输出值和所述第一遮蔽输出值之间的第一相对熵;确定所述第二基准输出值和所述第二遮蔽输出值之间的第二相对熵;以及根据所述第一相对熵和第二相对熵,确定所述正则化函数值。4.根据权利要求3所述的方法,其中,所述样本源数据具有第一标签,所述样本目标数据具有第二标签;所述根据所述第一输出值和第二输出值,确定正则化函数值还包括:确定所述第一基准输出值与所述第一标签之间的第一交叉熵;确定所述第二基准输出值与所述第二标签之间的第二交叉熵;以及根据所述第一交叉熵、所述第二交叉熵、所述第一相对熵和所述第二相对熵,确定所述正则化函数值。5.根据权利要求2
‑
4之一所述的方法,还包括:将所述样本源数据输入所述经预训练的深度学习模型,得到第三基准输出值;将所述经遮蔽的源数据输入所述经预训练的深度学习模型,得到第三遮蔽输出值;以及根据所述第三基准输出值和所述第三遮蔽输出值,调整所述经预训练的深度学习模型的参数,得到经训练的深度学习模型。6.根据权利要求5所述的方法,其中,所述根据所述第三基准输出值和所述第三遮蔽输出值,调整所述经预训练的深度学习模型的参数,得到经训练的深度学习模型包括:确定所述第三基准输出值与第一标签之间的第三交叉熵;确定所示第三基准输出值与所述第三遮蔽输出值之间的第三相对熵;以及根据所述第三交叉熵和所述第三相对熵,调整所述经预训练的深度学习模型的参数。7.一种文本数据处理方法,包括:
将文本数据输入深度学习模型,得到处理结果,其中,所述深度学习模型是利用根据权利要求1
‑
6之一所述的方法训练的。8.一种深度学习模型的训练装置,包括:第一获得模块,用于利用深度学习模型分别处理样本源数据和对应的样本目标数据,得到第一输出值和第二输出值;确定模块,用于根据所述第一输出值和第二输出值,确定正则化函数值;以及第一调整模块,用于根据所述正则化函数值,调整所述深度学习模型的参数,得到经预训练的深度学习模型。9.根据权利要...
【专利技术属性】
技术研发人员:高鹏至,何中军,李芝,吴华,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。