一种任务处理模型的训练方法、任务处理方法及相关设备技术

技术编号:37789829 阅读:14 留言:0更新日期:2023-06-09 09:20
本发明专利技术提供了一种任务处理模型的训练方法、任务处理方法及相关设备,任务处理模型的训练方法包括:从第一训练集中获取目标语种的训练文本,训练文本具有在目标任务上的标注信息;从目标语种的基础特征信息中,获取训练文本中各文本单元分别对应的基础特征,其中,目标语种的基础特征信息从第一语种到目标语种的翻译模型获得,其包括目标语种的文本单元集中各个文本单元分别对应的基础特征;利用训练文本中各文本单元分别对应的基础特征以及训练文本的标注信息,训练针对目标任务的任务处理模型。经由本发明专利技术提供的任务处理模型的训练方法可训练得到性能较佳的任务处理模型。方法可训练得到性能较佳的任务处理模型。方法可训练得到性能较佳的任务处理模型。

【技术实现步骤摘要】
一种任务处理模型的训练方法、任务处理方法及相关设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种任务处理模型训练方法、任务处理方法及相关设备。

技术介绍

[0002]目前,训练针对目标任务的任务处理模型(比如针对意图识别和关键信息抽取任务的意图识别及关键信息抽取模型),需要一定量的训练数据,训练时,将针对目标任务的训练数据输入任务处理模型进行训练,训练数据越多,训练得到的任务处理模型的性能越好。
[0003]对于常见语种(比如,中文、英文等语种),可获得数量较多的训练数据,而对于小语种(比如,阿拉伯语、葡萄牙语等),只能获得较少的训练数据,针对面向小语种的任务,利用较少的小语种训练数据按目前的训练方式难以训练得到性能较佳的任务处理模型。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种任务处理模型的训练方法、任务处理方法及相关设备,用以解决利用较少的小语种训练数据按目前的训练方式难以训练得到性能较佳的任务处理模型的问题,其技术方案如下:
[0005]一种任务处理模型的训练方法,包括:
[0006]从第一训练集中获取第一训练数据,其中,所述第一训练数据包括目标语种的训练文本,所述目标语种的训练文本具有在目标任务上的标注信息;
[0007]从所述目标语种的基础特征信息中,获取所述目标语种的训练文本中各文本单元分别对应的基础特征,其中,所述基础特征信息从第一语种到目标语种的翻译模型获得,所述基础特征信息包括所述目标语种的文本单元集中各文本单元分别对应的基础特征,所述第一语种属于第一类语种,所述目标语种属于第二类语种,所述第二类语种的数据获取难度高于所述第一类语种的数据获取难度;
[0008]利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息,训练针对所述目标任务的任务处理模型。
[0009]可选的,所述利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息,训练针对所述目标任务的任务处理模型,包括:
[0010]将所述目标语种的训练文本中各文本单元分别对应的基础特征输入任务处理模型进行处理,得到任务处理模型输出的所述目标语种的训练文本在所述目标任务上对应的任务处理结果;
[0011]基于所述目标语种的训练文本在所述目标任务上对应的任务处理结果以及所述目标语种的训练文本的标注信息,确定任务处理模型的预测损失;
[0012]基于任务处理模型的预测损失,对任务处理模型进行参数更新。
[0013]可选的,获得所述第一语种到目标语种的翻译模型的过程包括:
[0014]构建第一语种到目标语种的翻译模型;
[0015]在翻译任务上,对构建的第一语种到目标语种的翻译模型进行训练;
[0016]或者,在翻译任务的基础上联合所述目标任务,对构建的第一语种到目标语种的翻译模型进行训练。
[0017]可选的,所述构建第一语种到目标语种的翻译模型,包括:
[0018]获取第一语种到第二语种的翻译模型,以及第二语种到目标语种的翻译模型,其中,所述第一语种到第二语种的翻译模型包括第一编码器和第一解码器,所述第二语种到目标语种的翻译模型包括第二编码器和第二解码器,所述第二语种属于所述第一类语种,所述第二语种与所述第一语种不同;
[0019]构建包括所述第一编码器和所述第二解码器的翻译模型,作为第一语种到目标语种的翻译模型。
[0020]可选的,所述目标语种的基础特征信息的获取过程包括:
[0021]从所述第一语种到目标语种的翻译模型中的第二解码器,获取所述目标语种的基础特征信息。
[0022]可选的,所述在翻译任务的基础上联合所述目标任务,对构建的第一语种到目标语种的翻译模型进行训练,包括:
[0023]利用第二训练集中的第二训练数据,对构建的第一语种到目标语种的翻译模型进行微调,得到微调后翻译模型;利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块,对所述微调后翻译模型进行训练;
[0024]或者,利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块,对构建的第一语种到目标语种的翻译模型进行训练;
[0025]其中,所述第二训练数据包括第一语种训练文本,以及该第一语种训练文本的目标语种标准译文,所述第三训练数据包括具有在所述目标任务上的标注信息的第一语种训练文本,以及该第一语种训练文本的目标语种标准译文。
[0026]可选的,所述利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块,对所述微调后翻译模型进行训练,包括:
[0027]基于所述微调后翻译模型中的第一编码器对所述第三训练数据中的第一语种训练文本进行编码,得到所述第三训练数据中的第一语种训练文本的编码结果;
[0028]基于所述微调后翻译模型中的第二解码器对所述第三训练数据中的第一语种训练文本的编码结果进行处理,以得到所述第三训练数据中的第一语种训练文本的翻译结果;
[0029]基于所述下游任务模块对所述第三训练数据中的第一语种训练文本的编码结果进行处理,以得到所述第三训练数据中的第一语种训练文本在所述目标任务上对应的任务处理结果;
[0030]基于所述第三训练数据中的第一语种训练文本的翻译结果、所述第三训练数据中的第一语种训练文本在所述目标任务上对应的任务处理结果、所述第三训练数据中的目标语种标准译文以及所述第三训练数据中的第一语种训练文本在所述目标任务上的标注信息,确定所述微调后翻译模型的预测损失;
[0031]根据所述微调后翻译模型的预测损失,对所述微调后翻译模型进行参数更新。
[0032]可选的,获取第一语种到第二语种的翻译模型,包括:
[0033]利用第四训练集中的第四训练数据,对初始的第一语种到第二语种的翻译模型进行训练,其中,所述第四训练数据包括第一语种训练文本和该第一语种训练文本的第二语种标准译文;
[0034]或者,
[0035]利用第五训练集中的第五训练数据,或者,利用第四训练集中的第四训练数据和第五训练集中的第五训练数据,在翻译任务的基础上联合所述目标任务,对初始的第一语种到第二语种的翻译模型进行训练,其中,所述第五训练数据包括具有在所述目标任务上的标注信息的第一语种训练文本,以及该第一语种训练文本的第二语种标准译文。
[0036]可选的,获取第二语种到目标语种的翻译模型,包括:
[0037]利用第六训练集中的第六训练数据,对初始的第二语种到目标语种的翻译模型进行训练,其中,所述第六训练数据包括第二语种训练文本和该第二语种训练文本的目标语种标准译文;
[0038]或者,
[0039]利用第七训练集中的第七训练数据,或者,利用第六训练集中的第六训练数据和第七训练集中的第七训练数据,在翻译任务的基础上联合所述目标任务,对初始的第二语种到目标语种的翻译模型进行训练,其中,所述第七本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种任务处理模型的训练方法,其特征在于,包括:从第一训练集中获取第一训练数据,其中,所述第一训练数据包括目标语种的训练文本,所述目标语种的训练文本具有在目标任务上的标注信息;从所述目标语种的基础特征信息中,获取所述目标语种的训练文本中各文本单元分别对应的基础特征,其中,所述基础特征信息从第一语种到目标语种的翻译模型获得,所述基础特征信息包括所述目标语种的文本单元集中各文本单元分别对应的基础特征,所述第一语种属于第一类语种,所述目标语种属于第二类语种,所述第二类语种的数据获取难度高于所述第一类语种的数据获取难度;利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息,训练针对所述目标任务的任务处理模型。2.根据权利要求1所述的任务处理模型的训练方法,其特征在于,所述利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息,训练针对所述目标任务的任务处理模型,包括:将所述目标语种的训练文本中各文本单元分别对应的基础特征输入任务处理模型进行处理,得到任务处理模型输出的所述目标语种的训练文本在所述目标任务上对应的任务处理结果;基于所述目标语种的训练文本在所述目标任务上对应的任务处理结果以及所述目标语种的训练文本的标注信息,确定任务处理模型的预测损失;基于任务处理模型的预测损失,对任务处理模型进行参数更新。3.根据权利要求1所述的任务处理模型的训练方法,其特征在于,获得所述第一语种到目标语种的翻译模型的过程包括:构建第一语种到目标语种的翻译模型;在翻译任务上,对构建的第一语种到目标语种的翻译模型进行训练;或者,在翻译任务的基础上联合所述目标任务,对构建的第一语种到目标语种的翻译模型进行训练。4.根据权利要求3所述的任务处理模型的训练方法,其特征在于,所述构建第一语种到目标语种的翻译模型,包括:获取第一语种到第二语种的翻译模型,以及第二语种到目标语种的翻译模型,其中,所述第一语种到第二语种的翻译模型包括第一编码器和第一解码器,所述第二语种到目标语种的翻译模型包括第二编码器和第二解码器,所述第二语种属于所述第一类语种,所述第二语种与所述第一语种不同;构建包括所述第一编码器和所述第二解码器的翻译模型,作为第一语种到目标语种的翻译模型。5.根据权利要求4所述的文本处理模型的训练方法,其特征在于,所述目标语种的基础特征信息的获取过程包括:从所述第一语种到目标语种的翻译模型中的第二解码器,获取所述目标语种的基础特征信息。6.根据权利要求4所述的任务处理模型的训练方法,其特征在于,所述在翻译任务的基础上联合所述目标任务,对构建的第一语种到目标语种的翻译模型进行训练,包括:
利用第二训练集中的第二训练数据,对构建的第一语种到目标语种的翻译模型进行微调,得到微调后翻译模型;利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块,对所述微调后翻译模型进行训练;或者,利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块,对构建的第一语种到目标语种的翻译模型进行训练;其中,所述第二训练数据包括第一语种训练文本,以及该第一语种训练文本的目标语种标准译文,所述第三训练数据包括具有在所述目标任务上的标注信息的第一语种训练文本,以及该第一语种训练文本的目标语种标准译文。7.根据权利要求6所述的文本处理模型的训练方法,其特征在于,所述利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块,对所述微调后翻译模型进行训练,包括:基于所述微调后翻译模型中的第一编码器对所述第三训练数据中的第一语种训练文本进行编码,得到所述第三训练数据中的第一语种训练文本的编码结果;基于所述微调后翻译模型中的第二解码器对所述第三训练数据中的第一语种训练文本的编码结果进行处理,以得到所述第三训练数据中的第一语种训练文本的翻译结果;基于所述下游任务模块对所述第三训练数据中的第一语种训练文本的编码结果进行处理,以得到所述第三训练数据中的第一语种训练文本在所述目标任务上对应的任务处理结果;基于所述第三训练数据中的第一语种训练文本的翻译结果、所述第三训练数据中的第一语种训...

【专利技术属性】
技术研发人员:卫凌霞王雪初雷琴辉刘俊峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1