模型训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号:30406003 阅读:18 留言:0更新日期:2021-10-20 11:10
本申请公开一种模型训练方法、装置、存储介质及电子设备。其中,获取多个数据集;将多个数据集逐个输入初始多任务模型;其中,所述初始多任务模型包含模型参数,所述模型参数包含共享参数和任务参数;其中,所述共享参数为所述初始多任务模型中多个任务共有的模型参数,所述任务参数为所述初始多任务模型中多个任务中每个任务独有的模型参数;基于所述初始多任务模型的输出结果调整所述模型参数,得到训练后的多任务模型。本方法能够避免针对同一训练样本进行重复计算的问题,提高了训练效率,节省了计算资源。节省了计算资源。节省了计算资源。

【技术实现步骤摘要】
模型训练方法、装置、存储介质及电子设备


[0001]本公开涉及人工智能
,特别是涉及一种模型训练方法、装置、存储介质及电子设备。

技术介绍

[0002]深度学习在图像识别,语音识别,自然语言处理等相关领域都取得很多成果,但是由于深度学习模型计算复杂,效率低,如果对于一些相近的任务,往往都各自使用一个模型,无疑增加了计算量和资源占用。

技术实现思路

[0003]根据本公开的一个方面,提供以下技术方案:
[0004]一种模型训练方法,包括:
[0005]获取多个数据集;
[0006]将多个数据集逐个输入初始多任务模型;其中,所述初始多任务模型包含模型参数,所述模型参数包含共享参数和任务参数;其中,所述共享参数为所述初始多任务模型中多个任务共有的模型参数,所述任务参数为所述初始多任务模型中多个任务中每个任务独有的模型参数;
[0007]基于所述初始多任务模型的输出结果调整所述模型参数,得到训练后的多任务模型。
[0008]进一步地,根据所述初始多任务模型的输出结果计算损失函数的总损失值,并根据所述损失值对所述多任务模型的模型参数进行调整。
[0009]进一步地,若每个数据集的任务标签数量为一个,则将该任务标签对应的任务的损失值作为该数据集的损失值,其中,根据每个数据集的损失值计算得到损失函数的总损失值。
[0010]进一步地,每个数据集包含一个或多个任务标签,若所述数据集的任务标签数量为多个,则将多个任务标签对应的多个任务的损失值之和作为该数据集的损失值,其中,根据每个数据集的损失值计算得到损失函数的总损失值。
[0011]进一步地,所述总损失值为多个数据集对应的所有任务的损失值之和。
[0012]进一步地,多个数据集中的每个数据集对应的损失函数乘以c,其中,c为每个数据集占所有数据集的比重。进一步地,所述损失函数中还包含动态系数,其中,所述动态系数可根据当前模型训练自适应调整。
[0013]进一步地,将所述多个数据集按照第一顺序加载入数据加载器,并将加载入数据加载器中的数据集按照预设批数量进行划分。
[0014]进一步地,判断是否还存在下一批数据,其中,所述下一批数据为需要从数据加载器输出的数据;若有,则继续输出下一批数据。
[0015]进一步地,若没有,则所述多个数据集按照第二顺序加载入数据加载器,其中,所
述第一顺序和所述第二顺序不同。
[0016]进一步地,将所述多个数据集中的部分数据集进行合并,得到多个合并后的数据集;将所述多个合并后的数据集逐个输入初始多任务模型。
[0017]进一步地,将带有相同任务标签的数据集进行合并。
[0018]进一步地,将带有相同任务标签比例大于合并阈值的数据集进行合并。
[0019]进一步地,将所述多个数据集中的部分数据集进行拆分,得到多个拆分后的数据集;将所述多个拆分后的数据集逐个输入初始多任务模型。
[0020]进一步地,将部分数据集按照任务标签随机拆分得到拆分后的数据集。根据本公开的另一个方面,还提供以下技术方案:
[0021]进一步地,包括:
[0022]获取待处理数据,其中,所述待处理数据包含多个数据集,每个数据集包含一个或多个任务标签;
[0023]利用前述的方法训练得到训练后的多任务模型对所述待处理数据进行处理,得到处理结果。
[0024]根据本公开的另一个方面,还提供以下技术方案:
[0025]第一获取模块,用于获取多个数据集;
[0026]输入装置,用于将所述多个数据集逐个输入初始多任务模型;其中,所述初始多任务模型包括共享参数和任务参数,所述共享参数为多个任务共有的模型参数,所述任务参数为多个任务中每个任务各自独有的模型参数;
[0027]训练模块,用于基于所述初始多任务模型的输出结果训练所述初始多任务模型,得到训练后的多任务模型。
[0028]根据本公开的另一个方面,还提供以下技术方案:
[0029]一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如上述的模型训练方法。
[0030]根据本公开的另一个方面,还提供以下技术方案:
[0031]一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,使得所述计算机执行上述任一方法中所述的步骤。
[0032]本公开实施例提供了模型训练方法、装置、存储介质及电子设备。其中,该模型训练方法包括:获取多个数据集;将多个数据集逐个输入初始多任务模型;其中,初始多任务模型包含模型参数,模型参数包含共享参数和任务参数;其中,共享参数为初始多任务模型中多个任务共有的模型参数,任务参数为初始多任务模型中多个任务中每个任务独有的模型参数;基于初始多任务模型的输出结果调整模型参数,得到训练后的多任务模型。该模型训练方法通过对数据集的逐个学习,每次只利用来自一组数据集的标签,只计算这组数据集所对应任务的学习损失值的方法,实现了同一多任务模型中,不同的数据依次训练不同的任务分支,解决了通常情况下,只能利用同时包含所有任务标签的数据集训练多任务学习模型的情况,极大地提升了可用数据的数量,也解决了逐任务训练的方法中,大量重复输入同一个或者数据集,比如一张图片,解决了模型训练效率低的问题。
附图说明
[0033]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为根据本公开一个实施例的多任务处理模型的训练方法的流程示意图;
[0035]图2为根据本公开另一个实施例的多任务处理模型的训练方法的流程示意图;
[0036]图3为根据本公开一个实施例的多任务处理模型的数据输入流程示意图;
[0037]图4为根据本公开一个实施例的多任务处理装置的结构示意图;
[0038]图5为根据本公开一个实施例的多任务处理模型训练的硬件装置的结构示意图。
具体实施方式
[0039]以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0040]需要说明的是,下文描述在所附权利要求书的范围内的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:获取多个数据集;将多个数据集逐个输入初始多任务模型;其中,所述初始多任务模型包含模型参数,所述模型参数包含共享参数和任务参数;其中,所述共享参数为所述初始多任务模型中多个任务共有的模型参数,所述任务参数为所述初始多任务模型中多个任务中每个任务独有的模型参数;基于所述初始多任务模型的输出结果调整所述模型参数,得到训练后的多任务模型。2.根据权利要求1所述的训练方法,其特征在于,基于所述初始多任务模型的输出结果调整所述模型参数,得到训练后的多任务模型,包括:根据所述初始多任务模型的输出结果计算损失函数的总损失值,并根据所述损失值对所述多任务模型的模型参数进行调整。3.根据权利要求2所述的训练方法,其特征在于,每个数据集包含一个或多个任务标签,若每个数据集的任务标签数量为一个,则将该任务标签对应的任务的损失值作为该数据集的损失值,其中,根据每个数据集的损失值计算得到损失函数的总损失值。4.根据权利要求2所述的训练方法,其特征在于,每个数据集包含一个或多个任务标签,若所述数据集的任务标签数量为多个,则将多个任务标签对应的多个任务的损失值之和作为该数据集的损失值,其中,根据每个数据集的损失值计算得到损失函数的总损失值。5.根据权利要求2所述的训练方法,其特征在于,所述总损失值为多个数据集对应的所有任务的损失值之和。6.根据权利要求5所述的训练方法,其特征在于,多个数据集中的每个数据集对应的损失函数乘以c,其中,c为每个数据集占所有数据集的比重。7.根据权利要求5所述的训练方法,其特征在于,所述损失函数中还包含动态系数,其中,所述动态系数可根据当前模型训练自适应调整。8.根据权利要求1所述的训练方法,其特征在于,所述获取多个数据集包括:将所述多个数据集按照第一顺序加载入数据加载器,并将加载入数据加载器中的数据集按照预设批数量进行划分。9.根据权利要求8所述的训练方法,其特征在于,所述将加载入数据加载器中...

【专利技术属性】
技术研发人员:陈子予陶训强何苗郭彦东
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1