预训练模型的生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30824501 阅读:18 留言:0更新日期:2021-11-18 12:17
本公开提出了一种预训练模型的生成方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景。方法为:采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,并对各候选模型输出的特征进行特征融合,得到融合特征,根据融合特征执行设定的目标识别任务,以得到预测信息,根据预测信息与样本的标准信息之间的差异,确定多个候选模型的组合性能,在组合性能满足设定性能指标的情况下,根据多个候选模型生成预训练模型,本公开中根据候选模型的组合在目标识别任务上的综合性能表现,确定多个候选模型的组合是否为较优的模型组合,提高了预训练模型的精度。训练模型的精度。训练模型的精度。

【技术实现步骤摘要】
预训练模型的生成方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及计算机视觉和深度学习
,可应用于图像处理、图像识别等场景,具体涉及预训练模型的生成方法、装置、电子设备和存储介质。

技术介绍

[0002]最近几年,预训练模型取得了巨大的成功。预训练模型在上游任务上通过大量的数据进行训练,进而,在下游任务上,只需要少量数据训练就可以取得较好的结果。而相关技术中的预训练模型在场景迁移上具有较大的局限性,无法满足精度的要求。因此,如何提高生成的预训练模型的精度是亟待解决的技术问题。

技术实现思路

[0003]本公开提供了一种预训练模型的生成方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种预训练模型的生成方法,包括:
[0005]采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,得到各所述候选模型输出的特征;
[0006]对各所述候选模型输出的特征进行特征融合,得到融合特征;
[0007]根据所述融合特征执行设定的目标识别任务,以得到预测信息;
[0008]根据所述预测信息与所述样本的标准信息之间的差异,确定所述多个候选模型的组合性能;
[0009]在所述组合性能满足设定性能指标的情况下,根据所述多个候选模型生成预训练模型。
[0010]根据本公开的另一方面,提供了一种预训练模型的生成装置,包括:
[0011]提取模块,用于采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,得到各所述候选模型输出的特征;
[0012]融合模块,用于对各所述候选模型输出的特征进行特征融合,得到融合特征;
[0013]执行模块,用于根据所述融合特征执行设定的目标识别任务,以得到预测信息;
[0014]确定模块,用于根据所述预测信息与所述样本的标准信息之间的差异,确定所述多个候选模型的组合性能;
[0015]生成模块,用于在所述组合性能满足设定性能指标的情况下,根据所述多个候选模型生成预训练模型。
[0016]根据本公开的另一方面,提供了一种电子设备,包括:
[0017]至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述一方面所述的方法。
[0020]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述一方面所述的方法。
[0021]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述一方面所述的方法。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1为本公开实施例提供的一种预训练模型的生成方法的流程示意图;
[0025]图2为本公开实施例提供的另一种预训练模型的生成方法的流程示意图;
[0026]图3为本公开实施例提供的另一种预训练模型的生成方法的流程示意图;
[0027]图4为本公开实施例提供的另一种预训练模型的生成装置的结构示意图;
[0028]图5为本公开实施例提供的示例电子设备500的示意性框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]下面参考附图描述本公开实施例的预训练模型的生成方法、装置、电子设备和存储介质。
[0031]图1为本公开实施例提供的一种预训练模型的生成方法的流程示意图。
[0032]如图1所示,该方法包含以下步骤:
[0033]步骤101,采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,得到各候选模型输出的特征。
[0034]本公开实施例中,模型集合中包含已经训练完成的多个模型,其中,多个模型可以为神经网络的模型。可通过随机选取的方式从模型集合中选取多个候选模型,或者是通过进化算法从模型集合中选取多个候选模型,其中,候选模型的选取方式,本实施例中不进行限定。
[0035]其中,测试集中包含大量的测试样本,测试样本已经预先标注了对应的标准信息。测样样本和分类任务相关,例如,在商品分类任务中,测试样本可以为包含苹果的图片,对该图片标识了标准信息为类别为“苹果”;在人脸识别分类任务中,测试样本可以为人脸的图像,人脸的图像标注了标准信息为“儿童”。
[0036]需要说明的是,测试样本对应的标准信息和目标识别任务具有对应关系,也就是说目标识别任务不同,样本对应的标准信息不同。
[0037]步骤102,对各候选模型输出的特征进行特征融合,得到融合特征。
[0038]本公开实施例中,针对选取的多个候选模型,根据测试集内的样本,先独立获取每一个候选模型提取得到的特征,再将各个候选模型输出的特征进行特征融合,作为第一种
实现方式,可将各个候选模型提取得到的特征采用concat函数进行特征融合,以得到融合特征;作为第二种实现方式,可将各个候选模型提取得到的特征通过叠加的方式得到融合特征,例如,将两个候选模型分别输出的256维的特征,叠加得到512维的特征;作为第三种实现方式,可将各个候选模型提取得到的特征通过隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的方式对各个候选模型提取得到的特征进行降维,以得到融合特征;作为第四种实现方式,可将各个候选模型提取得到的特征通过主成分分析(Principal components analysis,PCA)的方式对各个候选模型提取得到的特征进行降维以得到融合特征。
[0039]需要说明的是,本实施例中对于各个候选模型进行特征融合的方式不进行限定。
[0040]步骤103,根据融合特征执行设定的目标识别任务,以得到预测信息。
[0041]其中,设定的目标识别任务例如为人脸识别任务,商品分类任务等,可根据业务需求进行设定,本实施例中不进行限定。
[0042]在本实施例的一种实现方式中,根据预先训练的识别模型,预先训练得到的识别模型已经学习得到融合特征和预测信息之间的对应关系,将融合特征输入识别模型中,以得到输出的预测信息。
[0043]其中,预测信息可以为基于目标识别任务的预测概率,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练模型的生成方法,包括:采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,得到各所述候选模型输出的特征;对各所述候选模型输出的特征进行特征融合,得到融合特征;根据所述融合特征执行设定的目标识别任务,以得到预测信息;根据所述预测信息与所述样本的标准信息之间的差异,确定所述多个候选模型的组合性能;在所述组合性能满足设定性能指标的情况下,根据所述多个候选模型生成预训练模型。2.根据权利要求1所述的方法,其中,所述采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,得到各所述候选模型输出的特征之前,还包括:获取模型集合;将所述模型集合内的各模型组合得到超网络;对所述超网络进行训练;采用设定搜索算法从所述超网络中搜索得到目标子网络;将所述目标子网络中的各所述模型作为所述模型集合内选取的所述候选模型。3.根据权利要求2所述的方法,其中,所述对所述超网络进行训练,包括:采用训练集内的训练样本输入所述超网络;根据所述超网络中各子网络输出的特征,确定各所述子网络的损失函数值;对各所述子网络的损失函数值融合得到融合损失函数;根据所述融合损失函数,对所述超网络中的各模型进行模型参数调整。4.根据权利要求1所述的方法,其中,所述采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提取,得到各所述候选模型输出的特征之前,还包括:采用训练集,分别对所述模型集合内的各模型进行训练;根据模型训练过程中各模型的损失函数的梯度,从所述模型集合中选取多个所述候选模型。5.根据权利要求1

4任一项所述的方法,其中,所述目标识别任务为多个,所述根据所述预测信息与所述样本的标准信息之间的差异,确定所述多个候选模型的组合性能,包括:根据各所述目标识别任务的预测信息,与对应任务的所述标准信息之间的差异,确定各所述目标识别任务的损失函数值;对各所述目标识别任务的损失函数值加权求和,得到总损失函数值;根据所述总损失函数值,确定所述多个候选模型的组合性能。6.根据权利要求1

4任一项所述的方法,其中,所述目标识别任务为多个,所述根据所述预测信息与所述样本的标准信息之间的差异,确定所述多个候选模型的组合性能,包括:根据各所述目标识别任务的预测信息,与对应任务的所述标准信息之间的差异,确定各所述目标识别任务的准召率;根据各所述目标识别任务的准召率,确定所述多个候选模型的组合性能。7.一种预训练模型的生成装置,包括:提取模块,用于采用模型集合内选取的多个候选模型,对测试集内的样本进行特征提
取,得到各所述候选模型输出的特征;融合模块,用于对各所述候选模型输出的特征进行特征融合,得到融合特征;执行模...

【专利技术属性】
技术研发人员:希滕张刚
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1