当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于多样性和随机策略的模型训练方法及装置制造方法及图纸

技术编号:39407016 阅读:10 留言:0更新日期:2023-11-19 15:59
本说明书公开了一种基于多样性和随机策略的模型训练方法及装置,待训练的分类模型包含多个基模型,该待训练的分类模型又分为多层切换块,按照前向传播方向依次训练各层切换块,根据各基模型输出的分类结果和标注,确定分类损失,根据各基模型输出的分类结果和样本图像,确定多样性正则损失。在训练过程中,该层切换块的输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像,输出为该层切换块中随机一子模块的输出。这样训练出的分类模型,既保证了模型输出的分类结果准确度,又使各基模型输出的分类结果中各类别对应的概率分布不同,模型的输出为随机一个基模型的输出,极大提高了该分类模型的鲁棒性。极大提高了该分类模型的鲁棒性。极大提高了该分类模型的鲁棒性。

【技术实现步骤摘要】
一种基于多样性和随机策略的模型训练方法及装置


[0001]本说明书涉及计算机
,尤其涉及一种基于多样性和随机策略的模型训练方法及装置。

技术介绍

[0002]如今,深度神经网络模型在许多应用领域都表现出了优异的性能,如,图像分类、汽车自动驾驶、语音识别、自然语言处理等。但是,深度学习模型很容易遭受由攻击者精心设计的对抗样本的攻击,即通过故意添加细微的、人类察觉不到的干扰形成的输入样本,导致模型以高置信度给出一个错误的输出。对抗样本的存在使深度神经网络模型的应用面临巨大安全隐患,因此,提高模型对于对抗样本的鲁棒性是一个重要课题。
[0003]目前,传统提高深度学习模型鲁棒性的方法包括对抗训练、输入转换、梯度掩码和随机网络防御等,这些方法虽然能够提高深度学习模型的鲁棒性,但都是以牺牲模型对于真实的输入样本的预测准确率为代价的。
[0004]因此,如何在提高深度学习模型鲁棒性的同时保证高的预测准确率是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种基于多样性和随机策略的模型训练方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种基于多样性和随机策略的模型训练方法,待训练的分类模型包含多个基模型,每个基模型划分为串联的多层子模块,各基模型中相同层的子模块组成切换块,所述待训练的分类模型由多层切换块组成,包括:获取待分类的样本图像以及所述样本图像的标注,并将所述样本图像输入所述待训练的分类模型;按照前向传播方向,依次训练各层切换块,针对每一层待训练的切换块,在已固定参数的各前层切换块的基础上,确定该层切换块的输入,所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像;根据该层切换块的输入,确定该层切换块中各子模块的输出,根据随机策略确定各基模型输出的分类结果,并基于所述样本图像的标注,确定分类损失;根据预设的基准图像、所述样本图像以及各基模型输出的中间图像,确定各基模型的积分梯度,并根据各积分梯度确定多样性正则损失,所述多样性正则损失的值越小代表各积分梯度之间的差异越大;根据所述分类损失和所述多样性正则损失,训练未固定模型参数的各层切换块,直至满足训练结束条件为止,固定该层切换块的模型参数,并训练下一层切换块;当各层切换块的模型参数均固定时,得到训练完成的分类模型;响应于携带待分
类图像的任务请求,将所述待分类图像输入所述训练完成的分类模型,通过在各层切换块中随机选择的子模块组成的网络,所述分类模型输出所述待分类图像的分类结果。
[0007]可选地,针对每一层待训练的切换块,在已固定参数的各前层切换块的基础上,确定该层切换块的输入,所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像,具体包括:若该层切换块是第一层切换块,则该层切换块的输入为所述样本图像;若该层切换块不是第一层切换块,则将所述样本图像通过已固定参数的各前层切换块后,该层切换块的上一层切换块中随机一子模块的输出,作为该层切换块的输入。
[0008]可选地,所述待训练的分类模型的最后一层切换块的各子模块中至少包括输出层;根据该层切换块的输入,确定该层切换块中各子模块的输出,根据随机策略确定各基模型输出的分类结果,具体包括:将该层切换块的输入作为该层切换块中各子模块的输入,确定该层切换块中各子模块的输出;根据随机策略,将该层切换块中各子模块的输出输入之后未固定参数的各层切换块;通过所述最后一层切换块中各子模块的输出层,得到最后一层切换块中各子模块输出的分类结果;确定所述最后一层切换块中各子模块所属的基模型,将最后一层切换块中各子模块输出的分类结果,作为所述最后一层切换块中各子模块所属的基模型输出的分类结果。
[0009]可选地,并基于所述样本图像的标注,确定分类损失,具体包括:根据各基模型输出的分类结果和所述样本图像的标注,确定各基模型的分类交叉熵损失;对各基模型的分类交叉熵损失求均值,得到所述待训练的分类模型的分类损失。
[0010]可选地,根据预设的基准图像、所述样本图像以及各基模型输出的中间图像,确定各基模型的积分梯度,具体包括:确定预设的基准图像和插值路径,沿插值路径从基准图像开始按照指定插值步数均匀缩放样本图像像素强度,得到每一个插值步数上对应的插值图像;针对待训练的分类模型的每一个基模型,分别计算各插值图像与该基模型输出的中间图像之间的梯度,将各梯度进行累加求和,得到各插值图像与该基模型输出的中间图像之间的累加梯度;将所述累加梯度相对于所述插值步数进行平均,得到各插值图像与该基模型输出的中间图像之间的初始积分梯度;根据所述样本图像相对于所述基准图像的差异,对所述初始积分梯度进行调整,得到该基模型的积分梯度。
[0011]可选地,根据各积分梯度确定多样性正则损失,具体包括:将所述待训练的分类模型的各基模型两两组合,确定各组合中两基模型的积分梯度之间的相似度;根据确定出的各相似度,确定所述待训练的分类模型的多样性正则损失。
[0012]可选地,根据所述分类损失和所述多样性正则损失,训练未固定模型参数的各层切换块,直至满足训练结束条件为止,固定该层切换块的模型参数,并训练下一层切换块,具体包括:根据所述分类损失和所述多样性正则损失,确定所述待训练的分类模型的总损失;以所述总损失最小为目标训练未固定模型参数的各层切换块,直至满足训练结束条件为止,对该层切换块的训练完成;固定该层切换块的模型参数,并对未固定参数的各层切换块进行初始化,训练下一层切换块。
[0013]本说明书提供的一种基于多样性和随机策略的模型训练装置,所述装置包括:获取模块,获取待分类的样本图像以及所述样本图像的标注,并将所述样本图像输入所述待训练的分类模型;模型训练模块,按照前向传播方向,依次训练各层切换块,针对每一层待训练的切换块,在已训练好的各前层切换块的基础上,确定该层切换块的输入,所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像;分类损失确定模块,根据该层切换块的输入,确定该层切换块中各子模块的输出,根据随机策略确定各基模型输出的分类结果,并基于所述样本图像的标注,确定分类损失;多样性正则损失确定模块,根据预设的基准图像、所述样本图像以及各基模型输出的中间图像,确定各基模型的积分梯度,并根据各积分梯度确定多样性正则损失,所述多样性正则损失的值越小代表各积分梯度之间的差异越大;切换块训练模块,根据所述分类损失和所述多样性正则损失,训练未固定模型参数的各层切换块,直至满足训练结束条件为止,固定该层切换块的模型参数,并训练下一层切换块;分类任务响应模块,当各层切换块的模型参数均固定时,得到训练完成的分类模型;响应于携带待分类图像的任务请求,将所述待分类图像输入所述训练完成的分类模型,通过在各层切换块中随机选择的子模块组成的网络,所述分类模型输出所述待分类图像的分类结果。
[0014]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多样性和随机策略的模型训练方法,其特征在于,待训练的分类模型包含多个基模型,每个基模型划分为串联的多层子模块,各基模型中相同层的子模块组成切换块,所述待训练的分类模型由多层切换块组成,所述方法包括:获取待分类的样本图像以及所述样本图像的标注,并将所述样本图像输入所述待训练的分类模型;按照前向传播方向,依次训练各层切换块,针对每一层待训练的切换块,在已固定参数的各前层切换块的基础上,确定该层切换块的输入,所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像;根据该层切换块的输入,确定该层切换块中各子模块的输出,根据随机策略确定各基模型输出的分类结果,并基于所述样本图像的标注,确定分类损失;根据预设的基准图像、所述样本图像以及各基模型输出的中间图像,确定各基模型的积分梯度,并根据各积分梯度确定多样性正则损失,所述多样性正则损失的值越小代表各积分梯度之间的差异越大;根据所述分类损失和所述多样性正则损失,训练未固定模型参数的各层切换块,直至满足训练结束条件为止,固定该层切换块的模型参数,并训练下一层切换块;当各层切换块的模型参数均固定时,得到训练完成的分类模型;响应于携带待分类图像的任务请求,将所述待分类图像输入所述训练完成的分类模型,通过在各层切换块中随机选择的子模块组成的网络,所述分类模型输出所述待分类图像的分类结果。2.如权利要求1所述的方法,其特征在于,针对每一层待训练的切换块,在已固定参数的各前层切换块的基础上,确定该层切换块的输入,所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像,具体包括:若该层切换块是第一层切换块,则该层切换块的输入为所述样本图像;若该层切换块不是第一层切换块,则将所述样本图像通过已固定参数的各前层切换块后,该层切换块的上一层切换块中随机一子模块的输出,作为该层切换块的输入。3.如权利要求1所述的方法,其特征在于,所述待训练的分类模型的最后一层切换块的各子模块中至少包括输出层;根据该层切换块的输入,确定该层切换块中各子模块的输出,根据随机策略确定各基模型输出的分类结果,具体包括:将该层切换块的输入作为该层切换块中各子模块的输入,确定该层切换块中各子模块的输出;根据随机策略,将该层切换块中各子模块的输出输入之后未固定参数的各层切换块;通过所述最后一层切换块中各子模块的输出层,得到最后一层切换块中各子模块输出的分类结果;确定所述最后一层切换块中各子模块所属的基模型,将最后一层切换块中各子模块输出的分类结果,作为所述最后一层切换块中各子模块所属的基模型输出的分类结果。4.如权利要求1所述的方法,其特征在于,并基于所述样本图像的标注,确定分类损失,具体包括:根据各基模型输出的分类结果和所述样本图像的标注,确定各基模型的分类交叉熵损失;
对各基模型的分类交叉熵损失求均值,得到所述待训练的分类模型的分类损失。5.如权利要求1所述的方法,其特征在于,根据预设的基准图像、所述样本图像以及各基模型输出的中间图像,确定各基模型的积分梯度,具体包括:确定预设的基准图像和插值路径,沿插值路径从基准图像开始按照指定插值步数均匀缩放样本图像像素强度,得到...

【专利技术属性】
技术研发人员:王乐乐王永恒巫英才王梦丝董子铭恽爽
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1