一种基于多样性和随机策略的模型训练方法及装置制造方法及图纸

技术编号：39407016 阅读：10 留言：0更新日期：2023-11-19 15:59

本说明书公开了一种基于多样性和随机策略的模型训练方法及装置，待训练的分类模型包含多个基模型，该待训练的分类模型又分为多层切换块，按照前向传播方向依次训练各层切换块，根据各基模型输出的分类结果和标注，确定分类损失，根据各基模型输出的分类结果和样本图像，确定多样性正则损失。在训练过程中，该层切换块的输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像，输出为该层切换块中随机一子模块的输出。这样训练出的分类模型，既保证了模型输出的分类结果准确度，又使各基模型输出的分类结果中各类别对应的概率分布不同，模型的输出为随机一个基模型的输出，极大提高了该分类模型的鲁棒性。极大提高了该分类模型的鲁棒性。极大提高了该分类模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多样性和随机策略的模型训练方法及装置

[0001]本说明书涉及计算机
，尤其涉及一种基于多样性和随机策略的模型训练方法及装置。

技术介绍

[0002]如今，深度神经网络模型在许多应用领域都表现出了优异的性能，如，图像分类、汽车自动驾驶、语音识别、自然语言处理等。但是，深度学习模型很容易遭受由攻击者精心设计的对抗样本的攻击，即通过故意添加细微的、人类察觉不到的干扰形成的输入样本，导致模型以高置信度给出一个错误的输出。对抗样本的存在使深度神经网络模型的应用面临巨大安全隐患，因此，提高模型对于对抗样本的鲁棒性是一个重要课题。
[0003]目前，传统提高深度学习模型鲁棒性的方法包括对抗训练、输入转换、梯度掩码和随机网络防御等，这些方法虽然能够提高深度学习模型的鲁棒性，但都是以牺牲模型对于真实的输入样本的预测准确率为代价的。
[0004]因此，如何在提高深度学习模型鲁棒性的同时保证高的预测准确率是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种基于多样性和随机策略的模型训练方法、装置、存储介质及电子设备，以至少部分地解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案：本说明书提供了一种基于多样性和随机策略的模型训练方法，待训练的分类模型包含多个基模型，每个基模型划分为串联的多层子模块，各基模型中相同层的子模块组成切换块，所述待训练的分类模型由多层切换块组成，包括：获取待分类的样本图像以及所述样本图像的标注，并将所述样本图像输入所述待训练的分类...

【技术保护点】

【技术特征摘要】
1.一种基于多样性和随机策略的模型训练方法，其特征在于，待训练的分类模型包含多个基模型，每个基模型划分为串联的多层子模块，各基模型中相同层的子模块组成切换块，所述待训练的分类模型由多层切换块组成，所述方法包括：获取待分类的样本图像以及所述样本图像的标注，并将所述样本图像输入所述待训练的分类模型；按照前向传播方向，依次训练各层切换块，针对每一层待训练的切换块，在已固定参数的各前层切换块的基础上，确定该层切换块的输入，所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像；根据该层切换块的输入，确定该层切换块中各子模块的输出，根据随机策略确定各基模型输出的分类结果，并基于所述样本图像的标注，确定分类损失；根据预设的基准图像、所述样本图像以及各基模型输出的中间图像，确定各基模型的积分梯度，并根据各积分梯度确定多样性正则损失，所述多样性正则损失的值越小代表各积分梯度之间的差异越大；根据所述分类损失和所述多样性正则损失，训练未固定模型参数的各层切换块，直至满足训练结束条件为止，固定该层切换块的模型参数，并训练下一层切换块；当各层切换块的模型参数均固定时，得到训练完成的分类模型；响应于携带待分类图像的任务请求，将所述待分类图像输入所述训练完成的分类模型，通过在各层切换块中随机选择的子模块组成的网络，所述分类模型输出所述待分类图像的分类结果。2.如权利要求1所述的方法，其特征在于，针对每一层待训练的切换块，在已固定参数的各前层切换块的基础上，确定该层切换块的输入，所述输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像，具体包括：若该层切换块是第一层切换块，则该层切换块的输入为所述样本图像；若该层切换块不是第一层切换块，则将所述样本图像通过已固定参数的各前层切换块后，该层切换块的上一层切换块中随机一子模块的输出，作为该层切换块的输入。3.如权利要求1所述的方法，其特征在于，所述待训练的分类模型的最后一层切换块的各子模块中至少包括输出层；根据该层切换块的输入，确定该层切换块中各子模块的输出，根据随机策略确定各基模型输出的分类结果，具体包括：将该层切换块的输入作为该层切换块中各子模块的输入，确定该层切换块中各子模块的输出；根据随机策略，将该层切换块中各子模块的输出输入之后未固定参数的各层切换块；通过所述最后一层切换块中各子模块的输出层，得到最后一层切换块中各子模块输出的分类结果；确定所述最后一层切换块中各子模块所属的基模型，将最后一层切换块中各子模块输出的分类结果，作为所述最后一层切换块中各子模块所属的基模型输出的分类结果。4.如权利要求1所述的方法，其特征在于，并基于所述样本图像的标注，确定分类损失，具体包括：根据各基模型输出的分类结果和所述样本图像的标注，确定各基模型的分类交叉熵损失；
对各基模型的分类交叉熵损失求均值，得到所述待训练的分类模型的分类损失。5.如权利要求1所述的方法，其特征在于，根据预设的基准图像、所述样本图像以及各基模型输出的中间图像，确定各基模型的积分梯度，具体包括：确定预设的基准图像和插值路径，沿插值路径从基准图像开始按照指定插值步数均匀缩放样本图像像素强度，得到...

【专利技术属性】
技术研发人员：王乐乐，王永恒，巫英才，王梦丝，董子铭，恽爽，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人