一种基于对抗性微调的分类神经网络后门清除方法及系统技术方案

技术编号：38196219 阅读：7 留言：0更新日期：2023-07-21 16:32

本发明专利技术公开了一种基于对抗性微调的分类神经网络后门清除方法及系统，所述方法具体是一种渐进式的基于对抗性微调的分类神经网络后门清除方法，其利用对抗扰动会带有后门触发器这一特征的特点，构建了基于对抗性微调的方法，维护一个随机初始化的、可更新的干净数据集使用对抗性微调进行防御，并不断从有毒的训练集中筛选出新的干净数据加入到干净数据集中，不断地提高防御效果，直到达到预先要求。综上，本发明专利技术在额外的干净数据集缺失的情况下，使用有毒训练集取得了较好的防御效果。使用有毒训练集取得了较好的防御效果。使用有毒训练集取得了较好的防御效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗性微调的分类神经网络后门清除方法及系统

[0001]本专利技术属于计算机视觉及计算机图形学交叉
，特别涉及一种基于对抗性微调的分类神经网络后门清除方法及系统。

技术介绍

[0002]深度学习模型后门攻击是指攻击者作为第三方可以控制模型的训练过程，通过对数据集投毒(篡改训练数据集)，在模型中植入后门，使得特定的输入模式能够触发恶意功能，对以深度神经网络为基础的人工智能系统构成严重威胁。
[0003]随着后门攻击的深入研究，攻击方案隐蔽性与成功率都有了极大的提高，这给针对后门攻击的防御带来了极大的挑战；其中，尤其是人脸识别与自动驾驶这样对安全性能要求较高的应用领域。具体的，人脸识别系统中，后门攻击可以让张三获得李四的门禁权限，从而攻击者可以进行一些非法操作；自动驾驶中，针对路标识别的后门攻击可以将禁止通行错误识别为减速慢行，从而引发交通事故等造成巨大的安全隐患。综上，对后门攻击的防御具有十分重大的研究意义。
[0004]目前，后门攻击的防御(例如，人脸识别系统和自动驾驶道路路标识别系统中的防御)都还存在以下两方面的问题：
[0005](1)防御方案都需要使用额外的干净数据集(解释性的，在没有额外的干净数据集的情况下，防御方案无法使用)，而获取额外的干净数据集实际中很可能是不可行的，或者标注成本十分高昂；
[0006](2)后门攻击的隐蔽性与成功率都有了极大的提高，防御方案在面对后门攻击防御效果不佳，甚至有可能被绕过，导致防御失败。

技术实现思路

[0007...

【技术保护点】

【技术特征摘要】
1.一种基于对抗性微调的分类神经网络后门清除方法，其特征在于，包括以下步骤：步骤1，获取带有后门的分类神经网络模型以及初始的干净数据集；跳转执行步骤2；步骤2，基于分类神经网络模型和干净数据集，生成对抗样本数据集；基于生成的对抗样本数据集，计算带有后门的分类神经网络模型的分类损失函数，更新网络参数并获得第一清除后门的分类神经网络模型；基于干净数据集，计算第一清除后门的分类神经网络模型的分类损失函数，更新网络参数并获得第二清除后门的分类神经网络模型；基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集，获得更新后的干净数据集；跳转执行步骤3；步骤3，判断更新后的干净数据集是否符合预设要求；其中，若符合预设要求，则完成分类神经网络后门清除；若不符合预设要求，则基于获得的更新后的干净数据集，跳转执行步骤2和步骤3。2.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法，其特征在于，所述初始的干净数据集通过在有毒训练集中随机采样进行初始化获得；其中，所述有毒训练集为部分数据的图像或标签被篡改的数据集。3.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法，其特征在于，所述带有后门的分类神经网络模型为带有后门的人脸识别分类神经网络模型，所述干净数据集中的每个样本均包括正确的人脸图像和对应的标签。4.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法，其特征在于，所述带有后门的分类神经网络模型为带有后门的自动驾驶道路路标识别分类神经网络模型，所述干净数据集中的每个样本均包括正确的道路路标图像和对应的标签。5.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法，其特征在于，所述基于分类神经网络模型和干净数据集，生成对抗样本数据集的步骤包括：将干净数据集的图像输入分类神经网络模型得到分类损失函数；基于分类损失函数，计算获取干净数据集的对抗扰动；将计算获取的所述对抗扰动添加到输入的图像上，得到对抗样本数据集的图像。6.根据权利要求5所述的一种基于对抗性微调的分类神经网络后门清除方法，其特征在于，所述分类损失函数为...

【专利技术属性】
技术研发人员：王乐，穆昺旭，周三平，陈仕韬，辛景民，郑南宁，
申请(专利权)人：宁波市舜安人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人