一种基于对抗性微调的分类神经网络后门清除方法及系统技术方案

技术编号:38196219 阅读:7 留言:0更新日期:2023-07-21 16:32
本发明专利技术公开了一种基于对抗性微调的分类神经网络后门清除方法及系统,所述方法具体是一种渐进式的基于对抗性微调的分类神经网络后门清除方法,其利用对抗扰动会带有后门触发器这一特征的特点,构建了基于对抗性微调的方法,维护一个随机初始化的、可更新的干净数据集使用对抗性微调进行防御,并不断从有毒的训练集中筛选出新的干净数据加入到干净数据集中,不断地提高防御效果,直到达到预先要求。综上,本发明专利技术在额外的干净数据集缺失的情况下,使用有毒训练集取得了较好的防御效果。使用有毒训练集取得了较好的防御效果。使用有毒训练集取得了较好的防御效果。

【技术实现步骤摘要】
一种基于对抗性微调的分类神经网络后门清除方法及系统


[0001]本专利技术属于计算机视觉及计算机图形学交叉
,特别涉及一种基于对抗性微调的分类神经网络后门清除方法及系统。

技术介绍

[0002]深度学习模型后门攻击是指攻击者作为第三方可以控制模型的训练过程,通过对数据集投毒(篡改训练数据集),在模型中植入后门,使得特定的输入模式能够触发恶意功能,对以深度神经网络为基础的人工智能系统构成严重威胁。
[0003]随着后门攻击的深入研究,攻击方案隐蔽性与成功率都有了极大的提高,这给针对后门攻击的防御带来了极大的挑战;其中,尤其是人脸识别与自动驾驶这样对安全性能要求较高的应用领域。具体的,人脸识别系统中,后门攻击可以让张三获得李四的门禁权限,从而攻击者可以进行一些非法操作;自动驾驶中,针对路标识别的后门攻击可以将禁止通行错误识别为减速慢行,从而引发交通事故等造成巨大的安全隐患。综上,对后门攻击的防御具有十分重大的研究意义。
[0004]目前,后门攻击的防御(例如,人脸识别系统和自动驾驶道路路标识别系统中的防御)都还存在以下两方面的问题:
[0005](1)防御方案都需要使用额外的干净数据集(解释性的,在没有额外的干净数据集的情况下,防御方案无法使用),而获取额外的干净数据集实际中很可能是不可行的,或者标注成本十分高昂;
[0006](2)后门攻击的隐蔽性与成功率都有了极大的提高,防御方案在面对后门攻击防御效果不佳,甚至有可能被绕过,导致防御失败。

技术实现思路

[0007]本专利技术的目的在于提供一种基于对抗性微调的分类神经网络后门清除方法及系统,以解决上述存在的一个或多个技术问题。本专利技术具体提供了一种渐进式的基于对抗性微调的分类神经网络后门清除方法,能够在额外干净数据集缺失的情况下,采用有毒训练集来防御各种后门攻击,可解决现有技术存在的在额外干净数据集缺失的情况下无法防御,以及针对后门攻击防御效果不佳的技术问题。
[0008]为达到上述目的,本专利技术采用以下技术方案:
[0009]本专利技术提供的一种基于对抗性微调的分类神经网络后门清除方法,包括以下步骤:
[0010]步骤1,获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行步骤2;
[0011]步骤2,基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网
络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行步骤3;
[0012]步骤3,判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行步骤2和步骤3。
[0013]本专利技术方法的进一步改进在于,所述初始的干净数据集通过在有毒训练集中随机采样进行初始化获得;
[0014]其中,所述有毒训练集为部分数据的图像或标签被篡改的数据集。
[0015]本专利技术方法的进一步改进在于,所述带有后门的分类神经网络模型为带有后门的人脸识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的人脸图像和对应的标签。
[0016]本专利技术方法的进一步改进在于,所述带有后门的分类神经网络模型为带有后门的自动驾驶道路路标识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的道路路标图像和对应的标签。
[0017]本专利技术方法的进一步改进在于,所述基于分类神经网络模型和干净数据集,生成对抗样本数据集的步骤包括:
[0018]将干净数据集的图像输入分类神经网络模型得到分类损失函数;
[0019]基于分类损失函数,计算获取干净数据集的对抗扰动;
[0020]将计算获取的所述对抗扰动添加到输入的图像上,得到对抗样本数据集的图像。
[0021]本专利技术方法的进一步改进在于,
[0022]所述分类损失函数为交叉熵损失函数;
[0023]所述对抗扰动的计算表达式为,
[0024][0025]式中,r表示对抗扰动,L表示交叉熵损失函数,x表示输入图像,表示对抗样本,y表示x所对应的标签,θ

表示神经网络模型参数,ε表示对抗扰动大小。
[0026]本专利技术方法的进一步改进在于,所述基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集的步骤包括:
[0027]分别计算获取带有后门的分类神经网络模型、第二清除后门的分类神经网络模型的预测概率向量;基于计算获取的预测概率向量,计算获取相似度;
[0028]根据预先设定的比例值,按照相似度从高到低的顺序选定样本加入到干净数据集,获得的更新后的干净数据集。
[0029]本专利技术方法的进一步改进在于,相似度为余弦相似度,表达式为,
[0030][0031]式中,A,B表示待计算相似度的两个向量,A
i
,B
i
分别表示A,B两个向量对应第i个位置的值,n为向量维度。
[0032]本专利技术提供的一种基于对抗性微调的分类神经网络后门清除系统,包括数据获取
模块、后门清除模块和判断更新模块;其中,
[0033]所述数据获取模块用于获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行后门清除模块的步骤;
[0034]所述后门清除模块用于基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行判断更新模块的步骤;
[0035]所述判断更新模块,用于判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行后门清除模块和判断更新模块的步骤。
[0036]与现有技术相比,本专利技术具有以下有益效果:
[0037]针对现有方法无法在额外的干净数据集缺失的情况下防御后门攻击,且对最新形式的后门攻击防御效果不佳的技术问题,本专利技术具体提供了一种渐进式的基于对抗性微调的分类神经网络后门清除方法;具体的,本专利技术利用对抗扰动会带有后门触发器这一特征的特点,构建了一种基于对抗性微调的方法,维护一个随机初始化的、可更新的干净数据集使用对抗性微调进行防御,并不断从有毒的训练集中筛选出新的干净本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,包括以下步骤:步骤1,获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行步骤2;步骤2,基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行步骤3;步骤3,判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行步骤2和步骤3。2.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述初始的干净数据集通过在有毒训练集中随机采样进行初始化获得;其中,所述有毒训练集为部分数据的图像或标签被篡改的数据集。3.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述带有后门的分类神经网络模型为带有后门的人脸识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的人脸图像和对应的标签。4.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述带有后门的分类神经网络模型为带有后门的自动驾驶道路路标识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的道路路标图像和对应的标签。5.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述基于分类神经网络模型和干净数据集,生成对抗样本数据集的步骤包括:将干净数据集的图像输入分类神经网络模型得到分类损失函数;基于分类损失函数,计算获取干净数据集的对抗扰动;将计算获取的所述对抗扰动添加到输入的图像上,得到对抗样本数据集的图像。6.根据权利要求5所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述分类损失函数为...

【专利技术属性】
技术研发人员:王乐穆昺旭周三平陈仕韬辛景民郑南宁
申请(专利权)人:宁波市舜安人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1