一种基于频域特征融合再构的模型后门攻击对抗方法技术

技术编号:38990251 阅读:8 留言:0更新日期:2023-10-07 10:20
本发明专利技术公开了一种基于频域特征融合再构的模型后门攻击对抗方法。本方法对学生模型的特征图集合利用傅里叶卷积在频域对特征图进行滤波以去除在时域注入的后门攻击模式;依次从深层特征图到浅层特征图级联融合语义信息,使整个学生模型的输出成为整体,从而在匹配教师模型特征图的过程中增加学生模型可学习到的语义信息并削弱可能存在的基于局部信息的攻击后门;对融合后的特征图使用注意力运算在相邻输出特征图层间利用深层高阶语义信息增强浅层语义信息密度,从而提高学生模型学习能力,可获得更高训练精度。本发明专利技术可在不可信来源预训练模型基础上学习获得高精度且可去除时域攻击后门与基于局部信息的攻击后门的学生模型。生模型。生模型。

【技术实现步骤摘要】
一种基于频域特征融合再构的模型后门攻击对抗方法


[0001]本专利技术属于信息安全
,涉及一种基于频域特征融合再构的模型后门攻击对抗方法。

技术介绍

[0002]随着深度学习和神经网络模型的快速发展,人工智能系统已开始在日常生活中发挥越来越重要的作用。对于计算资源和数据集较为匮乏的终端用户来说,他们需要从互联网上下载预训练的模型,然后根据自己的需要对这些模型进行微调(He T,Zhang Z,Zhang H,et al.Bag of tricks for image classification with convolutional neural networks[C]//Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition(CVPR).2019:558

567.)或者知识蒸馏(Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[J].arXiv preprint arXiv:1503.02531,2015.),以便将这些模型迁移应用于特定的任务中。通过这种方式获取的人工智能模型不仅可以实现很好的泛化性能,还可以获得用户所需的模型大小,减小计算成本,同时在特定任务中达到较好的性能。
[0003]然而,互联网上发布的预训练模型存在被植入恶意后门模式的风险。攻击者可以通过特定的训练方式使预训练模型在遇到某些输入特征时表现出预定义的行为,如性能下降、有目的的损坏或者错误决策。人工智能模型的后门攻击具有极强的针对性,当模型应用场景中包含后门激活因素时,会导致非预期的错误情况出现(Liu Y,Wen R,He X,et al.{ML

Doctor}:Holistic Risk Assessment of Inference Attacks Against Machine Learning Models[C]//31st USENIX Security Symposium(USENIX Security 22).2022:4525

4542.)。除了攻击者直接发布带有后门的模型之外,一些在正规渠道发布的预训练模型的下载链接也有可能被劫持,以向终端用户传播恶意模型达到攻击目的。因此,从互联网上下载的人工智能模型在使用前需要进行必要的处理以确保安全。
[0004]目前,应用优化的知识蒸馏方法对受害模型进行处理是对抗人工智能模型后门攻击的有效手段之一(Kim J,Lee B K,Ro Y M.Distilling robust and non

robust features in adversarial examples by information bottleneck[J].Advances in Neural Information Processing Systems,(NIPS)2021,34:17148

17159.)。现有的技术方案主要是通过对输出中的每个特征像素进行匹配学习,在学习过程中采取措施降低后门传播的可能性。这些方法的优点在于可以对不可信的模型进行全部像素的抵抗学习,有助于去除在整体范围内起作用的触发器模式。然而,由于所选取的抵抗模式是在输入特征全范围生效的,对于以小范围语义信息作为触发器的后门攻击,这些方法的防护效果较差。
[0005]注意力机制是一种全局加权的信息交互机制,经由该机制处理的信息可获得信息内的关联关系,给出其内元素与其余元素的关联权重(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems(NIPS),2017,30.),该机制可以对深度学习模型的语义信息在全局范围内进行汇
集增强。
[0006]对于在时域注入的后门攻击模式,常见的后门攻击对抗方法也能进行处理(Li Y,Lyu X,Koren N,et al.Neural Attention Distillation:Erasing Backdoor Triggers from Deep Neural Networks[C]//International Conference on Learning Representations.2021),但存在降低模型原有性能的现象。

技术实现思路

[0007]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于频域特征融合再构的模型后门攻击对抗方法。
[0008]针对在时域注入的神经网络预训练模型后门攻击,本专利技术提出使用傅里叶卷积在频域对特征图进行滤波处理,过滤时域攻击触发器模式,从而可安全地学习预训练模型;傅里叶变换是一种常用的信号处理技术,该技术可以将时域信号转换为频域信号,从而可以在频域对原信号进行信号滤波和定向处理,即可以在频域选择性地滤除或保留某些频域分量,然后进行傅里叶反变换获得还原的经过滤波后的时域信号,从而达成在时域较难实现的部分操作。时域的部分信号特征模式在频域观察起来较为清晰,因此可在频域对潜在的后门攻击触发器模式进行处理。
[0009]针对基于局部信息的神经网络预训练模型后门攻击,本专利技术提出层间级联语义信息融合方法对待学习训练模型输出的不同阶层的特征图信息进行融合,形成整体语义能力,可抵抗基于局部信息的神经网络预训练模型后门攻击。
[0010]针对抵抗后门攻击的训练模式带来的神经网络模型精度下降,本专利技术提出使用层间注意力机制,对待学习训练模型不同阶层输出级联关联,并使用来自相邻深层特征图的高阶语义信息对浅层特征图语义信息进行加权融合,可提高语义信息聚集度,可在训练过程中学习到更强的模型精度。
[0011]为实现以上目的,本专利技术通过以下技术方案予以实现:基于频域特征融合再构的模型后门攻击对抗方法,包括以下步骤:
[0012](1)挑选并初始化在目标应用任务所属上级应用任务对应的大型模型作为教师模型M
tea
,下载并使用公共平台存储的教师模型M
tea
不完全可信预训练权重对教师模型M
tea
的参数权值覆盖,覆盖完成后固定教师模型M
tea
的参数权重,挑选并初始化输出阶层数与M
tea
一致的小型模型或与教师模型M
tea
一致的模型作为学生模型M
stu
;例如当目标应用任务为密集小目标检测任务或多实例小目标分割等计算机视觉下游任务时,所属上级应用任务一般为图像分类任务,此时所称的大型模型可指BASIC

L、ViT

e等使用大规模数据集执行训练并具备大量参数量的图像分类神经网络模型;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于频域特征融合再构的模型后门攻击对抗方法,其步骤包括:1)挑选并初始化目标应用任务所属上级应用任务对应的一模型作为教师模型M
tea
,获取所述教师模型M
tea
的预训练模型权重对所述教师模型M
tea
的参数权值进行覆盖;挑选并初始化一模型作为学生模型M
stu
;所述学生模型M
stu
的输出阶层数与所述教师模型M
tea
一致;2)将目标应用任务数据集的一样本分别输入到教师模型M
tea
和学生模型M
stu
当中,得到教师模型M
tea
的各中间层级输出的特征图构成的特征图集合Feats
tea
以及教师模型M
tea
最后一层输出的概率分布Logits
tea
,得到学生模型M
stu
的各中间层级输出的特征图构成的特征图集合Feats
stu
以及得到学生模型M
stu
最后一层输出的概率分布Logits
stu
;3)从最深的中间层的上一层开始,将学生模型M
stu
第l+1中间层输出的特征图Feats
stu
[l+1]与第l中间层输出的特征图Feats
stu
[l]进行尺寸对齐后共同输入到傅里叶卷积层中;所述傅里叶卷积层对特征图Feats
stu
[l+1]、Feats
stu
[l]转换到频域后进行信息融合,将Feats
stu
[l+1]包含的高阶语义信息注入融合到Feats
stu
[l]中得到第l中间层的全局频域特征图Fourier
g
[l],以及利用Feats
stu
[l]中包含的细节语义信息对Feats
stu
[l+1]进行补充得到第l中间层的局部频域特征图Fourier
l
[l],然后对Fourier
g
[l]与Fourier
l
[l]分别进行逆变换恢复到时域,得到第l中间层的全局时域特征图Fourier
global
[l]与第l中间层的局部时域特征图Fourier
local
[l];然后利用自注意力机制对Fourier
global
[l]、Fourier
local
[l]进行全局语义信息注意力权重计算,得到自注意力特征图Feats
attn
[l],并在下一级对第l

1层的处理中利用第l输出的局部时域特征图Fourier
local
[l]替换作为傅里叶卷积层输入中高阶语义信...

【专利技术属性】
技术研发人员:王承杰赵琛武延军吴敬征郑森文罗天悦
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1