一种神经网络模型后门攻击检测方法技术

技术编号:28374583 阅读:40 留言:0更新日期:2021-05-08 00:01
本发明专利技术公开了一种神经网络模型后门攻击检测方法,包括以下步骤:S1、收集神经网络运行时的输入数据;S2、控制门优化训练,得到每个图片以及每个类对应的最优控制门;S3、关键神经元生成;S4、计算基于关键路径的数值特征的指标;S5、基于指标的异常指数计算,判断神经网络模型是否被后门攻击。本发明专利技术对控制门的生成的关键路径进行了数学分析,将模型的内部信息以关键路径的形式表现出来,提高了后门攻击检测方法的可靠性;使用运行时输入样本作为检测数据,即可完成对待检测模型的后门攻击检测,非常适用于部署阶段运行时神经网络模型后门攻击检测。

【技术实现步骤摘要】
一种神经网络模型后门攻击检测方法
特别涉及一种神经网络模型后门攻击检测方法,主要应用于安全关键型的智能系统的运行时后门攻击检测场景。
技术介绍
后门攻击是对基于神经网络(NN)的人工智能(AI)应用程序的严重威胁。后门攻击的原理是攻击者使用受到污染的数据集训练得到被攻击的模型,并发布到公共社区中。使用者在不知情的情况下使用了被攻击模型,并且在运行时模型的输入中混入了攻击者精心设计的触发器图片,即会导致模型的分类精度产生大幅度的下降,甚至使得模型不可用。后门攻击的目的是在神经网络模型中嵌入攻击者设计的后门,使得攻击者能够在任何时候基于该后门攻击用户的AI系统。在后门攻击的检测方面,B.Chen等人提出了一种基于分析数据集分布以及激活聚类的后门攻击检测的方法;B.Wang等人认为受到攻击的类是不稳定的,一些微小的扰动即能使得分类失败,因此提出了一种基于异常检测的方法来检测后门攻击;另外Y.Liu等人提出了一种基于检测预测结果分布的后门攻击检测方法,即正常的模型分类结果相对于数据集来说是均匀分布的,而存在后门的模型,则突出表现为一个类别的分类占比远超其他。本系统考虑在常见的后门攻击场景下,即攻击者训练并发布一个受攻击模型,然后用户在使用过程中可能会受到攻击,防御者提供一个可行的检测方法,以检测模型是否受到攻击。与现有检测方法不同,本系统基于神经网络模型的可解释性,从模型本身的特性触发,提出了一种基于神经元关键路径的后门攻击检测方法。本系统通过对生成的待检测的模型的关键路径进行分析,找到受攻击模型的关键路径与正常模型的区别,从而完成对待定模型的检测。神经网络关键路径生成技术用以分析神经网络模型中的关键神经元的路由路径。神经网络中的一些神经元不仅可以支持神经网络的推断运算,而且也会反映出输入图片的上的某些特征。与输入图片关联紧密的神经元可以认为是关键神经元。不同层的关键神经元组合成的关键神经元路由路径,称为属于该类的关键路径,不同类的关键路径的组合,称为整个模型的关键路径。另一方面,控制门是神经网络中的一个结构。控制门需要部署到神经网络中每层的每个神经元之后,作为一个参数与神经网络的输出相乘,作为神经网络神经元的最终输出,如图1所示。控制门作为一个参数,数值的大小可以表示对应神经元对于当前分类的敏感度和贡献度。例如如果某个神经元的对应的控制门的值为3.2,即认为这个神经元对于当前分类,相比于正常训练得到的输出,贡献度应当提高3.2倍。相反的,数值低于1的控制门对应的神经元,表示对于最终分类贡献度应当降低。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种使用运行时输入样本作为检测数据,对控制门的生成的关键路径进行了数学分析,将模型的内部信息以关键路径的形式表现出来,提高了后门攻击检测方法的可靠性的神经网络模型后门攻击检测方法。本专利技术的目的是通过以下技术方案来实现的:一种神经网络模型后门攻击检测方法,包括以下步骤:S1、收集神经网络运行时的输入数据:针对已经部署的神经网络模型,收集神经网络模型运行时的输入样本和对应的运行结果;S2、控制门优化训练,得到每个图片以及每个类对应的最优控制门;S3、关键神经元生成;S4、计算基于关键路径的数值特征的指标;S5、基于指标的异常指数计算,判断神经网络模型是否被后门攻击。进一步地,所述步骤S1具体实现方法为:S11、对输入到神经网络模型的图片进行预处理,使其符合神经网络模型的输入标准;S12、初始化计数器数值为0;S13、将输入的图片放置到缓存区,并将其输入到神经网络模型中进行推断;在得到神经网络模型的运行结果之后,将输入图片和运行结果作为一个数据组;经过神经网络模型运行之后分类结果相同的图片为同一个类,将同一个类的图片收集并形成一个集合;S14、将数据组进行保存,图片使用opencv直接保存,运行结果与图片的命名使用json格式保存,保证图片和结果一一对应;S15、计数器数值加一,判断计数器是否满足设定的数据量要求,若是则结束收集,否则返回步骤S13。进一步地,所述步骤S2具体实现方法为:S21、获取原始神经网络模型;S22、初始化部署到神经网络中的控制门,控制门部署在神经网络中每个神经元之后;S23、将图片分别输入原始神经网络模型和部署了控制门的神经网络模型中进行推断;S24、收集两个模型的运行结果并计算两个运行结果的交叉熵,然后使用梯度下降方法更新已经部署的控制门,经过100次迭代之后,完成对单个图片的控制门的训练;S25、保存属于单个图片的控制门;S26、对每张图片执行步骤S24和S25的操作,确保所有的图片均进行了控制门的训练。进一步地,所述步骤S3具体实现方法为:S31、设置两个不同的阈值,分别用于筛选属于单个图片和单个类的关键神经元;S32、遍历所有属于同一个类的图片的控制门,完成所有属于同一个类的图片的关键神经元的生成;具体生成方式为:对于单个图片的所有神经元对应的控制门,如果控制门的值超过设定的阈值,即认为这些超过阈值的控制门对应的神经元是属于这个图片的关键神经元,将对应的神经元的控制门设置为1;如果没有超过阈值,则认为控制门对应的神经元不是属于这个图片的关键神经元,将控制门的值设置为0;S33、计算每个神经元激活频率,如果激活频率超过设定的阈值,即认为这个神经元是属于这个类的关键神经元;没有超过设定阈值的神经元认为是非关键神经元,对于这个类不重要;S34、对所有类别的图片执行步骤S32和S33的操作,得到所有的关键神经元。进一步地,所述步骤S4具体实现方法为:S41、在计算得到一个类的关键神经元之后,连接所有属于这个类的关键神经元,得到属于这个类的关键路径;将所有类的关键路径拼接起来,即得到属于这个模型的关键路径;S42、计算每个类对应的多个输入图片的关键路径在每层的协方差矩阵;对于参与运算神经网络模型,共有L层,在一次运算中,按顺序选取其中一层计算某一层中关键路径的协方差矩阵,协方差矩阵表示多组数据之间的差异,用矩阵的形式表示:表示计算第l层的两组关键路径数据之间的协方差,表示对应于第p组图片的关键路径的数据,表示对应于第q组图片的关键路径数据,K表示图片数据的总数;p=1,2,...,K,q=1,2,...,K,p≠q,1≤l≤L;S43、计算对应于所有输入图片的关键路径在第l层的方差以及最终的在第l层的相关系数αl;相关系数指标是对关键路径中的关键神经元中,激活频率低于既定阈值τ的神经元进行统计分析:ci,j为矩阵Cl中第i行第j列元素,表示第l层对应的关键路径数据的标准差;αl表示对第l层的K张图片对应的关键路径进行相关系数计算;S44、计算离散度;离散度指标是对关键路径中的关键神经元中激活频率高于80%的神经元进行统计分析;这些较高激活频率的本文档来自技高网
...

【技术保护点】
1.一种神经网络模型后门攻击检测方法,其特征在于,包括以下步骤:/nS1、收集神经网络运行时的输入数据:针对已经部署的神经网络模型,收集神经网络模型运行时的输入样本和对应的运行结果;/nS2、控制门优化训练,得到每个图片以及每个类对应的最优控制门;/nS3、关键神经元生成;/nS4、计算基于关键路径的数值特征的指标;/nS5、基于指标的异常指数计算,判断神经网络模型是否被后门攻击。/n

【技术特征摘要】
1.一种神经网络模型后门攻击检测方法,其特征在于,包括以下步骤:
S1、收集神经网络运行时的输入数据:针对已经部署的神经网络模型,收集神经网络模型运行时的输入样本和对应的运行结果;
S2、控制门优化训练,得到每个图片以及每个类对应的最优控制门;
S3、关键神经元生成;
S4、计算基于关键路径的数值特征的指标;
S5、基于指标的异常指数计算,判断神经网络模型是否被后门攻击。


2.根据权利要求1所述的一种神经网络模型后门攻击检测方法,其特征在于,所述步骤S1具体实现方法为:
S11、对输入到神经网络模型的图片进行预处理,使其符合神经网络模型的输入标准;
S12、初始化计数器数值为0;
S13、将输入的图片放置到缓存区,并将其输入到神经网络模型中进行推断;在得到神经网络模型的运行结果之后,将输入图片和运行结果作为一个数据组;经过神经网络模型运行之后分类结果相同的图片为同一个类,将同一个类的图片收集并形成一个集合;
S14、将数据组进行保存,图片使用opencv直接保存,运行结果与图片的命名使用json格式保存,保证图片和结果一一对应;
S15、计数器数值加一,判断计数器是否满足设定的数据量要求,若是则结束收集,否则返回步骤S13。


3.根据权利要求1所述的一种神经网络模型后门攻击检测方法,其特征在于,所述步骤S2具体实现方法为:
S21、获取原始神经网络模型;
S22、初始化部署到神经网络中的控制门,控制门部署在神经网络中每个神经元之后;
S23、将图片分别输入原始神经网络模型和部署了控制门的神经网络模型中进行推断;
S24、收集两个模型的运行结果并计算两个运行结果的交叉熵,然后使用梯度下降方法更新已经部署的控制门,经过100次迭代之后,完成对单个图片的控制门的训练;
S25、保存属于单个图片的控制门;
S26、对每张图片执行步骤S24和S25的操作,确保所有的图片均进行了控制门的训练。


4.根据权利要求1所述的一种神经网络模型后门攻击检测方法,其特征在于,所述步骤S3具体实现方法为:
S31、设置两个不同的阈值,分别用于筛选属于单个图片和单个类的关键神经元;
S32、遍历所有属于同一个类的图片的控制门,完成所有属于同一个类的图片的关键神经元的生成;具体生成方式为:对于单个图片的所有神经元对应的控制门,如果控制门的值超过设定的阈值,即认为这些超过阈值的控制门对应的神经元是属于这个图片的关键神经元,将对应的神经元的控制门设置为1;如果没有超过阈值,则认为控制门对应的神经元不是属于这个图片的关键神经元,将控制门的值设置为0;
S33、计算每个神经元激活频率,如果激活频率超过设定的阈值,即认为这个神经元是属于这个类的关键神经元...

【专利技术属性】
技术研发人员:江维詹瑾瑜温翔宇周星志宋子微孙若旭廖炘可范翥峰
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1