一种神经网络模型后门攻击检测方法技术

技术编号：28374583 阅读：40 留言：0更新日期：2021-05-08 00:01

本发明专利技术公开了一种神经网络模型后门攻击检测方法，包括以下步骤：S1、收集神经网络运行时的输入数据；S2、控制门优化训练，得到每个图片以及每个类对应的最优控制门；S3、关键神经元生成；S4、计算基于关键路径的数值特征的指标；S5、基于指标的异常指数计算，判断神经网络模型是否被后门攻击。本发明专利技术对控制门的生成的关键路径进行了数学分析，将模型的内部信息以关键路径的形式表现出来，提高了后门攻击检测方法的可靠性；使用运行时输入样本作为检测数据，即可完成对待检测模型的后门攻击检测，非常适用于部署阶段运行时神经网络模型后门攻击检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络模型后门攻击检测方法
特别涉及一种神经网络模型后门攻击检测方法，主要应用于安全关键型的智能系统的运行时后门攻击检测场景。
技术介绍
后门攻击是对基于神经网络(NN)的人工智能(AI)应用程序的严重威胁。后门攻击的原理是攻击者使用受到污染的数据集训练得到被攻击的模型，并发布到公共社区中。使用者在不知情的情况下使用了被攻击模型，并且在运行时模型的输入中混入了攻击者精心设计的触发器图片，即会导致模型的分类精度产生大幅度的下降，甚至使得模型不可用。后门攻击的目的是在神经网络模型中嵌入攻击者设计的后门，使得攻击者能够在任何时候基于该后门攻击用户的AI系统。在后门攻击的检测方面，B.Chen等人提出了一种基于分析数据集分布以及激活聚类的后门攻击检测的方法；B.Wang等人认为受到攻击的类是不稳定的，一些微小的扰动即能使得分类失败，因此提出了一种基于异常检测的方法来检测后门攻击；另外Y.Liu等人提出了一种基于检测预测结果分布的后门攻击检测方法，即正常的模型分类结果相对于数据集来说是均匀分布的，而存在后门的模型，则突出表现为一个类别的分类占比远超其他。本系统考虑在常见的后门攻击场景下，即攻击者训练并发布一个受攻击模型，然后用户在使用过程中可能会受到攻击，防御者提供一个可行的检测方法，以检测模型是否受到攻击。与现有检测方法不同，本系统基于神经网络模型的可解释性，从模型本身的特性触发，提出了一种基于神经元关键路径的后门攻击检测方法。本系统通过对生成的待检测的模型的关键路径进行分析，找到受攻击模型的关键路径与...

【技术保护点】
1.一种神经网络模型后门攻击检测方法，其特征在于，包括以下步骤：/nS1、收集神经网络运行时的输入数据：针对已经部署的神经网络模型，收集神经网络模型运行时的输入样本和对应的运行结果；/nS2、控制门优化训练，得到每个图片以及每个类对应的最优控制门；/nS3、关键神经元生成；/nS4、计算基于关键路径的数值特征的指标；/nS5、基于指标的异常指数计算，判断神经网络模型是否被后门攻击。/n

【技术特征摘要】
1.一种神经网络模型后门攻击检测方法，其特征在于，包括以下步骤：
S1、收集神经网络运行时的输入数据：针对已经部署的神经网络模型，收集神经网络模型运行时的输入样本和对应的运行结果；
S2、控制门优化训练，得到每个图片以及每个类对应的最优控制门；
S3、关键神经元生成；
S4、计算基于关键路径的数值特征的指标；
S5、基于指标的异常指数计算，判断神经网络模型是否被后门攻击。

2.根据权利要求1所述的一种神经网络模型后门攻击检测方法，其特征在于，所述步骤S1具体实现方法为：
S11、对输入到神经网络模型的图片进行预处理，使其符合神经网络模型的输入标准；
S12、初始化计数器数值为0；
S13、将输入的图片放置到缓存区，并将其输入到神经网络模型中进行推断；在得到神经网络模型的运行结果之后，将输入图片和运行结果作为一个数据组；经过神经网络模型运行之后分类结果相同的图片为同一个类，将同一个类的图片收集并形成一个集合；
S14、将数据组进行保存，图片使用opencv直接保存，运行结果与图片的命名使用json格式保存，保证图片和结果一一对应；
S15、计数器数值加一，判断计数器是否满足设定的数据量要求，若是则结束收集，否则返回步骤S13。

3.根据权利要求1所述的一种神经网络模型后门攻击检测方法，其特征在于，所述步骤S2具体实现方法为：
S21、获取原始神经网络模型；
S22、初始化部署到神经网络中的控制门，控制门部署在神经网络中每个神经元之后；
S23、将图片分别输入原始神经网络模型和部署了控制门的神经网络模型中进行推断；
S24、收集两个模型的运行结果并计算两个运行结果的交叉熵，然后使用梯度下降方法更新已经部署的控制门，经过100次迭代之后，完成对单个图片的控制门的训练；
S25、保存属于单个图片的控制门；
S26、对每张图片执行步骤S24和S25的操作，确保所有的图片均进行了控制门的训练。

4.根据权利要求1所述的一种神经网络模型后门攻击检测方法，其特征在于，所述步骤S3具体实现方法为：
S31、设置两个不同的阈值，分别用于筛选属于单个图片和单个类的关键神经元；
S32、遍历所有属于同一个类的图片的控制门，完成所有属于同一个类的图片的关键神经元的生成；具体生成方式为：对于单个图片的所有神经元对应的控制门，如果控制门的值超过设定的阈值，即认为这些超过阈值的控制门对应的神经元是属于这个图片的关键神经元，将对应的神经元的控制门设置为1；如果没有超过阈值，则认为控制门对应的神经元不是属于这个图片的关键神经元，将控制门的值设置为0；
S33、计算每个神经元激活频率，如果激活频率超过设定的阈值，即认为这个神经元是属于这个类的关键神经元...

【专利技术属性】
技术研发人员：江维，詹瑾瑜，温翔宇，周星志，宋子微，孙若旭，廖炘可，范翥峰，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人