一种基于安全训练的后门攻击防御方法及防御系统技术方案

技术编号：32833720 阅读：16 留言：0更新日期：2022-03-26 20:50

本发明专利技术公开了一种基于安全训练的后门攻击防御方法及防御系统，属于神经网络安全技术领域，能够大幅度降低后门攻击成功率并保持模型在正常样本上的准确率以及在毒化样本上的鲁棒准确率。所述方法包括：步骤1、获取后门毒化数据集；步骤2、利用过滤指标滤除后门毒化数据集中的毒化样本，得到训练样本集；步骤3、利用训练样本集训练神经网络模型；步骤4、根据训练后的神经网络模型更新过滤指标；步骤5、重复执行预设次数的步骤2至步骤4。本发明专利技术用于后门攻击防御。攻击防御。攻击防御。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于安全训练的后门攻击防御方法及防御系统

[0001]本专利技术涉及一种基于安全训练的后门攻击防御方法及防御系统，属于神经网络安全

技术介绍

[0002]深度神经网络模型当前被广泛地应用于许多与安全相关的任务中，如人脸识别、自动驾驶和恶意软件检测等。但是，训练一个深度神经网络模型通常需要大量数据。为实现最先进的性能，用户往往通过第三方的数据提供者购买数据集，或者收集一些开源的数据集。然而，这些缺乏可信赖的人工监督所采集的数据极容易遭受后门攻击。在后门攻击中，攻击者在干净样本上添加后门触发器得到毒化样本，模型在训练过程中被注入后门。含有后门的模型在正常的测试样本上表现良好，而会将添加上后门触发器的测试样本分类为攻击者指定的目标类别。因此，后门攻击可以构成隐秘而严重的安全威胁。
[0003]目前的后门攻击方法可以根据目标标签的性质分为毒化标签攻击与干净标签攻击。根据触发器的性质，又可以将毒化标签攻击分为样本相关攻击与样本无关攻击。同时也有一些防御方法来解除后门攻击威胁，主流的防御可分为两大类，包括：(1)基于检测的防御试图检测模型是否含有后门，如果含有后门则对其拒绝使用；(2)基于消除的防御试图消除被攻击后的模型中的后门，将其转化为干净模型。其中，针对第二类防御，要么用额外的干净样本消除后门，要么依据干净样本和毒化样本在含有后门的模型中，或者在后门注入模型的过程中的不同表现来区分二者，继而消除后门。但是由于后门被注入过模型，它即使被消除，仍会在模型中留下痕迹，从而影响模型对正常样本的检测准确率。r/>
技术实现思路

[0004]本专利技术提供了一种基于安全训练的后门攻击防御方法及防御系统，能够大幅度降低后门攻击成功率并保持模型在正常样本上的准确率以及在毒化样本上的鲁棒准确率。
[0005]一方面，本专利技术提供了一种基于安全训练的后门攻击防御方法，所述方法包括：
[0006]步骤1、获取后门毒化数据集；
[0007]步骤2、利用过滤指标滤除所述后门毒化数据集中的毒化样本，得到训练样本集；
[0008]步骤3、利用所述训练样本集训练神经网络模型；
[0009]步骤4、根据训练后的神经网络模型更新所述过滤指标；
[0010]步骤5、重复执行预设次数的所述步骤2至所述步骤4。
[0011]可选的，所述过滤指标包括第一指标和第二指标；
[0012]所述步骤2具体包括：
[0013]利用第一指标将所述后门毒化数据集划分为标签为目标类别的样本和标签为非目标类别的样本；
[0014]利用第二指标将所述标签为目标类别的样本划分为毒化样本和干净样本，滤除所述毒化样本后，得到标签为目标类别的干净样本；
[0015]将所述标签为非目标类别的样本和所述标签为目标类别的干净样本组成训练样本集。
[0016]可选的，所述第一指标为平均类内距离，其计算公式为：
[0017][0018]式中，D
i
为标签为i的样本所组成的数据集；h(x)为样本x的特征；为D
i
在特征空间中的中心点；为全部类别所构成的集合；
[0019]所述第二指标为主体邻居标签，其计算公式为：
[0020][0021]式中，为样本x
i
在特征空间中的k近邻；为示性函数。
[0022]可选的，所述步骤3具体包括：
[0023]将所述训练样本集输入神经网络模型中，利用包含两个正则化项的交叉熵损失函数训练所述神经网络模型。
[0024]可选的，所述交叉熵损失函数函数为：
[0025][0026]式中，为标签为非目标类别的样本；[f(x)]y
为f(x)的第y个元素；e为当前训练回合次数；为标签为目标类别的干净样本。
[0027]可选的，所述两个正则化项分别为类间相似度和类内距离其中，
[0028][0029]式中，为类别总数；为类别i在特征空间中的中心点；
[0030][0031]式中，为目标类别。
[0032]可选的，所述神经网络模型的总损失函数为：
[0033][0034]式中，λ1和λ2分别表示两个正则化项的权重系数。
[0035]另一方面，本专利技术实施例提供了一种基于安全训练的后门攻击防御系统，所述系统包括：
[0036]获取模块，用于获取后门毒化数据集；
[0037]样本过滤模块，用于利用过滤指标滤除所述后门毒化数据集中的毒化样本，得到
训练样本集；
[0038]模型训练模块，用于利用所述训练样本集训练神经网络模型；
[0039]指标更新模块，用于根据训练后的神经网络模型更新所述过滤指标；
[0040]控制模块，用于控制所述样本过滤模块、所述模型训练模块和所述指标更新模块依次重复执行预设次数。
[0041]可选的，所述过滤指标包括第一指标和第二指标；
[0042]所述样本过滤模块具体用于：
[0043]利用第一指标将所述后门毒化数据集划分为标签为目标类别的样本和标签为非目标类别的样本；
[0044]利用第二指标将所述标签为目标类别的样本划分为毒化样本和干净样本，滤除所述毒化样本后，得到标签为目标类别的干净样本；
[0045]将所述标签为非目标类别的样本和所述标签为目标类别的干净样本组成训练样本集。
[0046]可选的，所述模型训练模块具体用于：
[0047]将所述训练样本集输入神经网络模型中，利用包含两个正则化项的交叉熵损失函数训练所述神经网络模型。
[0048]本专利技术能产生的有益效果包括：
[0049]本专利技术提供的基于安全训练的后门攻击防御方法及防御系统，基于对后门毒化数据集在未被攻击的模型下的特征空间的观察，设计包含样本过滤模块与模型训练模块的安全训练的方法，在样本过滤模块中，通过“平均类内距离”和“主体邻居标签”两个过滤指标分别辨别出目标类别与毒化样本，使后门毒化数据集可以过滤为干净的训练样本集。在模型训练模块中，通过使用包含两个正则化项的交叉熵损失函数训练模型，使其不被注入后门。样本过滤模块与模型训练模块交替进行，相互优化。因此，即使直接在后门毒化的数据集上训练模型，也能得到一个没有被注入后门的干净模型。本专利技术提出的方法具有很强的实际操作性，可以大幅度降低攻击成功率，并保持模型在正常样本上的准确率以及在毒化样本上的鲁棒准确率。
附图说明
[0050]图1为本专利技术实施例提供的基于安全训练的后门攻击防御方法流程图；
[0051]图2为本专利技术实施例提供的基于安全训练的后门攻击防御系统示意图。
具体实施方式
[0052]下面结合实施例详述本专利技术，但本专利技术并不局限于这些实施例。
[0053]本专利技术考虑的后门防御可以归为基于毒化抑制的防御，主要解决如何在后门毒化的数据集上训练干净模型的问题。在该场景中，攻击者设置目标类别和触发器后，将毒化数据发布在第三方数据平台；受害者下载毒本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于安全训练的后门攻击防御方法，其特征在于，所述方法包括：步骤1、获取后门毒化数据集；步骤2、利用过滤指标滤除所述后门毒化数据集中的毒化样本，得到训练样本集；步骤3、利用所述训练样本集训练神经网络模型；步骤4、根据训练后的神经网络模型更新所述过滤指标；步骤5、重复执行预设次数的所述步骤2至所述步骤4。2.根据权利要求1所述的后门攻击防御方法，其特征在于，所述过滤指标包括第一指标和第二指标；所述步骤2具体包括：利用第一指标将所述后门毒化数据集划分为标签为目标类别的样本和标签为非目标类别的样本；利用第二指标将所述标签为目标类别的样本划分为毒化样本和干净样本，滤除所述毒化样本后，得到标签为目标类别的干净样本；将所述标签为非目标类别的样本和所述标签为目标类别的干净样本组成训练样本集。3.根据权利要求2所述的后门攻击防御方法，其特征在于，所述第一指标为平均类内距离其计算公式为：式中，D
i
为标签为i的样本所组成的数据集；h(x)为样本x的特征；为D
i
在特征空间中的中心点；为全部类别所构成的集合；所述第二指标为主体邻居标签其计算公式为：式中，为样本x
i
在特征空间中的k近邻；为示性函数。4.根据权利要求2所述的后门攻击防御方法，其特征在于，所述步骤3具体包括：将所述训练样本集输入神经网络模型中，利用包含两个正则化项的交叉熵损失函数训练所述神经网络模型。5.根据权利要求4所述的后门攻击防御方法，其特征在于，所述交叉熵损失函数函数为：式中，为标签为非目标类别的样本；[f(x)]

【专利技术属性】
技术研发人员：陈炜欣，吴保元，王好谦，
申请(专利权)人：香港中文大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人