一种面向深度学习可解释性的鲁棒性对抗训练方法技术

技术编号：40918603 阅读：5 留言：0更新日期：2024-04-18 14:44

本发明专利技术涉及深度学习可解释性领域，具体涉及一种面向深度学习可解释性的鲁棒性对抗训练方法，包括：采用解释攻击方法建立对抗解释样本的数据集，正常样本和对抗解释样本作为数据元组输入深度学习模型，经模型传播计算样本的分类得分；对数据进行沿解释梯度的多方向采样，计算模型对采样数据的预测分数和计算采样数据的综合损失项；计算模型梯度的L2鲁棒性正则损失项和余弦鲁棒性正则损失项；计算总损失项，反向传播迭代更新模型参数。该方法可以提升模型的解释鲁棒性，可以较为高效地提升模型对输入样本的解释准确性，使解释不容易被操纵攻击。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种深度学习领域对可解释性攻击的防御方法，旨在提供一种对深度学习可解释性操纵防御的解释鲁棒性对抗训练方法。

技术介绍

1、深度学习技术作为人工智能领域的重要支柱，其强大的数据处理和模式识别能力使其在图像处理、自然语言处理等诸多领域取得了显著成就。可解释性是深度学习模型的重要属性之一，指的是对模型决策和预测结果进行解释和理解的能力。在深度学习中，可解释性不仅包括输出结果的解释，还涉及到模型如何对输入数据进行处理和学习到的规律是如何被理解的。理想情况下，具备良好可解释性的模型能够向用户清晰地展示模型对输入数据的认知和理解过程，增强了用户对模型输出的信任度，有助于提高系统的可信度和可靠性。

2、尽管深度学习模型在许多任务上取得了显著的成绩，但其可解释性在面对对抗攻击时显现出脆弱性。对抗攻击是指针对机器学习模型的有意设计，旨在误导模型的输入数据，以使其产生错误的输出结果。对可解释性攻击的形式多种多样，可能包括对输入数据的微小扰动或修改，以致使深度学习模型产生不可靠的决策结果。这种攻击不仅可能影响模型的输出准确性，也会使得模型的解释性受到威胁，进而降低用户对模型决策的信任度。当前，这种脆弱性限制了深度学习模型在实际应用中的可靠性和稳定性，因此，加强对可解释性攻击的防御成为了当前深度学习领域的研究重点之一。

技术实现思路

1、本专利技术旨在至少在一定程度上解决可解释性攻击的防御问题。为此，本专利技术的目的在于提出一种基于局部梯度对齐的解释鲁棒性对抗训练方法，本专利技术

2、为达到以上目的，本专利技术提出了一种基于局部梯度对齐的解释鲁棒性训练方法，包括以下步骤：

3、步骤s1：采用对抗解释操纵攻击方法获取对抗样本，正常样本和对抗样本作为一组模型输入数据，输入数据正向传播计算分类得分的交叉熵损失。

4、步骤s2：对输入数据进行2次采样，其中包括沿解释结果方向采样和沿垂直于解释结果的方向采样，模型对采样数据正向传播计算预测分数，根据预测分数计算采样数据的采样综合正则项损失。

5、步骤s3：模型对数据反向传播获取模型对输入数据的梯度，根据梯度计算l2鲁棒性正则项损失和余弦鲁棒性正则项损失。

6、步骤s4：根据步骤s2、s3、s4的损失项计算对抗训练的总损失，反向传播迭代更新模型参数。

7、以上所述步骤s1具体步骤为：

8、采用优化的方式对数据集中干净样本进行迭代生成对抗解释样本，其中对抗解释样本的损失函数设计分为两部分，第一部分目的为控制目标解释改变为指定结果，第二部分目的为保证样本位置原预测分数，具体公式如下：

9、

10、其中，h(·)为样本的解释结果，h(g，xadv)表示对抗样本的解释结果，ht为指定的解释图，f(·)为样本的预测分数，f(xadv)表示对抗样本的预测分数，f(x)表示干净样本的预测分数。

11、并且，为保证模型的分类性能，对抗训练的第一个损失项设置为模型预测分数与真实标签的交叉熵损失，可以描述为：

12、j(f，x，y)1＝l(f(x)，y)

13、以上所述步骤s2中对数据进行采样指沿解释方向上采样和沿垂直于解释的方向上采样，其中，沿解释方向的采样步骤可以描述为：

14、xi＝x+δ1h(f，x)/||h(f，x)||2，-δ1≤δ1≤δ1，

15、沿垂直于解释方向的采样步骤可以描述为：

16、xp＝xi+δ2h⊥(f，x)/||h⊥(f，x)||2，-δ2≤δ2≤δ2，

17、其中，xi为输入样本，xi是沿解释方向的采样，xp是沿垂直于解释方向的采样，利用采样样本的预测分数计算数据增强部分的综合损失项，损失项可以表示为：

18、

19、以上所述步骤s3中设计了两个正则项，目的在于使模型局部梯度在大小和方向上均对齐，其中l2鲁棒性正则项可以表示为：

20、

21、余弦鲁棒性正则项可以表示为：

22、

23、其中，表示干净样本x对于真实标签y的反向传播梯度，表示计算干净样本梯度与对抗样本梯度之间的余弦相似度。

24、上述步骤s4中计算对抗训练总损失设计表示为：

25、

26、其中α，λl2，λcos为控制损失项强度的超参数。

27、本专利技术的有益效果是：

28、首先，通过在训练过程中引入对抗解释样本，本方法使得模型更具鲁棒性，能够更有效地对抗对解释的操纵。这种对抗解释样本的引入可以帮助模型更好地理解和捕捉数据中的特征，从而提高模型对解释性操纵的防御能力，增强了模型对错误解释的干扰能力。

29、其次，本专利技术所采用的沿解释方向采样的方式对对抗解释样本进行高效采样，不仅提升了对抗训练的效率，降低了训练代价，同时也使得模型在解释鲁棒性方面表现更为出色。这种高效采样的方法有助于模型更快地学习到对解释性操纵的抵抗能力，加速了模型的收敛速度，提高了解释鲁棒性的表现。

30、最后，本专利技术对模型梯度进行约束，使得模型的局部梯度在大小和方向上一致。这一约束性操作使得模型在应对基于梯度的对抗解释操纵时更为稳健，提升了模型在解释方面的泛化能力。这种方式有效地减少了梯度对解释性操纵的敏感性，从而增强了模型的鲁棒性和安全性，为神经网络在实际应用中的可靠性和稳定性提供了有力保障。

本文档来自技高网...

【技术保护点】

1.一种面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，包括：

2.根据权利要求1所述的面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，所述步骤S1中解释操纵的攻击算法具体包括：

3.根据权利要求1所述的面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，所述步骤S2的数据采样具体包括：

4.根据权利要求1所述的面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求1所述的面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，所述步骤S4具体包括：

【技术特征摘要】

1.一种面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，包括：

2.根据权利要求1所述的面向深度学习可解释性的鲁棒性对抗训练方法，其特征在于，所述步骤s1中解释操纵的攻击算法具体包括：

3.根据权利要求1所述的面向深度学习可解释性的鲁棒性对抗训练方...

【专利技术属性】
技术研发人员：陈自刚，潘鼎，张镇江，肖琪，朱海华，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人