深度神经网络鲁棒性评估方法和调优方法技术

技术编号:35854009 阅读:21 留言:0更新日期:2022-12-07 10:40
公开了一种对抗攻击评估方法,包括:确定针对目标深度神经网络进行对抗性攻击的攻击成功率;向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本;获取原始样本与对抗样本之间距离的初始值;调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动;以及基于所述最小扰动,评估所述深度神经网络针对对抗性攻击的鲁棒性。该方法通过在给定的攻击成功率下搜索最小扰动,避免了现有技术中为不同的数据集设置不同扰动预算的需要,并且可以通过为一个图片样本求取一个最小扰动值来大幅降低DNN鲁棒性评估所需的计算开销。另外,本发明专利技术通过评价指标的合理设置,能够更准确地对目标DNN针对对抗性攻击的鲁棒性进行评估。鲁棒性进行评估。鲁棒性进行评估。

【技术实现步骤摘要】
深度神经网络鲁棒性评估方法和调优方法


[0001]本公开涉及一种深度学习领域,尤其涉及一种深度神经网络鲁棒性评估方法和调优方法。

技术介绍

[0002]近年来,深度神经网络(DNN)业已取得重大进展,成为诸多行业的核心技术。但许多研究表明,深度神经网络对于对抗攻击十分脆弱。具体来说,对抗性攻击可以通过使用在普通样本上增加轻微的精心设计的敌对噪声而制作的对抗样本来欺骗深度神经网络,使得深度神经网络产生推测错误。深度神经网络的脆弱性成为其部署在例如自动驾驶、医疗等高安全性要求的场景的主要约束。由于对抗攻击能够暴露深度神经网络的盲点,因此开发一种有效且高效的针对对抗性攻击的DNN鲁棒性方法已成为深度学习安全领域的一项基本任务。

技术实现思路

[0003]本公开要解决的一个技术问题是提供一种对抗攻击评估方法,能够有效且高效地评估DNN对于对抗性攻击的真实鲁棒性。该方法通过在给定的攻击成功率(ASR)下搜索最小扰动,避免了现有技术中为不同的数据集设置不同扰动预算的需要,并且可以通过为一个图片样本获取一个最小扰动值来大幅降低DNN鲁棒性评估所需的计算开销。进一步地,本专利技术通过评价指标的合理设置,能够更为准确地对DNN针对对抗性攻击的鲁棒性进行评估。
[0004]根据本公开的第一个方面,提供了一种深度神经网络鲁棒性评估方法,包括:确定针对目标深度神经网络进行对抗性攻击的攻击成功率;向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本;获取所述目标图片原始样本与所述目标图片对抗样本之间距离的初始值;调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动;以及基于所述最小扰动,评估所述深度神经网络针对对抗性攻击的鲁棒性。
[0005]可选地,所述距离包括所述目标图片原始样本与所述目标图片对抗样本之间的人类可感知距离,所述目标图片原始样本和所述目标图片对抗样本被映射至色差空间以求取所述人类可感知距离。
[0006]可选地,所述方法还包括:使用攻击有效性指标表征所述攻击成功率,所述攻击有效性指标至少包括如下至少一项:基于所述目标图片原始样本的真实标签惩罚所述目标深度神经网络输出的攻击有效性指标;在所述最小扰动搜索过程中隐式调整步长的攻击有效性指标;以及融合所述目标深度神经网络分类信息的攻击有效性指标。
[0007]可选地,向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本包括:向所述目标图片原始样本添加第一初始扰动以获取所述目标图片初始对抗样本,其中,所述第一初始扰动使得所述初始的目标图片对抗样本被所述目标神经网络错误分类;并且,调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动包括:通过迭代计算求取所述最小扰动,其中,每次迭代都使得扰动朝向所述人类可感知距离减
小最多的方向移动。
[0008]可选地,向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本包括:向所述目标图片原始样本添加第二初始扰动以获取所述初始的目标图片对抗样本,其中,所述第二初始扰动为全零向量;以及通过迭代计算求取最小扰动,其中,每次迭代都使得扰动值朝向使得所述目标图片对抗样本被所述目标神经网络错误分类的方向移动。
[0009]可选地,通过迭代计算求取最小扰动还包括:在所述目标图片对抗样本被所述目标神经网络分类发生改变的迭代轮次中,降低针对所述最小扰动的搜索步长。
[0010]可选地,调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动包括:构造同时表征添加了扰动值的目标图片对抗样本被所述目标神经网络的分类结果并且能够使得所述距离最小的目标函数;以及基于所述目标函数的梯度优化搜索所述最小扰动。
[0011]可选地,所述攻击成功率表征包括n个目标图片样本的目标图片数据集在添加所述最小扰动后被所述目标深度数据网络错误分类的概率,其中,调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动包括:针对所述目标图片数据集中的每个目标图片样本,求取一次针对该样本的最小扰动;并且,基于所述最小扰动,评估所述深度神经网络针对对抗性攻击的鲁棒性包括:求取每个目标图片样本的原始样本和添加了对应最小扰动的攻击样本之间的人类可感知距离;以及,根据n个所述人类可感知距离,评估所述深度神经网络针对对抗性攻击的鲁棒性。
[0012]根据本公开的第二个方面,提供了一种深度神经网络调优方法,包括:使用如第一方面所述方法求取的最小扰动构造目标图片对抗样本;使用所述目标图片对抗样本和原始标签迭代调优所述深度神经网络;以及基于迭代调优的结果,获取能够将所述目标图片对抗样本分类至所述原始标签对应分类的经调优的深度神经网络。
[0013]根据本公开的第三个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面所述的方法。
[0014]根据本公开的第四个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面所述的方法。
[0015]由此,本专利技术公开了一种对抗攻击的DNN鲁棒性评估方法,能够有效且高效地评估DNN对于对抗性攻击的真实鲁棒性。该方法通过在给定的攻击成功率(ASR)下搜索最小扰动,避免了现有技术中为不同的数据集设置不同扰动预算的需要,并且可以通过为一个图片样本求取一个最小扰动值来大幅降低DNN鲁棒性评估所需的计算开销。进一步地,本专利技术通过人类可感知指标和攻击有效性指标的合理涉及,能够更为准确地进行DNN鲁棒性评估。
附图说明
[0016]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0017]图1示出了构造对抗样本进行对抗性攻击的一个例子。
[0018]图2示出了根据本专利技术一个实施例的深度神经网络鲁棒性评估方法的示意性流程图。
[0019]图3示出了根据本专利技术一个实施例的深度神经网络调优方法的示意性流程图。
[0020]图4示出了根据本专利技术一实施例可用于实现上述深度神经网络鲁棒性评估方法的计算设备的结构示意图。
[0021]图5示出了本专利技术和现有技术的评估方法构造对抗样本的例子。
具体实施方式
[0022]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0023]深度神经网络(DNN)是一种数学计算模型,具有强大的数据拟合能力,被广泛运用在计算机视觉、自然语言处理等领域。对抗性攻击是一种专门针对神经网络的攻击,可以通过使用对抗样本来欺骗深度神经网络,使得深度神经网络产生推测错误本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度神经网络鲁棒性评估方法,包括:确定针对目标深度神经网络进行对抗性攻击的攻击成功率;向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本;获取所述目标图片原始样本与所述目标图片对抗样本之间距离的初始值;调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动;以及基于所述最小扰动,评估所述目标深度神经网络针对对抗性攻击的鲁棒性。2.如权利要求1所述的方法,其中,所述距离包括所述目标图片原始样本与所述目标图片对抗样本之间的人类可感知距离,所述目标图片原始样本和所述目标图片对抗样本被映射至色差空间以求取所述人类可感知距离。3.如权利要求1所述的方法,还包括:使用攻击有效性指标表征所述攻击成功率,所述攻击有效性指标至少包括如下至少一项:基于所述目标图片原始样本的真实标签惩罚所述目标深度神经网络输出的攻击有效性指标;在所述最小扰动搜索过程中隐式调整步长的攻击有效性指标;以及融合所述目标深度神经网络分类信息的攻击有效性指标。4.如权利要求1所述的方法,其中,向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本包括:向所述目标图片原始样本添加第一初始扰动以获取所述目标图片初始对抗样本,其中,所述第一初始扰动使得所述初始的目标图片对抗样本被所述目标神经网络错误分类;并且,调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动包括:通过迭代计算求取所述最小扰动,其中,每个迭代轮次都使得扰动朝向所述人类可感知距离减小最多的方向移动。5.如权利要求1所述的方法,其中,向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本包括:向所述目标图片原始样本添加第二初始扰动以获取所述初始的目标图片对抗样本,其中,所述第二初始扰动为全零向量;以及通过迭代计算求取最小扰动,其中,每个迭代轮次都使得扰动值朝向使得所述目标图片对抗样本被所述目标神经网络错误分类的方...

【专利技术属性】
技术研发人员:范洺源周文猛
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1