对抗攻击方法、相关装置及存储介质制造方法及图纸

技术编号：42874780 阅读：19 留言：0更新日期：2024-09-30 15:01

本申请涉及计算机视觉领域，提供一种对抗攻击方法、相关装置及存储介质。该方法包括获取初始图像和目标扰动；将所述目标扰动添加至所述初始图像，得到目标对抗图像；将所述目标对抗图像输入目标模型，得到识别结果；其中，所述目标模型包括图像分割模型或图生文大模型；若所述目标模型为图像分割模型，则所述识别结果指示的分割区域对应所述初始图像中的部分待分割子块，或者指示所述目标对抗样本中无分割区域；若所述目标模型为图生文模型，则所述识别结果指示的文字描述与所述初始图像的正确描述的相似度小于第一预设值，或所述识别结果指示的文字描述与目标描述的相似度大于第二预设值。本申请可帮助研究者预知模型的安全隐患，以提升安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机视觉领域，更具体地涉及一种对抗攻击方法、相关装置及存储介质。

技术介绍

1、随着计算机视觉技术的发展，基于深度学习技术构建的图像识别模型的功能越来越强大。例如，openai发布了chatgpt和gpt-4，其可以基于输入的一张图像和一个问题，输出问题的答案，而且可以进行连续多轮对话。此模型可以广泛应用于图像描述，海报标题，视觉问答，图像字幕等众多任务。meta发布了史上首个图像分割基础模型（segmentanything model，sam），将nlp领域的指令（prompt）范式引进计算机视觉领域，让模型可以通过prompt一键抠图。在任何需要在图像中查找和分割对象的应用中，都有sam的用武之地。

2、然而，这些模型存在一些安全风险。一旦这些模型受到攻击，则可能输出错误的结果，甚至输出具有危险性或者歧视的结果，因此对这些模型的安全验证具有重要意义。

3、针对此问题，本申请提出了针对这些模型的对抗攻击方法，用来验证这些文模型的安全性和鲁棒性。

技术实现思路

1、本申请实施例提供一种对抗攻击方法、相关装置及存储介质,可以对图像分割模型或图生文模型进行对抗攻击测试，以测试其鲁棒性。

2、第一方面，本申请实施例提供一种对抗攻击方法，该方法包括：

3、获取初始图像和目标扰动；

4、将所述目标扰动添加至所述初始图像，得到目标对抗图像；

5、将所述目标对抗图像输入目标模型，得到识别结果；

7、若所述目标模型为图像分割模型，则所述识别结果指示的分割区域对应所述初始图像中的部分待分割子块，或者指示所述目标对抗样本中无分割区域；

8、若所述目标模型为图生文模型，则所述识别结果指示的文字描述与所述初始图像的正确描述的相似度小于第一预设值，或者所述识别结果指示的文字描述与目标描述的相似度大于第二预设值。

9、第二方面，本申请实施例提供一种对抗攻击装置，具有实现对应于上述第一方面提供的对抗攻击方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

10、在一个实施方式中，所述对抗攻击装置包括：

11、输入输出模块，被配置为获取初始图像和目标扰动；

12、处理模块，被配置为将所述目标扰动添加至所述初始图像，得到目标对抗图像；以及将所述目标对抗图像输入目标模型，得到识别结果；

13、其中，所述目标模型包括图像分割模型或图生文大模型；

14、若所述目标模型为图像分割模型，则所述识别结果指示的分割区域对应所述初始图像中的部分待分割子块，或者指示所述目标对抗样本中无分割区域；

15、若所述目标模型为图生文模型，则所述识别结果指示的文字描述与所述初始图像的正确描述的相似度小于第一预设值，或者所述识别结果指示的文字描述与目标描述的相似度大于第二预设值。

16、第三方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的对抗攻击方法。

17、第四方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的对抗攻击方法。

18、第五方面，本申请实施例提供一种芯片，该芯片中包括与终端设备的收发器耦合的处理器，用于执行本申请实施例第一方面提供的技术方案。

19、第六方面，本申请实施例提供一种芯片系统，该芯片系统包括处理器，用于支持终端设备实现上述第一方面中所涉及的功能，例如，生成或者处理上述第一方面提供的对抗攻击方法中所涉及的信息。

20、在一种可能的设计中，上述芯片系统还包括存储器，该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

21、第七方面，本申请实施例提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面提供的对抗攻击方法。

22、相较于现有技术，本申请实施例中，由于在将初始图像输入目标模型之前，先将获取的目标扰动添加至所述初始图像，得到目标对抗图像并输入所述目标模型，得到识别结果。由于该目标对抗图像具备对抗攻击效果，所以得到的识别结果可以是与所述初始图像不同的错误结果，从而能够衡量所述目标模型的安全性和鲁棒性。例如，若目标模型为图像分割模型，则识别结果指示的分割区域对应所述初始图像中的部分待分割子块，或者指示所述目标对抗样本中无分割区域；若目标模型为图生文模型，则识别结果指示的文字描述与所述初始图像的正确描述的相似度小于第一预设值（即与正确描述不同），或者所述识别结果指示的文字描述与目标描述的相似度大于第二预设值（即与指定的错误描述相同）。通过该方法可帮助研究者提前预知大模型的安全隐患，并可以采取对应算法提升大模型的安全性。

本文档来自技高网...

【技术保护点】

1.一种对抗攻击方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，若所述目标模型为图像分割模型，当所述目标扰动大于32个像素值，所述目标扰动使得所述目标对抗样本中的所有待分割子块无法被所述图像分割模型分割。

3.如权利要求1所述的方法，其特征在于，若所述目标模型为图像分割模型，当所述目标扰动在范围[1,24]个像素值，所述目标扰动使得所述目标对抗样本中的部分或全部待分割子块被所述图像分割模型错误分割。

4.如权利要求1所述的方法，其特征在于，若所述目标模型为图像分割模型，当所述目标扰动在范围[12,24]个像素值，所述目标扰动使得所述目标对抗样本中的部分待分割子块被所述图像分割模型正确分割。

5.如权利要求1或4所述的方法，其特征在于，若所述目标模型为图像分割模型，当所述目标扰动在范围[12,24]个像素值，所述目标扰动使得所述目标对抗样本中的部分待分割子块被所述图像分割模型错误分割。

6.如权利要求1-5任一项所述的方法，其特征在于，所述目标扰动通过以下方式生成：

7.如权利要求6所

8.如权利要求6所述的方法，其特征在于，若所述目标模型为图生文模型，所述至少基于所述候选对抗图像，获取目标损失值，包括：

9.一种对抗攻击装置，其特征在于，该装置包括：

10.一种计算设备，其特征在于，其包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种对抗攻击方法，其特征在于，所述方法包括：

5.如权利要求1或4所述的方法，其特征在于，若所述目标模型为图像分割模...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：北京瑞莱智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人