System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态语义的对抗样本检测方法技术_技高网

基于多模态语义的对抗样本检测方法技术

技术编号:44968759 阅读:6 留言:0更新日期:2025-04-12 01:41
本发明专利技术属于信息安全领域,公开一种基于多模态语义的对抗样本检测方法,构建并训练对抗样本检测网络,使用多种不同文本生成网络提取特征,生成互补的图像描述;然后使用文本语义编码器提取不同图像描述中的文本语义;最后使用文本耦合器将互补的文本语义进行耦合,使用视觉语义编码器对原始干净样本和对抗样本图像进行视觉语义提取,得到对应的干净特征/对抗特征;使用异构语义对齐模块将文本语义和视觉语义在向量空间中高维映射并对齐;使用检测头来学习对齐后的视觉语义和文本语义的差异,最终检测出对抗样本。本发明专利技术联合视觉语义和文本语义,实现图像和语言间的异构语义对齐,采用多文本耦合器来整合多个互补语义,从而丰富了文本模态信息。

【技术实现步骤摘要】

本专利技术属于信息安全领域,具体涉及一种基于多模态语义的对抗样本检测方法


技术介绍

1、人工智能已在现代社会的各个领域中展现出巨大的潜力和应用价值。作为人工智能的核心技术,深度神经网络在计算机视觉和自然语言处理等多个领域推动了突破性进展。然而,深度神经网络的“黑盒”特性使其决策过程缺乏透明性和可解释性,导致模型容易受到对抗样本的攻击。对抗样本是通过在输入数据中添加精心设计的微小扰动,使深度神经网络输出错误预测,从而严重威胁人工智能系统的安全性与可信度。这一问题已成为人工智能领域的研究重点,引发了科研人员的广泛关注。

2、针对对抗样本的威胁,研究者提出了多种防御策略,主要可以分为两类:被动防御和主动检测。被动防御主要通过增强模型的鲁棒性来提升其抵御对抗攻击的能力,而主动检测则通过在模型前增加检测模块,来识别并过滤潜在的对抗样本。与被动防御相比,主动检测具有更高的灵活性和扩展性。检测模块可以独立于主模型进行设计和优化,从而避免直接修改模型结构可能带来的性能损失。此外,主动检测是一种“事前”防御策略,由于其在对抗样本进入目标网络之前就将其拦截,因此这样的方法可以避免目标网络受到任何来自对抗样本扰动的影响。

3、然而,目前的主动检测方法主要集中在视觉模态上,缺乏对文本模态的深入分析和全面探索。在多模态场景中,不同模态之间的语义交互会突出对抗样本的扰动,忽略这一点会限制现有检测方法的应用范围和检测效果。


技术实现思路

1、专利技术目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种基于多模态语义的对抗样本检测方法。

2、技术方案:本专利技术的一种基于多模态语义的对抗样本检测方法,构建并训练对抗样本检测网络,将一组干净样本和对抗样本输入训练好的对抗样本检测网络,具体执行以下步骤:

3、步骤1、使用多种不同文本生成网络(例如ofa模型、blip模型和gpt模型)提取特征,生成具有互补特性的图像描述;然后使用文本语义编码器(例如clip模型)提取不同图像描述中的文本语义;最后使用文本耦合器将互补的文本语义进行耦合,输出耦合后文本语义;

4、步骤2、使用基于vit的视觉语义编码器对原始干净样本和对抗样本图像进行视觉语义提取,得到对应的干净特征/对抗特征;

5、步骤3、使用异构语义对齐模块将步骤1所得文本语义和步骤2所得视觉语义在向量空间中映射并对齐,旨在帮助检测头捕捉视觉语义和文本语义的差异性,从而检测对抗样本;

6、步骤4、使用基于mlp结构的检测头来学习对齐后的视觉语义和文本语义的差异,最终检测出对抗样本。

7、为避免单一图像描述文本信息不全的问题,此处联合多种文本描述并进行耦合,充分挖掘图像和语言的潜在信息,提供精准且高质量的结果,步骤1的详细过程为:

8、步骤1.1、使用三种文本生成网络从图像提取特征,生成具有互补语义的图像描述,具体公式如下所示:

9、;式中,是表示图像描述,为用于生成图像描述的文本生成网络,是训练集中的干净样本;

10、一方面blip 模型和 ofa模型从图像中提取多模态特征,生成语义精准且细节丰富的描述,如物体属性、场景关系以及视觉语义的捕捉;另一方面gpt模型拥有卓越的语言加工能力;使得成为全方位、多尺度的图像描述。

11、步骤1.2、将步骤1.1所得三种图像描述输入基于clip的文本语义编码器,提取三个模型对应的文本特征向量,得到多视角的文本语义;这样能够进一步精确提取文本语义;

12、步骤1.3、文本耦合器通过语义均值融合法将步骤1.2所得多视角的文本语义进行融合,并对融合后文本语义进行标记和规范化,得到最终耦合后文本语义,以便后续的检测头更准确地提取和利用这些信息。

13、进一步地,所述最终文本语义的具体计算过程如下:

14、首先,将各图像描述划分表示为单词序列;为图像描述里的单词,m为一句话的长度(比如一句话为6个单词,m为6);

15、接着,将各个单词转化为一个单词向量,再将所有单词嵌入到一个文本矩阵中;

16、然后通过transformer编码器将文本矩阵转换为文本序列,并将进行语义均值融合处理;

17、最后,使用对文本序列进行标记和规范化,输出最终文本语义:

18、;

19、上式中,avg表示取均值计算,表示将单词向量嵌入到文本矩阵中。

20、为更好地捕获全局相关性和远程依赖关系,同时突出多模态语义的重要性,步骤2基于vit的视觉语义编码器提取视觉语义的具体公式为:

21、;

22、上式中,x为输入的图像,为语义编码函数,为图像分割和嵌入操作,函数表示多层transformer,为位置嵌入。通过上述视觉特征能够帮助检测头快速定位干扰区域,而且为多模态融合提供了高质量的视觉语义。

23、为了便于检测头快速锁定干净样本和对抗样本的差异,步骤3使用异构语义对齐模块将文本语义和视觉语义在向量空间中映射并对齐的具体公式如下:

24、;

25、;

26、;

27、其中,表示将语义映射到高维空间,表示语义之间的相似度计算;为输入的图像,为干净样本,为图像描述,为对抗样本,为干净样本和图像描述的相似度分数;为对抗样本和文本描述的相似度分数;为同时考虑干净样本和对抗样本与图像描述之间的相似性分数。

28、进一步地,步骤4中的检测头基于多层感知器网络mlp,检测头包括两个分支,第一个分支在linear层之后进跟着bn层,然后接着一个relu激活函数,用于对输入语义进行变换,确保语义的分布稳定;第二个分支包括两个linear层、bn层和relu激活函数,用于提取更加复杂的语义,并增强网络的表现能力;然后使用feature aggregation模块将两个分支的输出进行语义信息的聚合,并在最终的输出层应用 sigmoid 激活函数。

29、进一步地,对抗样本检测网络的训练损失函数如下:

30、;

31、其中,为sigmoid激活函数,为对抗样本和干净样本的总数量,为真标签;

32、通过最小化损失函数,使得检测头有效学习语义空间中干净样本和混合样本之间的细微差异,从而提高检测性能。

33、有益效果:本专利技术关联并建模了离散无关的视觉语义和文本语义,实现了图像和语言间的异构语义对齐,有利于跨模态语义差异的有效建模,从而使检测头在性能上实现显著的定性增强。

34、此外,本专利技术还采用多文本耦合器来整合多个互补语义,从而丰富了文本模态信息,可提供高质量和准确的文本数据,并进一步清晰地显示向量空间中对抗样本检测头的多模态语义差异,显著提高其性能。

本文档来自技高网...

【技术保护点】

1.一种基于多模态语义的对抗样本检测方法,其特征在于,构建并训练对抗样本检测网络,将一组干净样本和对抗样本输入训练好的对抗样本检测网络,具体执行以下步骤:

2.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤1的详细过程为:

3.根据权利要求1或2所述的基于多模态语义的对抗样本检测方法,其特征在于,所述最终文本语义的具体计算过程如下:

4.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤2基于ViT的视觉语义编码器提取视觉语义的具体公式为:

5.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤3使用异构语义对齐模块将文本语义和视觉语义在向量空间中映射并对齐的具体公式如下:

6.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤4中的检测头基于多层感知器网络MLP,检测头包括两个分支,第一个分支在Linear层之后进跟着BN层,然后接着一个ReLU激活函数,用于对输入语义进行变换,确保语义的分布稳定;第二个分支包括两个Linear层、BN层和ReLU激活函数,用于提取更加复杂的语义,并增强网络的表现能力;然后使用Feature Aggregation模块将两个分支的输出进行语义信息的聚合,并在最终的输出层应用 Sigmoid 激活函数。

7.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,对抗样本检测网络的训练损失函数如下:

...

【技术特征摘要】

1.一种基于多模态语义的对抗样本检测方法,其特征在于,构建并训练对抗样本检测网络,将一组干净样本和对抗样本输入训练好的对抗样本检测网络,具体执行以下步骤:

2.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤1的详细过程为:

3.根据权利要求1或2所述的基于多模态语义的对抗样本检测方法,其特征在于,所述最终文本语义的具体计算过程如下:

4.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤2基于vit的视觉语义编码器提取视觉语义的具体公式为:

5.根据权利要求1所述的基于多模态语义的对抗样本检测方法,其特征在于,步骤3使用异构语义对齐模块将文本语义和视觉语义在向...

【专利技术属性】
技术研发人员:颜悦峰王金伟罗向阳
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1