System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机,尤其涉及一种面向机器学习系统投毒攻击的防御方法。
技术介绍
1、深度学习(dl,deeplearning)模型具有完整性非常重要,即其学习和预测过程完整且未受干扰,并且输出符合其通常的性能。然而,dl模型的完整性容易受到攻击。由于大型模型训练需要大量训练数据支撑,目前越来越多的dl系统依赖于从在线来源收集的数据。然而这种方法也存在风险,因为受损的在线数据可能增加潜在攻击的可能性。其中,在训练期间存在的颠覆性攻击,即所谓的投毒攻击。
2、数据投毒攻击通常根据攻击对象分为两种类型:一种是无目标攻击,攻击者旨在不加选择地影响模型行为;另一种是有目标攻击,攻击者希望模型针对特定目标改变其行为。在此基础上,本文着重研究更复杂和困难的情况,即有目标干净标签投毒攻击,这意味着针对特定数据改变模型行为,攻击者可以在限制范围内修改训练数据,但不能控制标记过程。针对有目标干净标签攻击,近年来已发表了一些代表性的作品:poison frogs(毒蛙)使用基于优化的程序来制作投毒样本,当添加到训练数据中时可以改变决策边界,使目标实例被错误分类到另一个类别。metapoison采用了一种集成方法,利用不同时期预训练的模型进行训练,使投毒图像更有可能在整个训练过程中影响模型。gradient matching(梯度匹配)对metapoison进行改进,引入了“梯度对齐”目标,鼓励投毒样本损失的梯度与攻击者目标损失的梯度相匹配。
3、中毒防御:众所周知,训练数据过滤是一种典型的投毒攻击防御策略。该策略侧重于控制训
4、投毒攻击通过向训练数据集中注入精心制作的投毒样本来破坏模型的完整性。然后,受害模型被训练以学习明显不同的决策边界,导致显著的测试错误。特别是,对于有目标攻击,旨在误导受害者将单个目标样本误分类为特定类别。这种类型的攻击已被确定为工业应用中dl模型面临的最重大威胁,这在之前的研究中提到过。
5、如图1所示,已经出现了几种进行目标投毒攻击的方法。在此示例中,攻击者的目标是操纵一只鸟的图像(左侧),使得模型错误地将其预测为一只狗。右侧的图像由使用两种不同的攻击方法创建的干净图像和投毒图像组成。攻击者的目的是误导受害模型,使其将一张鸟的图像错误地归类为错误标签“狗”。干净的图像是指未被篡改的样本。右侧的两列图像分别是通过标签翻转和干净标签攻击制作的投毒样本
6、在标签翻转中,图像会故意改变其标签以误导模型(例如,从“鸟”变为“狗”)。另外,干净标签攻击方法(例如,通过使用毒蛙或梯度匹配)涉及在保留原始标签的同时向图像添加噪声。这种方法旨在规避人工检查,因此对dl模型更具破坏性。本专利技术旨在抵抗后一种攻击方法。
7、总之,有目标干净标签攻击将看似无害、受干扰程度最小的样本注入训练数据中,从而误导模型错误地将目标样本分类为不良类别。这些投毒样本被设计成与正常样本混合,并且在整个数据集中通常很少见,因此很难检测和防御。与标签翻转不同,攻击者无法控制干净标签攻击中的标记过程。因此,由于这些攻击具有隐蔽性并且难以检测,对其进行防御更具挑战性。
8、为了有效防御投毒攻击,目前一种流行的方法是利用异常检测来识别和隔离投毒样本。这种检测方法已被先前用于对抗标签翻转投毒攻击的防御手段成功采用,并展现出了有希望的结果。然而,现有最先进的基于检测的防御方法deepknn,采用了一种遵循干净学习设置的防御方法,该方法从干净训练数据(不包含任何投毒样本)生成一个配置文件,并测试其在包含被感染样本的独立集合上的表现。然而,在实际情况中获取这样的数据可能过于困难。因此,这种技术可能难以实现,因为需要获得完全干净的训练数据是必要的。
技术实现思路
1、有鉴于此,为了解决这个问题,本专利技术提出了一种在非干净学习设置下对问题的重新表述,这种重新表述允许训练数据集由干净样本和潜在的投毒样本组成,减轻了对完全干净数据的需求。它也扩大了防御方法的应用范围,并确保受害者防御模型不仅仅依赖于只由干净样本组成的训练数据。
2、为了全面调查现有方法在非干净学习设置下的性能,本专利技术提供了一个正式定义,并进行实验以检验检测率和防御效果,此外,本专利技术介绍了一种新的基于检测的防御方法cfd(contrastive fusion defense),该方法专门用于对抗有目标干净标签的投毒攻击,作为新设置下的基准方法。
3、本专利技术通过比较仅在细微方面有所不同的相似样本对,可以训练网络来区分它们,从而可以用于区分自然样本和异常样本。有鉴于此,本专利技术努力提高神经网络在高维空间中区分表征的能力,从而实现更有效的异常检测。本专利技术通过利用对比学习的能力来实现这一点。
4、在传统的对比学习方法中,并没有专门针对异常检测的最终层。本专利技术需要开发一种评分方法来确定样本是否被污染。为了实现这一点,本专利技术首先构建一个基于预测的分类分布来识别异常级别的评分,本专利技术称之为地面真实评分(gts)。为了生成必要的分类分布,本专利技术在对比学习框架之上整合了一个监督层。一些研究表明,中毒的样本通常会渗入正常样本类中并占据远离中心位置的区域。
5、根据这些发现,本专利技术提出了一个解决方案:引入中心歧视评分作为衡量每个样本与其相应类别中心之间距离的指标。最后,为了做出有效且准确的决策,必须融合已开发的两种用于检测中毒的评分指标。通过严格的测试和分析,发现这种融合方法在各种场景下更加稳健可靠,从而可以更有效、更精确地做出决策。
6、此外,本专利技术还开发了一套全面的基准,以评估本专利技术的模型针对三种不同的攻击方法的防御效果。并且本专利技术还创建了创新的评估指标,专门用于评估模型在非干净训练设置下的性能。该基准可以改善针对干净标签攻击的检测和预防,为进一步的研究和改进提供了基础,对于研究人员来说具有相当大的价值。
7、本申请公开的面向机器学习系统投毒攻击的防御方法,包括以下步骤:
8、在训练阶段中输入图像xt,图像中潜在有受污染的图像xp,即图像xt被分配一个错误的标签ypoison,以误导机器学习系统将图像中的目标错误地归类为不正确的标签;
9、采用对比学习来获取图像中独特的特征并计算对本文档来自技高网...
【技术保护点】
1.一种面向机器学习系统投毒攻击的防御方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向机器学习系统投毒攻击的防御方法,其特征在于,对于给定的第i个输入图像样本Xi,首先通过增强方法生成一个增强对是第一增强样本,是第二增强样本;每个样本是通过从Xi随机数据增强生成的,图像的增强方法包括随机翻转、随机旋转、随机裁剪和高斯模糊之一;然后将增强对输入到ResNet34的编码器和动量编码器中,以将样本映射到嵌入对是的映射,是的映射;
3.根据权利要求2所述的面向机器学习系统投毒攻击的防御方法,其特征在于,为了最大化正样本对内的相似度并最小化负样本对内的相似度,采用InfoNCE作为损失函数,损失函数定义为:
4.根据权利要求3所述的面向机器学习系统投毒攻击的防御方法,其特征在于,在编码器B的顶部添加一个分类器,引入了一个监督信号来增强对比学习过程,将监督信息注入对比学习框架中;为了优化分类任务,使用交叉熵损失进行计算:
5.根据权利要求4所述的面向机器学习系统投毒攻击的防御方法,其特征在于,利用中心歧视损失来进一步缩小每个样本与
6.根据权利要求5所述的面向机器学习系统投毒攻击的防御方法,其特征在于,使用类别概率来衡量投毒数据的地面真实评分:
7.根据权利要求6所述的面向机器学习系统投毒攻击的防御方法,其特征在于,所述中心歧视评分的计算基于从类别中心的范数,定义如下:
8.根据权利要求7所述的面向机器学习系统投毒攻击的防御方法,其特征在于,将中心歧视评分和地面真实评分加权求和以获得总分,总分定义如下:
...【技术特征摘要】
1.一种面向机器学习系统投毒攻击的防御方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向机器学习系统投毒攻击的防御方法,其特征在于,对于给定的第i个输入图像样本xi,首先通过增强方法生成一个增强对是第一增强样本,是第二增强样本;每个样本是通过从xi随机数据增强生成的,图像的增强方法包括随机翻转、随机旋转、随机裁剪和高斯模糊之一;然后将增强对输入到resnet34的编码器和动量编码器中,以将样本映射到嵌入对是的映射,是的映射;
3.根据权利要求2所述的面向机器学习系统投毒攻击的防御方法,其特征在于,为了最大化正样本对内的相似度并最小化负样本对内的相似度,采用infonce作为损失函数,损失函数定义为:
4.根据权利要求3所述的面向机器学习系统投毒攻击的防御方法,其特征在于,在...
【专利技术属性】
技术研发人员:谭真,陈东,胡艳丽,赵翔,肖卫东,殷风景,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。