一种机器学习训练数据受投毒攻击的防御方法技术

技术编号:26304298 阅读:22 留言:0更新日期:2020-11-10 19:59
本发明专利技术属于信息安全领域,具体涉及一种机器学习训练数据受投毒攻击的防御方法,用于智能安防,训练数据采集于安防视频数据,方法包括:获取待识别训练数据集对应的干净训练数据集的预测值分布;将各待识别训练数据输入已训练预测模型,得到预测值;基于预测值与预测值分布确定识别投毒数据,以实现防御;基于与待识别训练数据同类型的可信任训练数据,生成合成数据;采用由合成数据和可信任训练数据所构成的增强数据集训练并得到预测模型;增强数据集的分布同干净训练数据集,预测模型基于增强数据集所输出预测值的分布作为上述预测值分布。本发明专利技术无需明确机器学习算法或攻击类型即可提供有效保护,解决了现有防御方法中针对特定攻击的限制问题。

【技术实现步骤摘要】
一种机器学习训练数据受投毒攻击的防御方法
本专利技术属于信息安全领域,更具体地,涉及一种机器学习训练数据受投毒攻击的防御方法。
技术介绍
近年来,随着机器学习的发展,基于机器学习的各类系统如自动驾驶系统、人脸检测系统、语音识别系统等都得到了广泛的应用,特别是智能安防系统。然而,机器学习本身面临的各种安全性问题也逐渐显现。机器学习是指通过大量的训练数据不断地学习、识别特征、建模最后能够得到有效的系统模型。最近的研究表明,机器学习对数据投毒攻击高度敏感。在这种情况下,攻击者可以通过向训练数据集中注入少量恶意样本来破坏学习过程。此类安全漏洞可能会给各种关键安全领域带来严重风险,例如,恶意软件检测、无人驾驶汽车、生物识别身份识别。因此,如何防御机器学习中训练数据投毒攻击是机器学习安全领域必须解决的科学问题。为了防御机器学习中训练数据投毒攻击,目前已经研究了一些防御机制,但是,这些防御技术在很大程度上是特定于攻击的:它们是针对一种特定类型的攻击而设计的,可能不适用于其他类型的攻击,这主要是由于在攻击过程中遵循不同的原理。例如,通过识别和重建后门触发器来缓解后门攻击(投毒攻击的一类)。这种防御可以检测到某些统一的后门触发器,但是在将可变扰动添加到训练数据中时会失败。在另一种情况下,一些研究者使用KNN的方法来防御标签翻转攻击(另一种投毒攻击),但是这种方法不能在回归的情况下应用于投毒攻击。迄今为止,针对这种投毒攻击的通用防御策略很少,没有有效地能够防御大多数投毒攻击方法的防御方法。
技术实现思路
r>本专利技术提供一种机器学习训练数据受投毒攻击的防御方法,用以解决现有智能安防检测模型训练用训练数据受投毒攻击的防御方法中只针对特定攻击方式的限制问题。本专利技术解决上述技术问题的技术方案如下:一种机器学习训练数据受投毒攻击的防御方法,用于智能安防,所述训练数据采集于安防视频数据,所述防御方法包括:获取待识别训练数据集对应的干净训练数据集的预测值分布;并将每个待识别训练数据输入已训练的预测模型,得到预测值;基于所述预测值与所述预测值分布确定该训练数据是否为投毒数据,以实现攻击防御;其中,所述预测模型由以下训练方法得到:基于与待识别训练数据同类型的可信任训练数据进行数据增强,生成多个合成数据;采用由所述多个合成数据和所述可信任训练数据所构成的增强数据集训练并得到所述预测模型;所述增强数据集的分布同所述干净训练数据集,所述预测模型基于所述增强数据集所输出的预测值的分布作为所述预测值分布。本专利技术的有益效果是:本专利技术会首先获得一个已训练预测模型,该预测模型的训练方法是:在能获得部分可信任训练数据的情况下,生成与原始的干净训练数据集分布相似的数据集,在获得足够的有效数据之后,训练预测网络,得到与原始的干净训练数据集所训练的预测模型(或者说检测模型)预测性能相似的模拟预测模型,作为上述的已训练预测模型,确保该方法在可信任训练数据不足的情况下正常适用,在得到预测模型的同时,也能够得到预测值分布并将其作为干净训练数据集的预测值分布,其中,训练数据是从智能安防视频或图像中采集获取,包括数据特征和条件信息(如分类标签或回归值),训练数据的获取为常规获取方法,另外,上述的预测值按照预测任务可为分类信息或回归值。然后将每个待识别训练数据输入已训练的预测模型,得到预测值;基于预测值与预测值分布确定该训练数据是否为投毒数据,识别出投毒数据后将投毒数据剔除,即可有效实现机器学习训练数据受投毒攻击的防御,以用于实际智能安防中的分类和回归任务。与现有防御技术方案相比较,本方法可以广泛地用于保护分类和回归任务,无需明确机器学习算法或攻击类型即可提供有效保护,是一种针对实际智能安防检测模型训练数据受各种投毒攻击的通用防御方法,解决了现有防御方法中只针对特定攻击方法的限制问题。上述技术方案的基础上,本专利技术还可以做如下改进。进一步,基于多个可信任训练数据,通过对抗训练的方式,训练cGAN网络,并采用训练得到的cGAN网络生成最终的合成数据;其中,在训练过程中,采用认证器监督所述cGAN网络中的生成器生成合成数据,使得最终的合成数据与可信任训练数据构成的增强数据集同所述干净训练数据集。本专利技术的进一步有益效果是:由于构建得到增强数据集用于得到预测模型和干净训练数据集对应的预测值分布,待识别训练数据会输入预测模型得到一个预测值,基于预测值和预测值分布来识别训练数据是否是投毒数据,因此,增强数据集的构建对于后续的投毒样本识别具有关键作用,本方法利用了GAN技术的优势,采用认证器来监督cGAN中生成器的生成过程,对cGAN进行了优化,能够有效提高所生产合成数据的可靠性,进而保证有效的投毒攻击防御。进一步,将多个包括条件信息的可信任训练数据输入所述判别器,同时将对应多个噪声数据和所述条件信息输入所述生成器;所述生成器基于所述条件信息将所述多个噪声数据转换为多个合成数据并输入给所述判别器和所述认证器;所述判别器度量所述多个可信任训练数据和所述多个合成数据间的差异,得到cGAN损失函数;同时所述认证器预测所述多个合成数据对应的预测值并将其与对应真实值对比,得到认证器损失函数并反馈给所述cGAN损失函数,以用于调整所述cGAN网络的参数,其中,所述条件信息包括数据标签或回归值。本专利技术的进一步有益效果是:在每次合成数据迭代过程中将认证器的损失反馈到cGAN部分,充分发挥了认证器的监督作用,有效提高生成数据的可靠性。另外,在cGAN和认证器的输入中均包括条件信息,能够在标签的限制下,提高训练效率。进一步,所述反馈给所述cGAN损失函数,具体为:将所述cGAN损失函数与所述认证器损失函数相减,作为所述判别器的新的损失函数;将所述cGAN损失函数与所述认证器损失函数相加,作为所述生成器的新的损失函数。进一步,采用蒙特卡洛最大期望算法和随机梯度下降法调整所述cGAN网络的参数。进一步,所述训练并得到所述预测模型,实现方式为:基于所述增强数据集,采用对抗训练的方式,训练cWGAN-GP网络,其中,所述cWGAN-GP网络为在WGAN-GP网络的生成器和判别器中增加标签数据输入而得到;将训练得到的所述cWGAN-GP网络中的判别器作为所述预测模型。本专利技术的进一步有益效果是:基于WGAN-GP网络,将条件信息(标签)加入到WGAN-GP网络中的生成器与判别器中得到cWGAN-GP网络并训练,并将其中的判别器Dw模型作为上述的预测模型,保证有效的攻击防御。进一步,所述基于所述预测值与所述预测值分布确定该训练数据是否为投毒数据,实现方式为:采用Z-score法确定所述预测值分布的检测边界阈值;当该预测值小于所述检测边界阈值时,则该预测值对应的训练数据为投毒数据,否则为非投毒训练数据。本专利技术的进一步有益效果是:比较检测边界阈值和预测值,将投毒数据与干净训练数据区分开,从而有效达到防御训练数据投毒攻击的目的。进一步,所述检测边界阈值的确定方法为:基于实际所需置信度水平值,本文档来自技高网...

【技术保护点】
1.一种机器学习训练数据受投毒攻击的防御方法,用于智能安防,其特征在于,所述训练数据采集于安防视频数据,所述防御方法包括:/n获取待识别训练数据集对应的干净训练数据集的预测值分布;并将每个待识别训练数据输入已训练的预测模型,得到预测值;基于所述预测值与所述预测值分布确定该训练数据是否为投毒数据,以实现攻击防御;/n其中,所述预测模型由以下训练方法得到:基于与待识别训练数据同类型的可信任训练数据进行数据增强,生成多个合成数据;采用由所述多个合成数据和所述可信任训练数据所构成的增强数据集训练并得到所述预测模型;所述增强数据集的分布同所述干净训练数据集,所述预测模型基于所述增强数据集所输出的预测值的分布作为所述预测值分布。/n

【技术特征摘要】
1.一种机器学习训练数据受投毒攻击的防御方法,用于智能安防,其特征在于,所述训练数据采集于安防视频数据,所述防御方法包括:
获取待识别训练数据集对应的干净训练数据集的预测值分布;并将每个待识别训练数据输入已训练的预测模型,得到预测值;基于所述预测值与所述预测值分布确定该训练数据是否为投毒数据,以实现攻击防御;
其中,所述预测模型由以下训练方法得到:基于与待识别训练数据同类型的可信任训练数据进行数据增强,生成多个合成数据;采用由所述多个合成数据和所述可信任训练数据所构成的增强数据集训练并得到所述预测模型;所述增强数据集的分布同所述干净训练数据集,所述预测模型基于所述增强数据集所输出的预测值的分布作为所述预测值分布。


2.根据权利要求1所述的一种机器学习训练数据受投毒攻击的防御方法,其特征在于,所述数据增强的方式为:
基于多个可信任训练数据,通过对抗训练的方式,训练cGAN网络,并采用训练得到的cGAN网络生成最终的合成数据;其中,在训练过程中,采用认证器监督所述cGAN网络中的生成器生成合成数据,使得最终的合成数据与可信任训练数据构成的增强数据集同所述干净训练数据集。


3.根据权利要求2所述的一种机器学习训练数据受投毒攻击的防御方法,其特征在于,所述训练过程的每次迭代训练具体为:
将多个包括条件信息的可信任训练数据输入所述判别器,同时将对应多个噪声数据和所述条件信息输入所述生成器;所述生成器基于所述条件信息将所述多个噪声数据转换为多个合成数据并输入给所述判别器和所述认证器;所述判别器度量所述多个可信任训练数据和所述多个合成数据间的差异,得到cGAN损失函数;同时所述认证器预测所述多个合成数据对应的预测值并将其与对应真实值对比,得到认证器损失函数并反馈给所述cGAN损失函数,以用于调整所述cGAN网络的参数,其中,所述条件信息为数据标签或回归值。


4.根据权利要求3所述的一种机器学习训练数据受投毒攻击的防御方法,其特征在于,所述反馈给所述...

【专利技术属性】
技术研发人员:王琛陈健张旭鑫彭凯
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1