【技术实现步骤摘要】
一种针对深度学习模型安全防护效果评估的方法
[0001]本专利技术涉及一种针对深度学习模型安全防护效果评估的方法,具体对深度学习模型的安全防护手段进行评估对比,判断哪种防护手段的效果更好,能够提升依赖深度学习模型的人工智能应用的安全性,涉及领域包括深度学习、人工智能安全。
技术介绍
[0002]以深度学习模型为核心的人工智能应用近年来越来越流行,并渗透到人们生活的各个领域,如人脸识别、语音助手、自动驾驶、智能翻译等。但是,人工智能应用在带给人们巨大便利的同时,其本身也暴露了一些安全性问题,这些威胁人工智能应用安全性问题有针对垃圾邮件检测系统和入侵检测系统漏洞设计的逃避检测攻击,也有针对智能图形图像识别系统缺陷来模仿受害者身份的非法认证危害,还包括关键或敏感数据的隐私窃取危害等等,这些安全性问题的核心其实质是对人工智能应用所依赖的深度学习模型缺乏安全性防护。
[0003]深度学习通常会假设训练和预测数据具有相同的分布,通过训练得到深度学习模型,然后在人工智能应用中使用训练得到的深度学习模型进行预测。然而,攻击者会修改训练或预测数据使它们具有不同的分布,因此深度学习的假设前提不再成立。深度学习模型所使用的训练或预测数据由于攻击者修改而产生不同分布,会带来预测结果准确率的下降,甚至出现预测成攻击者指定结果的威胁,如在正常情况下深度学习模型对人脸的识别准确率能够达到99%以上,而当该深度学习模型受到攻击后对人脸的识别准确率可能会下降到50%以下,这就会严重影响依赖于人脸识别的身份认证类人工智能应用的安全使用。 >[0004]针对以深度学习模型为核心的人工智能应用的常见攻击手段有FGSM(Fast Gradient Sign Method)、Deepfool、C&W(Carlini and Wagner)、LLC(Least Likely Class)、BIM(Basic Iterative Method)、JSMA(Jacobian
‑
based Saliency Map Attack)、UAP(Universal Adversarial Perturbation)、PGD(Project Gradient Descent)等等,在不同的应用场景下会取得不同的攻击效果,最典型的表现形式是使得深度学习模型的分类准确率下降。相应地,为了应对这些攻击手段,常见的防御手段有NAT(Naive Adversarial Training)、EAT(Ensemble Adversarial Training)、PAT(PGD
‑
based Adversarial Training)、DD(Defensive Distillation)、IGR(Input Gradient Regularization)、PD(Pixel Defense)等等,不同的防御手段针对不同的攻击手段会有不同的安全防护效果。安全人员为了提升人工智能应用的安全性,会综合地应用多种防御手段来抵御攻击,但是这样会有很大的盲目性,且无法表明所采取的防御手段具有最佳的防护效果。现有的研究表明,在相同的数据集上,针对相同的攻击手段,采用不同的防御手段会取得不一样的效果。但是,目前缺乏一种自动化的手段来合理地评估两种防御手段在应对相同数据集和相同攻击手段时的安全防护效果。
[0005]本专利技术将针对以深度学习模型为核心的人工智能应用所采取的防御手段,提出一种自动化的手段来合理地评估不同防御手段的安全防护效果,为安全人员决策具体采取哪
种防御手段提供技术支撑。
技术实现思路
[0006]本专利技术主要解决现有的深度学习模型安全防御手段缺乏一种有效的自动化评估方法,能够针对人工智能应用所采取的不同安全防御手段,提出一种自动评估哪种防御手段更好的方法,为人工智能应用提升安全性提供技术支撑。
[0007]为实现评估过程的自动化,用户只需提供指定的人工智能应用数据集和已经训练好的深度学习模型,该深度学习模型用于帮助人工智能应用进行人脸识别、语音识别等,而数据集则被用于进行训练得到该深度学习模型,本专利技术可评估在不同的防御手段下,哪种防御手段的效果更好。
[0008]本专利技术先提出了安全防护效果的评估公式,主要从深度学习模型分类的准确率进行评估,即人工智能应用在不受到任何攻击与防护情况下的分类准确率、受到攻击情况下的分类准确率、受到攻击与防护情况下的分类准确率,根据这些来评估所采取的防御手段的安全防护效果。
[0009]图像智能分类是典型的以深度学习模型为核心的智能应用,当用户给定任意的一张图像,深度学习模型就会识别出该图像是猫、狗、狼等,针对这类对图像进行分类的智能应用,本专利技术计算出正常情况和不同的攻防情况下模型的分类准确率,然后根据分类准确率来评估防御手段的安全防护效果,以及比较两种防御手段哪一种更好。
[0010]本专利技术先计算出正常情况下模型的分类准确率N;然后对智能应用实施攻击手段X,计算出模型在受到攻击X的情况下分类准确率P;然后对智能应用实施攻击手段X,为应用增加防御手段Y,计算出模型在该种情况下的分类准确率B;然后对智能应用实施攻击手段X,为应用增加防御手段Z,计算出模型在该种情况下的分类准确率M。
[0011]本专利技术根据不同情况下模型的分类准确率N、P、B、M进行评估。在攻击手段为X,防御手段为Z的攻防情况下,计算出防御手段Z的防御效果因子DFOM=(M
‑
P)/(N
‑
P),表示防御手段Z针对攻击方法X的成功率。
[0012]另外,在智能应用受到攻击X的情况下,将两种防御手段Y和Z的防御效果进行对比,计算出防御效果提升度DIBD=(M
‑
P)/(B
‑
P),表示防御手段Z相对于防御手段Y在应对攻击方法X时防御效果的提升程度,如大于1则表示防御手段Z比Y的效果更好。
[0013]本专利技术以上述安全防御效果评估公式DFOM和DIBD为指导,提出了一套自动化的防御效果评估方法,见图1,该方法包括以下步骤:
[0014]S1.设定进行人工智能应用相关的数据集D和模型M,用于后续评估安全防护效果,如果人工智能应用是面向图像分类的场景,则选择图像数据集,同时选择在该图像数据集上训练得到的深度学习模型,该深度学习模型也是智能应用中进行图像分类的核心,是攻击者进行攻击的目标对象;
[0015]S2.设定针对深度学习模型的攻击方法为X,即后续对模型M开展X攻击;
[0016]S3.设定针对深度学习模型的防御手段Y,评估防御X攻击的效果;
[0017]S4.设定针对深度学习模型的防御手段Z,评估防御X攻击的效果,同时与防御手段Y进行比较;
[0018]S5.在没有攻击与防御的情况下,使用深度学习模型进行正常的图像分类,即调用
人工智能开发框架,如tensorflow、keras等,加载步骤S1所选择的模型M,并在步骤S1所选择的数据集D上进行图像分类预测,得到正常情况下本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种针对深度学习模型安全防护效果评估的方法,其特征在于:将人工智能应用所依赖的深度学习模型进行安全防护效果评估,根据设计的安全防护效果评估公式来进行评估,主要包括:数据集与模型设定、攻击方法与防御方法设定、正常情况下模型分类执行、受攻击情况下模型分类执行、受攻击并进行防御情况下模型分类执行、防御手段评估,最终得到的结果是防御手段的安全防护效果,为安全人员决策具体采取哪种防御手段提供技术支撑。2.根据权利要求1所述的针对深度学习模型安全防护效果评估的方法,其特征在于,所述安全防护效果评估公式需要先得到深度学习模型在正常情况下的分类准确率N、在受到攻击X的情况下分类准确率P、在受到攻击X并采取防御手段Y的情况下分类准确率B、在受到攻击X并采取防御手段Z的情况下分类准确率M,计算出防御手段Y的防御效果因子DFOM=(B
‑
P)/(N
‑
P),表示防御手段Y针对攻击方法X的成功率;计算出防御手段Z的防御效果因子DFOM=(M
‑
P)/(N
‑
P),表示防御手段Z针对攻击方法X的成功率;计算出防御效果提升度DIBD=(M
‑
P)/(B
‑
P),表示防御手段Z相对于防御手段Y在应对攻击方法X时防御效果的提升程度,如大于1则表示防御手段Z比Y的安全防护效果更好。3.根据权利要求1所述的针对深度学习模型安全防护效果评估的方法,其特征在于,所述数据集与模型设定步骤将根据人工智能应用的具体场景来设定相应的数据集,并设定在智能应用中具体所使用的深度学习模型,所述数据集可以是图像、语音、文本等数据类型,所述模型可以是卷积神经网络、循环神经网络等...
【专利技术属性】
技术研发人员:吴振东,张毅,蒲俊宇,
申请(专利权)人:中芯未来北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。