可证明鲁棒的能够解释的机器学习模型的系统技术方案

技术编号:37351066 阅读:25 留言:0更新日期:2023-04-22 21:50
用于鲁棒机器学习(ML)的系统和方法包括攻击检测器,该攻击检测器包括一个或多个深度神经网络,深度神经网络使用从生成式对抗网络(GAN)生成的对抗示例来训练,基于输入是对抗性的可能性来产生警觉性得分。通过在操作的推断阶段期间部署的ML模型的类型和尺寸来动态地适配各种类型和尺寸的独立鲁棒ML模型的动态集成并且所有模型都被训练以执行基于ML的预测。自适应集成响应于从攻击检测器接收的警觉性得分。具有能够解释的神经网络模型的数据保护器模块被配置为预先筛选集成的训练数据,以检测初始训练数据中的潜在数据投毒或后门触发。触发。触发。

【技术实现步骤摘要】
【国外来华专利技术】可证明鲁棒的能够解释的机器学习模型的系统


[0001]本申请涉及网络安全。更具体地,本申请涉及用于机器学习系统的能够解释的安全措施。

技术介绍

[0002]在诸如自主汽车操作和国防等许多关键应用中,保护不受恶意影响的机器学习(ML)模型系统的安全性是重要的关注点。可以独立地改进ML算法,但是此类措施可能不足以处理日益复杂的攻击场景。近年来,对各种形式的ML欺骗技术的研究迅速增长,诸如(a)防止经由微小的表面改变(例如,点或涂料的应用)来识别或强制错误识别物理对象,(b)训练检测器以接受错误输入的能力,以及(c)外部推断ML模型并自主地生成强制错误的能力。
[0003]对抗输入生成集中在修改由ML模型正确处理的输入以使其行为不当。这些对抗输入通常是有效输入的较小的(对于给定的度量)变化,并且实际上是人类察觉不到的。它们已经在诸如图像和视频分析、音频转录和文本分类的许多领域中被发现或构建。大多数公布的攻击依赖于随机搜索技术来识别特定模型的对抗示例。然而,许多此类攻击最终对ML模型和架构是有效的,而不是开发攻击的模型和架构。诸如期望过变换之类的技术使得创建可以被传送到物理世界中并且抵抗诸如相机角度和照明条件之类的各种类型的噪声的对抗输入成为可能。可以向任何图像添加对抗的补丁以强制错误分类。最后,通用攻击是最难以创建的,因为它们涉及可以应用于任何有效输入以导致相同错误分类的扰动。
[0004]数据投毒涉及在训练集中引入不正确标记的(或“中毒的”)数据,目的是迫使所得模型产生特定错误。后门攻击引入具有名义上正确的标签但具有模型学习的“触发”的训练实例,并且其可在推断时间使用以迫使模型进入错误决策。传统的ML模型采用黑盒操作方案,通过该黑盒操作方案,鲁棒性是不可证明的,因为结果是不能够解释的。

技术实现思路

[0005]公开了一种机器学习(ML)系统设计,其对于对抗的示例攻击和数据投毒是鲁棒的。ML系统提供防御组件,该防御组件包括:(i)能够针对计算限制来折衷鲁棒预测的独立鲁棒ML模型的动态集成,(ii)具有正式验证的鲁棒性保证的对抗输入的可证明鲁棒攻击检测器,其通过警觉性得分来驱动动态集成的行为和组成,和(iii)防御训练数据以防止中毒的鲁棒且能够解释的数据保护器。
[0006]在一方面,用于鲁棒机器学习的系统包括攻击检测器,该攻击检测器具有使用从多个模型生成的对抗示例训练的一个或多个深度神经网络,包括生成式对抗网络(GAN)。攻击检测器被配置为基于输入是对抗性的可能性来产生警觉性得分。各种类型和尺寸的独立鲁棒机器学习(ML)模型的动态集成,所有模型都被训练以执行基于ML的预测,该动态集成应用在操作的推断阶段期间动态地适配为该动态集成部署的ML模型的类型和尺寸的控制函数,该控制函数响应于从攻击检测器接收的警觉性得分。
[0007]在一方面,该系统还包括数据保护器模块,该数据保护器模块包括能够解释的神
经网络模型,该能够解释的神经网络模型被训练成学习用于解释类预测的原型,依赖于潜在空间的几何形状形成初始训练数据的类预测,其中类预测确定测试输入如何同类于来自每一类的输入的原型部分,并且在来自不相关类的原型部分被激活的情况下检测初始训练数据中的潜在数据投毒或后门触发。
[0008]在一方面,用于鲁棒机器学习的计算机实现的方法包括训练攻击检测器,该攻击检测器被配置为使用从包括生成式对抗网络(GAN)的多个模型生成的对抗示例来训练的一个或多个深度神经网络。该方法还包括训练各种类型和尺寸的多个机器学习(ML)模型以针对给定输入执行基于ML的预测任务,由所训练的攻击检测器监视输入,该输入旨在用于在操作的推断阶段期间的多个ML模型的子集的动态集成。该方法还包括基于输入是对抗性的可能性产生针对每个输入的警觉性得分,并且响应于该警觉性得分,由控制函数动态地适配在操作的推断阶段期间针对动态集成部署哪些类型和尺寸的ML模型。
附图说明
[0009]参考以下附图描述本实施方式的非限制性和非穷尽性实施方式,其中除非另外指定,否则在所有附图中相同的附图标记指代相同的元件。
[0010]图1示出了根据本公开的实施方式的用于鲁棒机器学习的系统的示例。
[0011]图2示出了根据本公开的实施方式的图1中所示的实施方式的可替代实施方式。
[0012]图3示出了根据本公开的实施方式的操作的训练阶段期间的流程图示例。
[0013]图4示出了根据本公开的实施方式的操作的推断阶段期间的流程图示例。
[0014]图5示出了根据本公开的实施方式的结合图3和图4中示出的实施方式的流程图示例。
[0015]图6图示了其中可以实现本公开的实施方式的计算环境的示例。
具体实施方式
[0016]公开了用于鲁棒机器学习的方法和系统,包括:鲁棒数据保护器,用于保护训练数据免受中毒;独立鲁棒模型的动态集成,其能够针对计算限制而权衡鲁棒的预测;以及可证明鲁棒的对抗性输入检测器,其通过警觉性得分来驱动动态集成的行为。
[0017]图1示出了根据本公开的实施方式的用于鲁棒机器学习的系统的示例。计算设备110包括处理器115和其上存储有各种计算机应用、模块或可执行程序的存储器111(例如,非暂时性计算机可读介质)。在实施方式中,计算设备包括以下模块中的一者或多者:数据保护器模块121、可证明鲁棒的攻击检测器123、ML模型124和鲁棒ML模型的动态集成125。
[0018]图2示出了图1中所示的可替换实施方式,其中数据保护器模块141、可证明鲁棒的攻击检测器143和鲁棒ML模型的动态集成145中的一者或多者可以结合相应的本地客户端模块数据保护器客户端141c、攻击检测器客户端143c和动态集成客户端145c被部署为基于云或基于web的操作。在一些实施方式中,可以部署本地和/或基于web的混合组合模块。在这里,为了描述的简单性,将这些模块的配置和功能描述为计算设备110中的本地部署的模块数据保护器121、攻击检测器123和动态集成125。然而,相同的配置和功能适用于由模块141、143、145的基于web的部署实现的任何实施方式。
[0019]诸如局域网(LAN)、广域网(WAN)或基于因特网的网络的网络160将计算设备110连
接到用作动态集成125的输入数据的不可信训练数据151和干净训练数据155。
[0020]用户界面模块114提供模块121、123、125和诸如显示设备131、用户输入设备132和音频I/O设备133的用户接口130设备之间的接口。GUI引擎113驱动交互式用户界面在显示设备131上的显示,允许用户接收分析结果的可视化,并帮助用户输入动态集成125的学习目标和域约束。
[0021]图3、图4和图5示出了根据本公开的实施方式的鲁棒机器学习系统的操作的训练阶段和推断阶段的过程的流程图示例。图3、图4、图5所示的过程对应于图1所示的系统。
[0022]如图3所示,在ML模型124的训练阶段期间,初始训练数据151是不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于鲁棒机器学习的系统,包括:处理器;以及非暂时性存储器,在所述非暂时性存储器上存储有由所述处理器执行的模块,所述模块包括:攻击检测器,包括一个或多个深度神经网络,所述深度神经网络使用从包括生成式对抗网络(GAN)的多个模型生成的对抗示例来训练,所述攻击检测器被配置为基于输入是对抗性的可能性来产生警觉性得分;以及各种类型和尺寸的独立鲁棒机器学习(ML)模型的动态集成,并且所有模型都被训练以执行基于机器学习的预测,其中,控制函数在操作的推断阶段期间动态地适配针对所述动态集成部署的ML模型的类型和尺寸,其中,所述控制函数响应于从所述攻击检测器接收的所述警觉性得分。2.根据权利要求1所述的系统,其中,所述控制函数还基于包括可用系统存储器和最大时间中的一个的参数来选择ML模型的类型和尺寸,以根据所述预测的紧急程度来计算所述预测。3.根据权利要求1所述的系统,其中,所训练的攻击检测器通过调整所述警觉性得分以针对更快速的响应要求更小的鲁棒性和更精益的ML模型,在操作的推断阶段期间对输入的快速性作出反应。4.根据权利要求1所述的系统,其中,所述攻击检测器通过调整所述警觉性得分以要求更大的鲁棒性,对输入是对抗性的高可能性作出反应。5.根据权利要求1所述的系统,所述模块还包括:数据保护器模块,包括能够解释的神经网络模型,所述能够解释的神经网络模型被配置为:学习用于解释类预测的原型;形成依赖于潜在空间的几何结构的初始训练数据的类预测,其中,所述类预测确定测试输入如何同类于来自每个类的输入的原型部分,并且在来自无关类的原型部分被激活的条件下,检测初始训练数据中的潜在数据投毒或后门触发。6.根据权利要求1所述的系统,其中,数据保护器模块还被配置为:识别潜在空间几何结构中的异常,并且将能够解释的预测的可视化发送到用户界面,以指导定位到所激活的原型部分的附加训练。7.根据权利要求1所述的系统,其中,数据保护器还被配置为:采用训练数据的潜在空间嵌入,其中距离对应于当前上下文中感知或含...

【专利技术属性】
技术研发人员:德米特里
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1