用于深度强化学习的认证对抗鲁棒性制造技术

技术编号:28204377 阅读:16 留言:0更新日期:2021-04-24 14:30
本发明专利技术提供了“用于深度强化学习的认证对抗鲁棒性”。本公开描述了系统和方法,所述系统和方法包括:基于损坏的观察值和预定扰动参数来计算一个或多个下界状态

【技术实现步骤摘要】
用于深度强化学习的认证对抗鲁棒性


[0001]本公开总体上涉及强化学习。

技术介绍

[0002]传感器用于收集环境数据。例如,传感器可捕获图像、声音、振动和其他物理特性。一旦收集到环境数据,传感器就可将环境数据发送到其他电子装置以用于进一步动作。在强化学习代理内,传感器数据可表示观察到的状态。

技术实现思路

[0003]强化学习(RL)是一种形式的目标导向的机器学习。例如,代理可从与其环境的直接交互中学习,而无需依赖明确的监督和/或完整的环境模型。强化学习是一个框架,其根据状态、动作和奖励对学习代理与其环境之间的交互进行建模。在每个时间步长处,代理接收状态,基于策略选择动作,接收标量奖励,并且转变到下一个状态。所述状态可基于指示环境数据的一个或多个传感器输入。所述代理的目标是使预期的累积奖励最大化。所述代理可为积极动作接收正标量奖励,并且为消极动作接收负标量奖励。因此,所述代理通过尝试使预期的累积奖励最大化来“学习”。尽管在本文的车辆的上下文中描述了所述代理,但是应当理解,所述代理可包括任何合适的强化学习代理。例如,所述代理可包括机器人、无人机、计算机应用程序等。
[0004]一种系统包括计算机,所述计算机包括处理器和存储器。所述存储器包括指令,使得所述处理器被编程为:基于损坏的观察值和预定扰动参数来计算一个或多个下界状态-动作值;以及选择对应于具有最高值的下界状态-动作值的动作。
[0005]在其他特征中,所述处理器进一步被编程为基于所述损坏的观察值、所述预定参数和训练后的深度神经网络的权重来计算所述一个或多个下界状态-动作值。
[0006]在其他特征中,所述训练后的深度神经网络包括卷积神经网络。
[0007]在其他特征中,所述预定扰动参数包括矢量。
[0008]在其他特征中,所述处理器进一步被编程为基于所述选择的动作来致动代理。
[0009]在其他特征中,所述处理器进一步被编程为基于所述选择的动作来致动代理。
[0010]在其他特征中,所述代理包括自主车辆。
[0011]在其他特征中,所述损坏的观察值包括损坏的传感器数据。
[0012]在其他特征中,所述处理器进一步被编程为从车辆的车辆传感器接收所述损坏的传感器数据。
[0013]在其他特征中,所述处理器进一步被编程为将所述传感器数据提供给所述深度神经网络。
[0014]一种系统包括车辆,所述车辆包括车辆系统,所述车辆系统包括计算机,所述计算机包括处理器和存储器。所述存储器包括指令,使得所述处理器被编程为:基于损坏的观察值和预定扰动参数来计算一个或多个下界状态-动作值;以及选择对应于具有最高值的下
界状态-动作值的动作。
[0015]在其他特征中,所述处理器进一步被编程为基于所述损坏的观察值、所述预定参数和训练后的深度神经网络的权重来计算所述一个或多个下界状态-动作值。
[0016]在其他特征中,所述训练后的深度神经网络包括卷积神经网络。
[0017]在其他特征中,所述预定扰动参数包括矢量。
[0018]在其他特征中,所述处理器进一步被编程为基于所述选择的动作来致动所述车辆系统。
[0019]在其他特征中,所述车辆包括自主车辆。
[0020]在其他特征中,所述损坏的观察值包括损坏的传感器数据。
[0021]在其他特征中,所述处理器进一步被编程为从所述车辆的车辆传感器接收所述损坏的传感器数据。
[0022]在其他特征中,所述处理器进一步被编程为将所述传感器数据提供给所述深度神经网络。
[0023]一种方法包括:基于损坏的观察值和预定扰动参数来计算一个或多个下界状态-动作值;以及选择对应于具有最高值的下界状态-动作值的动作。
[0024]在其他特征中,所述还方法包括:基于所述损坏的观察值、所述预定参数和训练后的深度神经网络的权重来计算所述一个或多个下界状态-动作值。
[0025]在其他特征中,所述训练后的深度神经网络包括卷积神经网络。
[0026]在其他特征中,计算所述一个或多个下界状态-动作值还包括:根据下式来基于所述损坏的观察值和所述预定扰动参数来计算所述一个或多个下界状态-动作值:
[0027][0028]其中O表示逐元素乘法,A表示包括用于m层深度神经网络的对应深度神经网络层的网络权重和非线性激活(ReLU)函数的矩阵,k表示m层深度神经网络的当前层网络,b表示对应动作的偏差,H表示下/上边界因子,ε表示预定扰动参数,s
adv
表示损坏的观察值,j表示对应的动作索引,并且q表示选择的范数。
附图说明
[0029]图1是用于基于观察到的状态和预定扰动参数来计算下界状态-动作值的示例性系统的图解。
[0030]图2是示例性深度神经网络的图解。
[0031]图3是由代理横穿的示例性环境的图解。
[0032]图4是用于基于观察到的状态和预定扰动参数来计算下界状态-动作值的系统的框图。
[0033]图5是示出用于基于观察到的状态和预定扰动参数来计算下界状态-动作值的示例性过程的流程图。
具体实施方式
[0034]图1是示例性车辆控制系统100的框图。系统100包括车辆105,所述车辆105是陆地车辆,诸如汽车、卡车等。车辆105包括计算机110、车辆传感器115、用于致动各种车辆部件125的致动器120以及车辆通信模块130。经由网络135,通信模块130允许计算机110与服务器145通信。
[0035]计算机110包括处理器和存储器。存储器包括一种或多种形式的计算机可读介质,并且存储可由计算机110执行以执行各种操作(包括如本文所公开的操作)的指令。
[0036]计算机110可以自主模式、半自主模式或非自主(手动)模式来操作车辆105。出于本公开的目的,自主模式被定义为其中由计算机110控制车辆105推进、制动和转向中的每一者的模式;在半自主模式下,计算机110控制车辆105推进、制动和转向中的一者或两者;在非自主模式下,人类操作员控制车辆105推进、制动和转向中的每一者。
[0037]计算机110可包括用于操作车辆105制动、推进(例如,通过控制内燃发动机、电动马达、混合动力发动机、氢燃料电池等中的一者或多者来控制车辆的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者以及确定计算机110(而非人类操作员)是否以及何时控制此类操作的编程。另外,计算机110可被编程为确定人类操作员是否以及何时控制此类操作。
[0038]计算机110可包括多于一个处理器,或者例如经由如下文进一步描述的车辆105通信模块130通信耦合到所述多于一个处理器,所述多于一个处理器例如包括在车辆105中所包括的用于监测和/或控制各种车辆部件125的电子控制器单元(ECU)等(例如动力传动系统控制器、制动控制器、转向控制器等)中。此外,计算机110可经由车辆105通信模块130与使用全球定位系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种包括计算机的系统,所述计算机包括处理器和存储器,所述存储器包括指令,使得所述处理器被编程为:基于损坏的观察值和预定扰动参数来计算一个或多个下界状态-动作值;以及选择对应于具有最高值的下界状态-动作值的动作。2.如权利要求1所述的系统,其中所述处理器进一步被编程为:基于所述损坏的观察值、所述预定参数和训练后的深度神经网络的权重来计算所述一个或多个下界状态-动作值。3.如权利要求2所述的系统,其中所述训练后的深度神经网络包括卷积神经网络。4.如权利要求1所述的系统,其中所述预定扰动参数包括矢量。5.如权利要求1所述的系统,其中所述处理器进一步被编程为:基于所述选择的动作来致动代理。6.如权利要求4所述的系统,其中所述代理包括自主车辆。7.如权利要求1所述的系统,其中所述损坏的观察值包...

【专利技术属性】
技术研发人员:比约恩
申请(专利权)人:麻省理工学院技术许可办事处
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1