基于深度强化学习的自动驾驶系统后门攻击方法及相关装置制造方法及图纸

技术编号:38130840 阅读:8 留言:0更新日期:2023-07-08 09:38
基于深度强化学习的自动驾驶系统后门攻击方法及相关装置,包括:根据攻击者能力和目标确定威胁模型;在威胁模型下,确定深度强化学习模型的状态空间、动作空间和奖励函数,同时设计后门攻击的恶意奖励函数;在恶意奖励函数的基础上,设计后门触发器,将其隐蔽到一系列连续的时空状态中;将恶意奖励函数以及后门触发器融入到深度强化学习模型的训练过程中,配置训练参数,训练并部署带有后门的深度强化学习模型。本发明专利技术利用车辆驾驶的时间和空间特征对深度强化学习进行后门攻击,具有更高的攻击成功率,且在触发器不存在的情况下,能够更低限度地影响自动驾驶系统的表现。低限度地影响自动驾驶系统的表现。低限度地影响自动驾驶系统的表现。

【技术实现步骤摘要】
基于深度强化学习的自动驾驶系统后门攻击方法及相关装置


[0001]本专利技术属于后门攻击
,特别涉及基于深度强化学习的自动驾驶系统后门攻击方法及相关装置。

技术介绍

[0002]随着智能网联汽车、人工智能的飞速发展,自动驾驶技术走入千家万户。自动驾驶技术在提供驾驶舒适性的同时,越来越多的安全事故由于自动驾驶技术的不成熟而导致,人们对于自动驾驶安全性的顾虑日益加深。自动驾驶技术主要分为环境感知与控制决策两个方面。深度强化学习通过结合深度神经网络的感知能力和强化学习的决策能力,被广泛的应用于自动驾驶的行为规划中。深度强化学习的成功主要依赖于大量的训练数据和计算资源,然而大规模人类驾驶数据的收集成本可能令人望而却步。这种困境可能导致深度强化学习模型在样本外的场景容易出现意外行为,而且还可能被注入恶意后门。自动驾驶中的恶意后门具有很大的危害,比如当后门触发器存在时,自动驾驶车辆可能会产生恶意减速,从而导致车辆碰撞或交通拥堵。
[0003]许多现有的后门攻击主要针对自动驾驶车辆的视觉感知能力,例如图像分类、对象识别和跟踪。植入后门的深度神经网络模型在良性样本上表现正常,但一旦在输入(图像或其它传感器数据)中出现攻击者指定的触发器,就会产生恶意结果。与这些监督学习不同,深度强化学习需要根据长期奖励而不是对即时奖励的监督来解决序列决策问题。在深度强化学习中植入后门更具挑战性,因为这需要破坏序列决策而不是单一的决策,同时需要在没有后门触发器的情况下保持良好的性能。现有研究从不同的角度设计触发器,向基于深度强化学习的自动驾驶系统中植入后门,代表性的触发器有特定的时间步长、图像观察中呈现的动作轨迹以及车辆速度和位置的组合等,这些现有后门攻击的缺陷在于触发器和后门行为一一对应,很容易被现有的后门检测算法检测出来。

技术实现思路

[0004]本专利技术的目的在于提供基于深度强化学习的自动驾驶系统后门攻击方法及相关装置,以解决现有后门攻击的缺陷在于触发器和后门行为一一对应,很容易被现有的后门检测算法检测出来的问题。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]基于深度强化学习的自动驾驶系统后门攻击方法,包括:
[0007]根据攻击者能力和目标确定威胁模型;
[0008]在威胁模型下,确定深度强化学习模型的状态空间、动作空间和奖励函数,同时设计后门攻击的恶意奖励函数;
[0009]在恶意奖励函数的基础上,设计后门触发器,将其隐蔽到一系列连续的时空状态中;
[0010]将恶意奖励函数以及后门触发器融入到深度强化学习模型的训练过程中,配置训
练参数,训练并部署带有后门的深度强化学习模型。
[0011]进一步的,威胁模型是进行后门攻击的前提条件,指攻击者对深度强化学习模型、训练数据以及训练过程的操作权限;攻击者能力包括毒害训练数据和操纵中毒状态的奖励,攻击者的攻击目标是将隐藏的后门植入到深度强化学习策略中,植入的后门具有有效性、隐蔽性和可持续性,有效性要求带有后门的深度强化学习模型在没有后门触发器出现的情况下表现得与正常训练的深度模型没有区别,并且在触发器存在时性能下降;隐蔽性要求后门触发器应当隐蔽并且投毒率较小;可持续性要求攻击在一些常见的后门防御下仍然有效。
[0012]进一步的,
[0013]状态空间:车辆行驶特征用位置、速度和航向来表示;自动驾驶车辆附近有I

1个可观察到的人工驾驶车辆,将自动驾驶车辆和其它可观察到的人工驾驶车辆的特征描述如下:
[0014]s
t
=(s
i
)
i∈[0,I)
, where
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0015][0016]对于自动驾驶车辆,即i=0,x
i
和y
i
分别是在道路中的纵向和横向位置;和分别是的纵向和横向速度;cosψ
i
和sinψ
i
分别是航向ψ
i
的余弦和正弦;对于其它人工驾驶车辆,即i>0,位置变量x
i
和y
i
,速度变量和与自动驾驶车辆有关,二元变量p表示在自动驾驶车辆附近是否可观察到;
[0017]动作空间:构建动作空间,包括左转、巡航、右转、加速和减速,动作被转换为相应的转向和油门控制信号,以由低级的车辆控制器操纵自动驾驶车辆;
[0018]奖励:奖励函数用于优化深度强化学习策略,由以下三部分组成:
[0019]碰撞指标r
c
:如果自动驾驶车辆发生碰撞,r
c


1,否则r
c
为0;
[0020]稳定速度指标r
s
:r
s
用于奖励在速度限制[v
min
,v
max
]内较快的速度v
t

[0021][0022]车头时距指标r
h
:将自动驾驶汽车的车头时距评估指标定义为:
[0023][0024]其中,d
h
为车头距离;t
h
是时间进展阈值,当d
h
大于t
h
v
t
时,自动驾驶车辆将获得奖励,否则将受到惩罚。
[0025]给定这些评估指标,然后将它们组合为一个单一目标奖励函数,用于在时间步t训练深度强化学习策略:
[0026]r
t
=w
c
r
c
+w
s
r
s
+w
h
r
h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0027]其中,w
c
,w
s
和w
h
是正加权标量。
[0028]进一步的,后门恶意奖励r
a
来代替原始奖励,其能够引导训练出带有后门神经元的深度强化学习模型,它由两部分组成:
[0029]碰撞指标如果自动驾驶车辆发生碰撞,则否则
[0030]车头距离指标用于奖励自动驾驶车辆与其前面车辆之间的较小距离,其中将d
max
设置为60m:
[0031][0032]通过使用两个正加权标量和后门恶意奖励设计如下:
[0033](6)。
[0034]进一步的,后门触发器的设计:
[0035]攻击者驾驶车辆在自动驾驶车辆附近,将触发器表示为攻击者车辆和自动驾驶车辆本身之间的空间依赖关系和攻击者车辆的时间行为;使用逻辑公式来制定空间依赖关系包括速度、位置和航向,使用一组车辆控制命令的形式来表示时间行为;给定自动驾驶车辆的一个状态s
e
和攻击者车辆的一个状态s
a<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的自动驾驶系统后门攻击方法,其特征在于,包括:根据攻击者能力和目标确定威胁模型;在威胁模型下,确定深度强化学习模型的状态空间、动作空间和奖励函数,同时设计后门攻击的恶意奖励函数;在恶意奖励函数的基础上,设计后门触发器,将其隐蔽到一系列连续的时空状态中;将恶意奖励函数以及后门触发器融入到深度强化学习模型的训练过程中,配置训练参数,训练并部署带有后门的深度强化学习模型。2.根据权利要求1所述的基于深度强化学习的自动驾驶系统后门攻击方法,其特征在于,威胁模型是进行后门攻击的前提条件,指攻击者对深度强化学习模型、训练数据以及训练过程的操作权限;攻击者能力包括毒害训练数据和操纵中毒状态的奖励,攻击者的攻击目标是将隐藏的后门植入到深度强化学习策略中,植入的后门具有有效性、隐蔽性和可持续性,有效性要求带有后门的深度强化学习模型在没有后门触发器出现的情况下表现得与正常训练的深度模型没有区别,并且在触发器存在时性能下降;隐蔽性要求后门触发器应当隐蔽并且投毒率较小;可持续性要求攻击在一些常见的后门防御下仍然有效。3.根据权利要求1所述的基于深度强化学习的自动驾驶系统后门攻击方法,其特征在于,状态空间:车辆行驶特征用位置、速度和航向来表示;自动驾驶车辆附近有I

1个可观察到的人工驾驶车辆,将自动驾驶车辆和其它可观察到的人工驾驶车辆的特征描述如下:s
t
=(s
i
)
i∈[0,I)
,where
ꢀꢀꢀꢀ
(1)对于自动驾驶车辆,即i=0,x
i
和y
i
分别是在道路中的纵向和横向位置;和分别是的纵向和横向速度;cosψ
i
和sinψ
i
分别是航向ψ
i
的余弦和正弦;对于其它人工驾驶车辆,即i>0,位置变量x
i
和y
i
,速度变量和与自动驾驶车辆有关,二元变量p表示在自动驾驶车辆附近是否可观察到;动作空间:构建动作空间,包括左转、巡航、右转、加速和减速,动作被转换为相应的转向和油门控制信号,以由低级的车辆控制器操纵自动驾驶车辆;奖励:奖励函数用于优化深度强化学习策略,由以下三部分组成:碰撞指标r
c
:如果自动驾驶车辆发生碰撞,r
c


1,否则r
c
为0;稳定速度指标r
s
:r
s
用于奖励在速度限制[v
min
,v
max
]内较快的速度v
t
:车头时距指标r
h
:将自动驾驶汽车的车头时距评估指标定义为:其中,d
h
为车头距离;t
h
是时间进展阈值,当d
h
大于t
h
v
t
时,自动驾驶车辆将获得奖励,否则将受到惩罚;给定这些评估指标,然后将它们组合为一个单一目标奖励函数,用于在时间步t训练深度强化学习策略:
r
t
=w
c
r
c
+w
s
r
s
+w
h
r
h
ꢀꢀꢀꢀ
(4)其中,w
c
,w
s
和w
h
是正加权标量。4.根据权利要求3所述的基于深度强化学习的自动驾驶系统后门攻击方法,其特征在于,后门恶...

【专利技术属性】
技术研发人员:刘家佳于银菠闫赛豪
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1