基于对抗地图的深度强化学习导航应用鲁棒性增强方法技术

技术编号:34882143 阅读:27 留言:0更新日期:2022-09-10 13:39
本发明专利技术涉及一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法,属于人工智能安全技术领域。本发明专利技术针对深度强化学习导航应用,为提高真实环境下DRL导航系统的鲁棒性,保证DRL导航模型在多种地图上均可安全导航,基于对抗样本的基本原理,提出了对抗地图的定义以及生成方法,并在此基础上通过“以攻促防”的方式,从对抗样本攻防角度出发,设计了一种基于对抗地图的鲁棒性增强方法,能够解决在真实环境下如何将对抗扰动添加到智能模型输入的问题,为真实环境下DRL导航模型的鲁棒性增强提供了一套可用的方案。提供了一套可用的方案。提供了一套可用的方案。

【技术实现步骤摘要】
基于对抗地图的深度强化学习导航应用鲁棒性增强方法


[0001]本专利技术属于人工智能安全
,具体涉及一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法。

技术介绍

[0002]近年来,随着机器学习理论技术的不断成熟,人工智能的广泛应用已深刻的影响到人类的日常生活。作为人工智能技术的研究热点之一,深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习的数据特征提取能力和强化学习的自学习能力,已在工业控制、机器人导航、游戏AI、生物医学等领域得到深入研究。在移动机器人导航应用中,相比于大多基于SLAM技术的传统导航框架,基于DRL的导航具有无地图、学习能力强、对传感器精度依赖低等优点,其端到端的决策方式在动态环境或位置环境中具有很好的表现,得到学术界和工业界广泛重视。
[0003]另一方面,在人工智能技术的高速发展的同时,其自身安全性问题逐渐受到研究者们的重视,其中,对抗样本目前的研究热点之一。通过对正常样本添加细微的扰动,对抗样本可以使目标模型做出错误决策,且由于人工智能系统的高复杂性和低可解释性,导致目前无法有效的检测和预防这种安全隐患。特别是在航空航天、工业控制、自主导航等安全攸关领域,对人工智能算法和模型的安全性、可靠性层面有更高的要求。因此,有必要在这些领域上对智能算法的安全鲁棒性增强方法进行研究。
[0004]现有针对人工智能的安全性研究集中在图像分类、目标检测等有监督学习领域,对DRL的相关工作尚处于初步阶段。且已有研究多数以视频游戏为验证场景,工作仅在算法层面开展,成果无法直接应用到其他领域。针对DRL导航的安全性研究参考文献1(Bai X,Niu W,Liu J,et al.Adversarial Examples Construction Towards White

Box Q Table Variation in DQN Pathfinding Training,in Proceedings of the 2018 IEEE Third International Conference on Data Science in Cyberspace(DSC).Piscataway,NJ:IEEE,2018:781

787)和参考文献2(Tong C,Niu W,Xiang Y,et al.Gradient Band

based Adversarial Training for Generalized Attack Immunity of A3C Path Finding.arXiv preprint arXiv:1807.06752,2018),都是在栅格地图上的寻路任务进行研究,与真实导航环境差距较大。

技术实现思路

[0005](一)要解决的技术问题
[0006]本专利技术要解决的技术问题是:如何解决在真实环境下如何将对抗扰动添加到智能模型输入的问题,为真实环境下DRL导航模型的鲁棒性增强提供一套可用的方案。
[0007](二)技术方案
[0008]为了解决上述技术问题,本专利技术提供了一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法,包括以下步骤:
[0009]步骤一、基于对抗样本的基本原理,定义对抗地图并提出对抗地图生成方法;
[0010]步骤二、安全加固训练:使用步骤一的对抗地图生成方法,通过生成对抗地图对导航智能体进行重训练。
[0011]优选地,步骤一中,首先定义DRL导航系统包括DRL导航模型、传感器、移动机器人,其中,DRL导航模型是指用于导航的DRL模型,传感器搭载在移动机器人上,DRL导航模型可根据传感器的数据进行决策,使移动机器人做出各种动作,所述移动机器人是导航智能体,指使用DRL算法进行导航的移动机器人,根据传感器的不同,DRL导航系统分为视觉和激光两类;
[0012]其次,对于使用激光传感器的激光DRL导航系统,执行如下步骤:
[0013]对所述对抗地图进行如下定义:通过对原始地图中的障碍物进行修改,可使导航智能体在修改位置附近的决策发生不必要的变化,偏离原导航路径,最终导航失败的地图;
[0014]针对每一个原始地图,基于对抗样本的基本原理,提出以下步骤用于生成相应的对抗地图:
[0015](1)收集导航智能体的交互信息:在原始地图上对DRL导航模型进行多次导航测试,记录每一次导航过程中导航智能体与环境的交互信息,包括移动机器人的姿态信息、传感器数据、做出的动作;
[0016](2)基于所述交互信息确定安全脆弱区域:
[0017](2a)从所述交互信息中提取导航智能体的观测信息作为原始样本,使用对抗样本生算法进行攻击,记录每次导航、每个时间步中,每种目标动作的攻击结果,在攻击时仅对传感器数据添加对抗扰动;
[0018](2b)根据记录的交互信息,以及步骤(2a)的攻击结果,生成脆弱区域分析图;在所述脆弱区域分析图上,从攻击成功位置聚集的多个区域中选取若干个,作为DRL导航模型在该原始地图上的安全脆弱区域;选取规则如下:在该区域攻击成功后,导航智能体的动作会使移动机器人偏离当前导航路径;
[0019](3)基于所述安全脆弱区域计算对抗扰动:
[0020](3a)令[a,b]表示所述安全脆弱区域的时间步范围,再重新从步骤(1)收集的交互信息中随机选择某次导航的观测信息作为原始样本,用JSMA算法计算时间步范围[a,b]内的对抗扰动δ
a
,δ
a+1
,...,δ
b
,使得在激光传感器数据上添加相应扰动后导航智能体将连续地做出目标动作t,其中,由于输入特征数量较少,因此对JSMA算法的特征图S的计算过程进行改进,公式如下:
[0021][0022][0023]其中,π
t
表示导航智能体策略函数π的第t个输出;l
k,i
为时间步k时激光传感器数据l
k
的第i个元素,k∈[a,b]。S
+
(o
k
,t)和S

(o
k
,t)分别表示两种不同方法计算的特征图,其中S
+
(o
k
,t)中仅保留了偏导数大于0的输入特征,也就是说,只要增加满足S
+
(o
k
,t)[i]>0的输入特征大小,就可使π
t
变大,S
+
(o
k
,t)[i]值越大,则增加l
k,i
数值后DRL导航模型输出结果更倾向于目标动作t,类似地,S

(o
k
,t)[i]值越大,则减小l
k,i
数值后模型输出结果更倾向于目标动作t;在每个时间步中,JSMA算法都根据相应的特征图S计算对抗扰动;
[0024](3b)根据上一步计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法,其特征在于,包括以下步骤:步骤一、基于对抗样本的基本原理,定义对抗地图并提出对抗地图生成方法;步骤二、安全加固训练:使用步骤一的对抗地图生成方法,通过生成对抗地图对导航智能体进行重训练。2.如权利要求1所述的方法,其特征在于,步骤一中,首先定义DRL导航系统包括DRL导航模型、传感器、移动机器人,其中,DRL导航模型是指用于导航的DRL模型,传感器搭载在移动机器人上,DRL导航模型可根据传感器的数据进行决策,使移动机器人做出各种动作,所述移动机器人是导航智能体,指使用DRL算法进行导航的移动机器人,根据传感器的不同,DRL导航系统分为视觉和激光两类;其次,对于使用激光传感器的激光DRL导航系统,执行如下步骤:对所述对抗地图进行如下定义:通过对原始地图中的障碍物进行修改,可使导航智能体在修改位置附近的决策发生不必要的变化,偏离原导航路径,最终导航失败的地图;针对每一个原始地图,基于对抗样本的基本原理,提出以下步骤用于生成相应的对抗地图:(1)收集导航智能体的交互信息:在原始地图上对DRL导航模型进行多次导航测试,记录每一次导航过程中导航智能体与环境的交互信息,包括移动机器人的姿态信息、传感器数据、做出的动作;(2)基于所述交互信息确定安全脆弱区域:(2a)从所述交互信息中提取导航智能体的观测信息作为原始样本,使用对抗样本生算法进行攻击,记录每次导航、每个时间步中,每种目标动作的攻击结果,在攻击时仅对传感器数据添加对抗扰动;(2b)根据记录的交互信息,以及步骤(2a)的攻击结果,生成脆弱区域分析图;在所述脆弱区域分析图上,从攻击成功位置聚集的多个区域中选取若干个,作为DRL导航模型在该原始地图上的安全脆弱区域;选取规则如下:在该区域攻击成功后,导航智能体的动作会使移动机器人偏离当前导航路径;(3)基于所述安全脆弱区域计算对抗扰动:(3a)令[a,b]表示所述安全脆弱区域的时间步范围,再重新从步骤(1)收集的交互信息中随机选择某次导航的观测信息作为原始样本,用JSMA算法计算时间步范围[a,b]内的对抗扰动δ
a

a+1
,


b
,使得在激光传感器数据上添加相应扰动后导航智能体将连续地做出目标动作t,其中,由于输入特征数量较少,因此对JSMA算法的特征图S的计算过程进行改进,公式如下:
其中,π
t
表示导航智能体策略函数π的第t个输出;l
k,i
为时间步k时激光传感器数据l
k
的第i个元素,k∈[a,b]。S
+
(o
k
,t)和S

(o
k
,t)分别表示两种不同方法计算的特征图,其中S
+
(o
k
,t)中仅保留了偏导数大于0的输入特征,也就是说,只要增加满足S
...

【专利技术属性】
技术研发人员:桓琦郭敏马晓军曾颖明方永强
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1