一种基于安全强化学习的城市空域内无人机路径规划方法技术

技术编号:38025108 阅读:17 留言:0更新日期:2023-06-30 10:51
本发明专利技术公开了一种基于安全强化学习的城市空域内无人机路径规划方法,将防护模型Shield与强化学习DDPG算法相结合,属于无人机技术领域,该方法在进行动作选择时引入目标位置的引力,提高了算法的收敛速度,从而提高路径规划的效率;更主要的是,本发明专利技术提出的方法能够从空中碰撞风险和地面撞击风险两方面,有效地对算法输出的动作进行安全性校验,并保证最终算法的输出是安全的最优解。本发明专利技术可以解决强化学习类算法用于无人机路径规划时缺少硬约束、难以保证求解过程安全和结果安全的问题。题。题。

【技术实现步骤摘要】
一种基于安全强化学习的城市空域内无人机路径规划方法


[0001]本专利技术属于无人机
,具体涉及一种基于安全强化学习的城市空域内无人机路径规划方法。

技术介绍

[0002]近年来无人驾驶航空器系统(Unmanned Aircraft Systems,UAS,后简称为“无人机”)技术正处于蓬勃发展的时期,广泛应用在军事、民用的各应用领域,军事方面其主要应用在网络化、信息化战场中,民用方面无人机对遥感测绘、物流配送、地质勘测、灾害援救、疫情防护等工作具有重要意义。尽管无人机的飞行任务可能不尽相同,但都需要保证一条规划好的能够从起始位置安全到达目标位置的最优路径,从而保证无人机任务的圆满完成。
[0003]尤其是,随着无人机在交通运输领域应用的不断拓展,城市空中交通运输系统(Urban Air Mobility,UAM)逐渐被人们所关注。可以说,城市空中交通运输系统已经成为未来智能运输系统发展的必然趋势,然而无人机进入城市空域运行,会给公共安全带来巨大的安全隐患。因此,寻找一种高效可靠的无人机路径规划方法,能够使无人机高效避开城市地面建筑物、基础设施等障碍物,同时最大限度地保证无人机的飞行对城市地面人群带来的风险最小化和可接受化,对于无人机在城市空域的运行与应用具有重要的研究意义。从目前的研究成果看,结合算法性质,可以将常用的无人机路径规划方法主要分为线性规划算法、图搜索算法、智能优化算法和强化学习算法四大类。
[0004]线性规划算法,以混合整数线性规划MILP等为代表,该方法计算相对简单高效,但无法快速处理决策变量较多的问题;图搜索算法,以Dijkstra算法、A*算法、RRT算法等为代表,此类算法更适合求解最短路径问题,但在城市场景中实用性较差,而且算法效率也会随着算法遍历的节点数增多而下降;智能优化算法,以粒子群优化PSO算法、蚁群ACO算法、遗传GA算法等为代表,此类算法普遍、通用且便于并行处理,但容易在某些复杂情况下易陷入局部最优。
[0005]此外,以深度Q网络DQN算法、深度确定性策略梯度DDPG算法等为代表的强化学习算法也越来越多地应用于无人机路径规划问题中,此类算法中无人机通过与环境交互来获得最优决策,从而期望得到最大化长期回报,具有较强的通用性。但该类算法由于自身原理上的缺陷,很难用具有数学证明的解保证最终算法输出的安全性,而对于无人机在城市空域运行而言,首要保证的就是其安全性,所以需要对本类算法进行针对性改进。

技术实现思路

[0006]有鉴于此,考虑到城市飞行环境的复杂性,本专利技术的目的在于提供一种基于Shield

DDPG安全强化学习的无人机路径规划方法,可以实现对无人机路径规划指令的安全可靠校验,能够尽量避免空中碰撞和地面撞击两方面的风险,从而有效保证规划路径的安全性,同时能够有效应对一般强化学习算法解的不确定性问题。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]本专利技术一种基于安全强化学习的城市空域内无人机路径规划方法,包括以下步骤:
[0009]S1、采集无人机、城市空域及地面区域的状态信息,定义无人机的任意一个时刻t的状态为s
t
,其中,s
t
=[x
t
,y
t
,z
t
];
[0010]S2、安全强化学习Shield

DDPG算法架构由环境、神经网络模块、防护模块Shield、经验回放池四个功能模块组成;根据状态s
t
,通过神经网络模块进行训练,所述神经网络模块包括Main网络和Target网络;防护模块Shield采用线性时序逻辑构建,具体组成包括有限状态反应系统、状态轨迹、安全准则、马尔科夫决策过程、安全自动机和观测函数,所述防护模块Shield作用于Main Actor网络与Main Critic网络间,所述Main Actor网络获取输出动作u
t

[0011]S3、经Shield防护模块判断安全性的动作为其中引力ε为引力系数,为无人机当前位置与目标点位置之间的相对距离;
[0012]S4、Shield模块对动作a
t
进行安全性校验,最终输出安全动作a

t

[0013]S5、通过得到的最终输出安全动作a

t
,执行a

t
进行状态转移得到下一状态s
t+1
以及奖励Reward
t

[0014]S6、将当前状态s
t
、最终输出安全动作a

t
、奖励Reward
t
、下一状态s
t+1
、训练标志位d
t
存入经验回放池中,在经验回放池中抽取经验对神经网络进行更新。
[0015]进一步,有限状态反应系统M=(S,Θ,L),其中S为n个状态集合,即L代表观测量,Θ代表状态转移关系;对于准则Φ,反应系统M中所有的状态轨迹均应满足Φ的要求,当Φ定义为一个符合安全要求的安全准则Φ
safe
时,即可对状态轨迹实现安全约束;观测函数f:将其定义为状态S与环境E的映射,输出为无人机与各个障碍物间的相对距离和无人机失控坠地的地面撞击风险Risk
t
;定义一个在状态s处采取动作a的描述函数如下所示:
[0016][0017]其中t和t+1分别代表t时刻和t+1时刻,Risk
max
指的是无人机失控坠地的地面撞击最大可接受目标安全水平,Risk
min
指的是无人机失控坠地的地面撞击最小可忽略风险,其中和分别为第i个静态障碍物的半径和高;状态转移关系Θ表述为:
[0018][0019]当Θ(s,(l,a))输出为1时为安全状态,输出为0时为不安全状态,若符合安全约束要求,则认为其为安全动作a

t
;若不符合则需要由Shield模块生成安全的动作a

t

[0020]进一步,Shield模块生成安全动作a

t
的步骤具体为:首先判断具体是无人机哪个或哪几个维度的动作导致了不安全情况的发生,即令除了待评估维度外的其他两个维度动作为0,演绎在此单一维度动作下的状态转移过程,计算并判断此时是否安全,以此类推,经过各维度单独判断可以得到不安全动作的维度;随后固定安全维度的动作不变,以特定步长ξ对不安全动作维度的原始动作循环压缩j次,并对每次压缩得到的动作再次进行判定,
假设这j个动作中有m个动作满足安全准则,则分别演绎此m个动作的状态转移过程并计算奖励,选取奖励最大动作为安全动作a

t

[0021]进一步,在获得安全动作a

t
后,执行a

t<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于安全强化学习的城市空域内无人机路径规划方法,其特征在于,包括以下步骤:S1、采集无人机、城市空域及地面区域的状态信息,定义无人机的任意一个时刻t的状态为s
t
,其中,s
t
=[x
t
,y
t
,z
t
];S2、安全强化学习Shield

DDPG算法架构由环境、神经网络模块、防护模块Shield、经验回放池四个功能模块组成;根据状态s
t
,通过神经网络模块进行训练,所述神经网络模块包括Main网络和Target网络;防护模块Shield采用线性时序逻辑构建,具体组成包括有限状态反应系统、状态轨迹、安全准则、马尔科夫决策过程、安全自动机和观测函数,所述防护模块Shield作用于Maim Actor网络与Main Critic网络间,所述Maim Actor网络获取输出动作u
t
;S3、经Shield防护模块判断安全性的动作为其中引力ε为引力系数,为无人机当前位置与目标点位置之间的相对距离;S4、Shield模块对动作a
t
进行安全性校验,最终输出安全动作a

t
;S5、通过得到的最终输出安全动作a

t
,执行a

t
进行状态转移得到下一状态s
t+1
以及奖励Reward
t
;S6、将当前状态s
t
、最终输出安全动作a

t
、奖励Reward
t
、下一状态s
t+1
、训练标志位d
t
存入经验回放池中,在经验回放池中抽取经验对神经网络进行更新。2.根据权利要求1所述的一种基于安全强化学习的城市空域内无人机路径规划方法,其特征在于,有限状态反应系统M=(S,Θ,L),其中S为n个状态集合,即L代表观测量,Θ代表状态转移关系;对于准则Φ,反应系统M中所有的状态轨迹均应满足Φ的要求,当Φ定义为一个符合安全要求的安全准则Φ
safe
时,即可对状态轨迹实现安全约束;观测函数f:将其定义为状态S与环境E的映射,输出为无人机与各个障碍物间的相对距离和无人机失控坠地的地面撞击风险Risk
t
;定义一个在状态s处采取动作a的描述函数如下所示:其中t和t+1分别代表t时刻和t+1时刻,Risk
max
指的是无人机失控坠地的地面撞击最大可接受目标安全水平,Risk
min
指的是无人机失控坠地的地面撞击最小可忽略风险,其中和分别为第i个静态障碍物的半径和高;状态转移关系Θ表述为:当Θ(s,(l,a))输出为1时为安全状态,输出为0时为不安全状态,若符合安全约束要求,则认为其为安全动作a

t
;若不符合则需要由Shield模块生成安全的动作a

t
。3.根据权利要求2所述的一种基于安全强化学习的城市空域内无人机路径规划方法,其特征在于,Shield模块生成安全动作a

t
的步骤具体为:首先判断具体是无人机哪个或哪几个维度的动作导致了不安全情况的发生,即令除了待评估维度外的其他两个维度动作为0,演绎在此单一维度动作下...

【专利技术属性】
技术研发人员:张学军李妍朱元军
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1