【技术实现步骤摘要】
一种基于安全强化学习的城市空域内无人机路径规划方法
[0001]本专利技术属于无人机
,具体涉及一种基于安全强化学习的城市空域内无人机路径规划方法。
技术介绍
[0002]近年来无人驾驶航空器系统(Unmanned Aircraft Systems,UAS,后简称为“无人机”)技术正处于蓬勃发展的时期,广泛应用在军事、民用的各应用领域,军事方面其主要应用在网络化、信息化战场中,民用方面无人机对遥感测绘、物流配送、地质勘测、灾害援救、疫情防护等工作具有重要意义。尽管无人机的飞行任务可能不尽相同,但都需要保证一条规划好的能够从起始位置安全到达目标位置的最优路径,从而保证无人机任务的圆满完成。
[0003]尤其是,随着无人机在交通运输领域应用的不断拓展,城市空中交通运输系统(Urban Air Mobility,UAM)逐渐被人们所关注。可以说,城市空中交通运输系统已经成为未来智能运输系统发展的必然趋势,然而无人机进入城市空域运行,会给公共安全带来巨大的安全隐患。因此,寻找一种高效可靠的无人机路径规划方法,能够使无人机高效避开城市地面建筑物、基础设施等障碍物,同时最大限度地保证无人机的飞行对城市地面人群带来的风险最小化和可接受化,对于无人机在城市空域的运行与应用具有重要的研究意义。从目前的研究成果看,结合算法性质,可以将常用的无人机路径规划方法主要分为线性规划算法、图搜索算法、智能优化算法和强化学习算法四大类。
[0004]线性规划算法,以混合整数线性规划MILP等为代表,该方法计算相对简单高效,但无 ...
【技术保护点】
【技术特征摘要】
1.一种基于安全强化学习的城市空域内无人机路径规划方法,其特征在于,包括以下步骤:S1、采集无人机、城市空域及地面区域的状态信息,定义无人机的任意一个时刻t的状态为s
t
,其中,s
t
=[x
t
,y
t
,z
t
];S2、安全强化学习Shield
‑
DDPG算法架构由环境、神经网络模块、防护模块Shield、经验回放池四个功能模块组成;根据状态s
t
,通过神经网络模块进行训练,所述神经网络模块包括Main网络和Target网络;防护模块Shield采用线性时序逻辑构建,具体组成包括有限状态反应系统、状态轨迹、安全准则、马尔科夫决策过程、安全自动机和观测函数,所述防护模块Shield作用于Maim Actor网络与Main Critic网络间,所述Maim Actor网络获取输出动作u
t
;S3、经Shield防护模块判断安全性的动作为其中引力ε为引力系数,为无人机当前位置与目标点位置之间的相对距离;S4、Shield模块对动作a
t
进行安全性校验,最终输出安全动作a
′
t
;S5、通过得到的最终输出安全动作a
′
t
,执行a
′
t
进行状态转移得到下一状态s
t+1
以及奖励Reward
t
;S6、将当前状态s
t
、最终输出安全动作a
′
t
、奖励Reward
t
、下一状态s
t+1
、训练标志位d
t
存入经验回放池中,在经验回放池中抽取经验对神经网络进行更新。2.根据权利要求1所述的一种基于安全强化学习的城市空域内无人机路径规划方法,其特征在于,有限状态反应系统M=(S,Θ,L),其中S为n个状态集合,即L代表观测量,Θ代表状态转移关系;对于准则Φ,反应系统M中所有的状态轨迹均应满足Φ的要求,当Φ定义为一个符合安全要求的安全准则Φ
safe
时,即可对状态轨迹实现安全约束;观测函数f:将其定义为状态S与环境E的映射,输出为无人机与各个障碍物间的相对距离和无人机失控坠地的地面撞击风险Risk
t
;定义一个在状态s处采取动作a的描述函数如下所示:其中t和t+1分别代表t时刻和t+1时刻,Risk
max
指的是无人机失控坠地的地面撞击最大可接受目标安全水平,Risk
min
指的是无人机失控坠地的地面撞击最小可忽略风险,其中和分别为第i个静态障碍物的半径和高;状态转移关系Θ表述为:当Θ(s,(l,a))输出为1时为安全状态,输出为0时为不安全状态,若符合安全约束要求,则认为其为安全动作a
′
t
;若不符合则需要由Shield模块生成安全的动作a
′
t
。3.根据权利要求2所述的一种基于安全强化学习的城市空域内无人机路径规划方法,其特征在于,Shield模块生成安全动作a
′
t
的步骤具体为:首先判断具体是无人机哪个或哪几个维度的动作导致了不安全情况的发生,即令除了待评估维度外的其他两个维度动作为0,演绎在此单一维度动作下...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。