基于逆向强化学习的无人机路径规划方法技术

技术编号:36951218 阅读:46 留言:0更新日期:2023-03-22 19:11
为了解决深度确定性策略梯度算法在规划无人机安全避碰路径时收敛速度慢、奖励函数设置困难等问题,本发明专利技术提出了一种基于逆向强化学习的无人机路径规划方法。首先,基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明,本发明专利技术能有效提升算法训练效率且避障性能更优。避障性能更优。避障性能更优。

【技术实现步骤摘要】
基于逆向强化学习的无人机路径规划方法


[0001]本专利技术属于无人机路径规划
,具体涉及基于逆向强化学习的无人机路径规划方法。

技术介绍

[0002]随着UAV(Unmanned Aerial Vehicle,无人机)领域的进一步开放,城市、山地等复杂环境中的密集动态障碍使UAV的飞行安全受到了极大威胁。传统的路径规划算法,如A*、D*等启发式算法以及基于图论的通视图法、Voronoi图法等,仅能应对提前获知障碍信息的简单环境。但由于城市、山地地形复杂多变,且难以获取障碍的具体参数,传统避障算法应用范围受限。
[0003]不同于上述传统路径规划方法,基于强化学习的导航方法借鉴生物后天感知发育的学习方式,通过与环境的交互持续优化避障策略,不仅避免了对障碍建模和监督学习的依赖,而且具备较强的泛化能力和鲁棒性。特别是近年来深度强化学习利用深度学习强大的感知与函数拟合能力,有效缓解了高维环境状态空间和决策空间“指数爆炸”问题,为UAV在密集动态障碍环境下的路径规划问题提供了新思路。Sliver、Google DeepMind团队、伯克利大学的John Schulman博士以及OpenAI相继提出了DDPG(Deep deterministic policy gradient,深度确定性策略梯度)算法、异步优势AC(Asynchronous Advantage Actor Critic,简称:A3C)算法、置信域策略优化(Trust Region Policy Optimization,简称:TRPO)算法和近端策略优化(proximal policy optimization,简称:PPO)等深度强化学习算法。
[0004]尽管这些方法在UAV路径规划方面有明显优势,但往往需要探索大量随机障碍环境样本以尝试新策略,容易陷入局部最优。因此,本专利技术提出了一种融合专家经验损失的DDPG算法,在自探索样本的基础上引入高奖励值的专家演示轨迹样本,以节约探索空间;同时,引入专家经验损失梯度函数优化网络参数,获取最优策略。
[0005]上述融合专家经验损失的DDPG算法解决了策略迭代优化问题,但奖励函数的设计仍具有强烈的主观性,而且通过与环境交互获取的奖励通常比较稀疏,导致算法在训练时极难收敛,路径规划效果欠佳。而专家在完成避障任务时,其策略往往是最优的,因此从专家演示轨迹中学习专家经验进而构建奖励函数,很大程度上比人为设计的奖励函数形式更贴合现实需求,这种在给定专家轨迹的情况下,反向推导专家经验中隐含的奖励函数的算法就是逆向强化学习(Inverse Reinforcement Learning,IRL)。IRL可分为最大边际和最大熵两大类,但是基于最大边际的方法往往会产生歧义,即可以从相同的专家策略中推导出具有随机偏好的不同奖励函数。而最大熵模型完全基于已知数据(即专家轨迹)构建,没有对未知信息做任何主观假设的分布,有效避免了歧义性问题,因此,本专利技术采用基于最大熵的IRL算法求解专家演示轨迹中隐含的最优奖励函数。

技术实现思路

[0006]为了克服现有技术中的问题,本专利技术提出了一种基于逆向强化学习的无人机路径规划方法。
[0007]本专利技术解决上述技术问题的技术方案如下:
[0008]一种基于逆向强化学习的无人机路径规划方法,包括以下步骤:
[0009]步骤1.采集专家操纵UAV避障的专家演示轨迹数据集和自探索轨迹数据集;
[0010]步骤2.构建经验池,所述经验池由专家演示轨迹数据集和自探索轨迹数据集共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训练样本;
[0011]步骤3.基于DDPG,引入专家经验损失函数指导DDPG参数的迭代更新,加快求解最优策略;
[0012]步骤4.构造奖励函数,基于最大熵逆向强化学习算法求解奖励函数,即在已知专家演示轨迹的情况下,求解产生该轨迹的隐含概率模型;
[0013]步骤5.训练DDPG,直至DDPG在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。
[0014]进一步地,所述步骤2中构建经验池具体包括以下步骤:
[0015]经验池由专家演示轨迹数据集T
expert
和自探索轨迹数据集T
discover
共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训练样本T:
[0016]T=α
·
T
expert

·
T
discover
ꢀꢀ
(1)
[0017]式中,α为从训练集T
expert
中采样的比重,β为从训练集T
discover
中采样的比重。
[0018]进一步地,所述步骤3中引入专家经验损失函数指导的DDPG算法包括在线策略网络μ(s|θ
μ
)、在线值函数网络Q(s,a|θ
Q
)、目标策略网络μ'(s|θ
μ'
)和目标值函数网络Q'(s,a|θ
Q'
)。
[0019]进一步地,在线值函数网络Q(s,a|θ
Q
)参数的优化具体包括以下步骤:
[0020]根据贝尔曼方程,在第i个训练时间步,在线值函数网络的动作目标值y
i
为:
[0021]y
t
=r
t
+γQ'(s
t+1
,μ'(s
t+1

μ'
)|θ
Q'
)
ꢀꢀ
(2)
[0022]则在线值函数网络的动作目标值与实际输出Q(s
i
,a
i

Q
)之间的误差δ
i
为:
[0023]δ
i
=y
i

Q(s
i
,a
i

Q
)
ꢀꢀ
(3)
[0024]将式(3)代入式(2)中,得出在线值函数网络的损失函数:
[0025][0026]通过梯度下降法最小化损失函数J(θ
Q
)对在线值函数网络参数θ
Q
进行优化更新,令J(θ
Q
)对网络参数θ
Q
求导,可知其梯度值为:
[0027][0028]在线值函数网络参数的更新根据式(5)进行。
[0029]进一步地,在线策略网络参数的优化具体包括以下步骤:
[0030]在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行;
[0031]对于专家演示轨迹数据,将在线策略网络基于当前专家状态预测的即时策略a
i
与真实专家策略的均方误差J
exp

μ
)作为专家经验损失引入,使得网络的预测输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逆向强化学习的无人机路径规划方法,其特征在于,包括以下步骤:步骤1.采集专家操纵UAV避障的专家演示轨迹数据集和自探索轨迹数据集;步骤2.构建经验池,所述经验池由专家演示轨迹数据集和自探索轨迹数据集共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训练样本;步骤3.基于DDPG,引入专家经验损失函数指导DDPG参数的迭代更新,加快求解最优策略;步骤4.构造奖励函数,基于最大熵逆向强化学习算法求解奖励函数,即在已知专家演示轨迹的情况下,求解产生该轨迹的隐含概率模型;步骤5.训练DDPG,直至DDPG在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。2.根据权利要求1所述的一种基于逆向强化学习的无人机路径规划方法,其特征在于,所述步骤2中构建经验池具体包括以下步骤:经验池由专家演示轨迹数据集T
expert
和自探索轨迹数据集T
discover
共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训练样本T:T=α
·
T
expert

·
T
discover
ꢀꢀꢀꢀ
(1)式中,α为从训练集T
expert
中采样的比重,β为从训练集T
discover
中采样的比重。3.根据权利要求1所述的一种基于逆向强化学习的无人机路径规划方法,其特征在于,所述步骤3中引入专家经验损失函数指导的DDPG算法包括在线策略网络μ(s|θ
μ
)、在线值函数网络Q(s,a|θ
Q
)、目标策略网络μ'(s|θ
μ'
)和目标值函数网络Q'(s,a|θ
Q'
)。4.根据权利要求3所述的一种基于逆向强化学习的无人机路径规划方法,其特征在于,在线值函数网络Q(s,a|θ
Q
)参数的优化具体包括以下步骤:根据贝尔曼方程,在第i个训练时间步,在线值函数网络的动作目标值y
i
为:y
t
=r
t
+γQ'(s
t+1
,μ'(s
t+1

μ'
)|θ
Q'
)
ꢀꢀꢀꢀꢀ
(2)则在线值函数网络的动作目标值与实际输出Q(s
i
,a
i

Q
)之间的误差δ
i
为:δ
i
=y
i

Q(s
i
,a
i

Q
)
ꢀꢀꢀꢀ
(3)将式(3)代入式(2)中,得出在线值函数网络的损失函数:通过梯度下降法最小化损失函数J(θ
Q
)对在线值函数网络参数θ
Q
进行优化更新,令J(θ
Q
)对网络参数θ
Q
求导,可知其梯度值为:在线值函数网络参数的更新根据式(5)进行。5.根据权利要求3所述的一种基于逆向强化学习的无人机路径规划方法,其特征在于,在线策略网络参数的优化具体包括以下步骤:在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行;对于专家演示轨迹数据,将在线策略网络基于当前专家状态预测的即时策略a
i
与真实专家策略的均方误差J
exp

μ
)作为专家经验损失引入,使得网络的预测输出策略不断趋于专家策略:
式中,为在线策略网络基于当前专家状态预测的即时策略;令专家经验损失J
exp

μ
)对策略网络参数θ
μ
求导,可得其梯度值为按照原始DDPG算法的在线策略梯度值更新参数θ
μ
:采用融合梯度更新在线策略网络的参数:式中,λ为融合梯度调节因子。6.根据权利要求3所述的一种基于逆向强化学习的无人机路径规划方法,其特征在于,目标网络参数的更新基于在线网络参数采用软更新的方式:式中,τ<1。7.根据权利要求6所述的一种基于逆向强化学习的无人机路径规划方法,其特征在于,所述步骤4中构造奖励函数包括以下步骤:已知专家操控UAV避障生成的轨迹ζ:ζ={(s1,a1),(s2,a2),

【专利技术属性】
技术研发人员:杨秀霞张毅王晨蕾杨林李文强姜子劼于浩
申请(专利权)人:中国人民解放军海军航空大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1