基于逆向强化学习的无人机路径规划方法技术

技术编号：36951218 阅读：46 留言：0更新日期：2023-03-22 19:11

为了解决深度确定性策略梯度算法在规划无人机安全避碰路径时收敛速度慢、奖励函数设置困难等问题，本发明专利技术提出了一种基于逆向强化学习的无人机路径规划方法。首先，基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集；其次，采用混合采样机制，在自探索数据中融合高质量专家演示轨迹数据更新网络参数，以降低算法探索成本；最后，根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数，解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明，本发明专利技术能有效提升算法训练效率且避障性能更优。避障性能更优。避障性能更优。

全部详细技术资料下载

【技术实现步骤摘要】
基于逆向强化学习的无人机路径规划方法

[0001]本专利技术属于无人机路径规划
，具体涉及基于逆向强化学习的无人机路径规划方法。

技术介绍

[0002]随着UAV(Unmanned Aerial Vehicle，无人机)领域的进一步开放，城市、山地等复杂环境中的密集动态障碍使UAV的飞行安全受到了极大威胁。传统的路径规划算法，如A*、D*等启发式算法以及基于图论的通视图法、Voronoi图法等，仅能应对提前获知障碍信息的简单环境。但由于城市、山地地形复杂多变，且难以获取障碍的具体参数，传统避障算法应用范围受限。
[0003]不同于上述传统路径规划方法，基于强化学习的导航方法借鉴生物后天感知发育的学习方式，通过与环境的交互持续优化避障策略，不仅避免了对障碍建模和监督学习的依赖，而且具备较强的泛化能力和鲁棒性。特别是近年来深度强化学习利用深度学习强大的感知与函数拟合能力，有效缓解了高维环境状态空间和决策空间“指数爆炸”问题，为UAV在密集动态障碍环境下的路径规划问题提供了新思路。Sliver、Google DeepMind团队、伯克利大学的John Schulman博士以及OpenAI相继提出了DDPG(Deep deterministic policy gradient，深度确定性策略梯度)算法、异步优势AC(Asynchronous Advantage Actor Critic，简称：A3C)算法、置信域策略优化(Trust Region Policy Optimization，简称：TRPO)算法和近...

【技术保护点】

【技术特征摘要】
1.一种基于逆向强化学习的无人机路径规划方法，其特征在于，包括以下步骤：步骤1.采集专家操纵UAV避障的专家演示轨迹数据集和自探索轨迹数据集；步骤2.构建经验池，所述经验池由专家演示轨迹数据集和自探索轨迹数据集共同组成，并采用混合采样机制从两个数据集中分别采样形成最终训练样本；步骤3.基于DDPG，引入专家经验损失函数指导DDPG参数的迭代更新，加快求解最优策略；步骤4.构造奖励函数，基于最大熵逆向强化学习算法求解奖励函数，即在已知专家演示轨迹的情况下，求解产生该轨迹的隐含概率模型；步骤5.训练DDPG，直至DDPG在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。2.根据权利要求1所述的一种基于逆向强化学习的无人机路径规划方法，其特征在于，所述步骤2中构建经验池具体包括以下步骤：经验池由专家演示轨迹数据集T
expert
和自探索轨迹数据集T
discover
共同组成，并采用混合采样机制从两个数据集中分别采样形成最终训练样本T：T＝α
·
T
expert
+β
·
T
discover
ꢀꢀꢀꢀ
(1)式中，α为从训练集T
expert
中采样的比重，β为从训练集T
discover
中采样的比重。3.根据权利要求1所述的一种基于逆向强化学习的无人机路径规划方法，其特征在于，所述步骤3中引入专家经验损失函数指导的DDPG算法包括在线策略网络μ(s|θ
μ
)、在线值函数网络Q(s,a|θ
Q
)、目标策略网络μ'(s|θ
μ'
)和目标值函数网络Q'(s,a|θ
Q'
)。4.根据权利要求3所述的一种基于逆向强化学习的无人机路径规划方法，其特征在于，在线值函数网络Q(s,a|θ
Q
)参数的优化具体包括以下步骤：根据贝尔曼方程，在第i个训练时间步，在线值函数网络的动作目标值y
i
为：y
t
＝r
t
+γQ'(s
t+1
,μ'(s
t+1
|θ
μ'
)|θ
Q'
)
ꢀꢀꢀꢀꢀ
(2)则在线值函数网络的动作目标值与实际输出Q(s
i
,a
i
|θ
Q
)之间的误差δ
i
为：δ
i
＝y
i
‑
Q(s
i
,a
i
|θ
Q
)
ꢀꢀꢀꢀ
(3)将式(3)代入式(2)中，得出在线值函数网络的损失函数：通过梯度下降法最小化损失函数J(θ
Q
)对在线值函数网络参数θ
Q
进行优化更新，令J(θ
Q
)对网络参数θ
Q
求导，可知其梯度值为：在线值函数网络参数的更新根据式(5)进行。5.根据权利要求3所述的一种基于逆向强化学习的无人机路径规划方法，其特征在于，在线策略网络参数的优化具体包括以下步骤：在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行；对于专家演示轨迹数据，将在线策略网络基于当前专家状态预测的即时策略a
i
与真实专家策略的均方误差J
exp
(θ
μ
)作为专家经验损失引入，使得网络的预测输出策略不断趋于专家策略：
式中，为在线策略网络基于当前专家状态预测的即时策略；令专家经验损失J
exp
(θ
μ
)对策略网络参数θ
μ
求导，可得其梯度值为按照原始DDPG算法的在线策略梯度值更新参数θ
μ
：采用融合梯度更新在线策略网络的参数：式中，λ为融合梯度调节因子。6.根据权利要求3所述的一种基于逆向强化学习的无人机路径规划方法，其特征在于，目标网络参数的更新基于在线网络参数采用软更新的方式：式中，τ<1。7.根据权利要求6所述的一种基于逆向强化学习的无人机路径规划方法，其特征在于，所述步骤4中构造奖励函数包括以下步骤：已知专家操控UAV避障生成的轨迹ζ：ζ＝{(s1,a1),(s2,a2),
…

【专利技术属性】
技术研发人员：杨秀霞，张毅，王晨蕾，杨林，李文强，姜子劼，于浩，
申请(专利权)人：中国人民解放军海军航空大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人