基于最大熵安全强化学习的无人机路径规划方法及装置制造方法及图纸

技术编号：41739399 阅读：23 留言：0更新日期：2024-06-19 12:58

本发明专利技术提出了一种基于最大熵安全强化学习的无人机路径规划方法及装置，采用深度强化学习熵最大化方法中的SAC算法对构建的决策模型作迭代训练，在训练过程中构建了动态环境，该环境设有静态障碍物、动态障碍物与目标地点。考虑无人机的动力学方程约束以及安全避障需求，将该路径规划问题建模为约束Markov决策过程。设计了相应的奖励函数，采用SAC算法迭代寻求该问题的近似最优策略，并用Monte Carlo测试对算法进行了分析。结果表明，本发明专利技术的无人机能够在动态不确定的环境中自主进行路径规划，并且比其他策略更具优越性，规划出的动态环境下的路径更准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于路径规划，具体涉及一种基于最大熵安全强化学习的无人机路径规划方法及装置。

技术介绍

1、随着智能化决策与空中装备性能的快速发展，无人机(unmanned aerialvehicle，uav)由于较好的机动性和灵活性在战场打击任务和灾后救援任务等方面具有良好的发展前景。所以uav需要拥有较高的自主路径规划能力，以应对复杂多变的飞行环境，其在获取动态变化的环境信息后，进行路径规划的能力就变得尤为重要。显然，如何快速且安全的到达指定目标地点是无人机路径规划的最终目标，也是无人系统领域的研究热点。

2、针对无人机路径规划问题，现有技术主要以传统的数学方法和启发式算法为主。传统的数学方法原理简单，有着很多的改进，在大多数情况下能够完成对路径规划的需求，因此有着十分广泛的应用。dijkstra算法是由edsger w.dijkstra在文献“e.w.dijkstra,anote on two problems in connexion with graphs,in edsger wybe dijkstra:hislife,work,and legacy,2022,pp.287-290”中提出的一种求解最短路径的算法，该算法通过正向遍历所有节点得到最优路径，但当节点数目过多时，该算法会消耗大量的时间与内存导致效率过低。a*是由peter等人在文献“p.e.hart,n.j.nilsson,and b.raphael,aformal basis for the heuristic determination of mi

3、经典算法基本可以解决一些路径规划问题，但仍有不足之处，比如在复杂的环境下，经典算法计算复杂度急剧上升，甚至无法求解，这也被称为维数诅咒问题。虽然启发式算法可以在一定程度上解决经典算法的不足，但是无论是经典算法还是启发式算法，以上这些算法更适合解决静态路径规划问题。静态路径规划问题的全局环境诸如地形、障碍物和干扰的信息是已知的，并且可以在检测之前规划路径。然而，对于动态路径规划问题，全局环境信息是未知的，需要实时规划路径。相对而言，动态环境下的实时路径规划具有更大的现实意义和难度。

技术实现思路

1、为了解决现有技术中存在的上述问题，本专利技术提供了一种基于最大熵安全强化学习的无人机路径规划方法及装置。本专利技术要解决的技术问题通过以下技术方案实现：

2、第一方面，本专利技术提供了一种基于最大熵安全强化学习的无人机路径规划方法包括：

3、s100，己方无人机获取动态环境信息，所述动态环境信息包括己方无人机自身的状态信息、动态障碍物信息和静态障碍物信息；

4、s200，己方无人机依据所述动态环境信息、自身动作、采取动作所获得的奖励、约束信息构建无人机路径规划的决策模型，并采用基于最大熵深度强化学习的sac算法通过对所述决策模型求解得到无人机路径规划的近似最优策略；

5、s300，己方无人机基于所述近似最优策略，将所述动态环境信息输入至所述决策模型中得到当前执行动作，并按照所述当前执行动作执行直至达到目的地得到无人机的规划路径。

6、第二方面，本专利技术提供了一种基于最大熵安全强化学习的无人机路径规划装置包括：

7、获取模块，被配置为己方无人机获取动态环境信息，所述动态环境信息包括己方无人机自身的状态信息、动态障碍物信息和静态障碍物信息；

8、训练模块，被配置为己方无人机依据所述动态环境信息、自身动作、采取动作所获得的奖励、约束信息构建无人机路径规划的决策模型，并采用基于最大熵深度强化学习的sac算法通过对所述决策模型求解得到无人机路径规划的近似最优策略；

9、规划模块，被配置为己方无人机基于所述近似最优策略，将所述动态环境信息输入至所述决策模型中得到当前执行动作，并按照所述当前执行动作执行直至达到目的地得到无人机的规划路径。

10、有益效果：

11、本专利技术针对空域场景下受约束的无人机路径规划问题，提出了一种基于最大熵安全强化学习的无人机路径规划方法及装置，采用最大熵深度强化学习中的sac算法对构建的决策模型作迭代训练，在训练过程中构建了一个空域场景下无人机路径规划的强化学习环境，环境设有静态障碍物、动态障碍物与目标地点。其次，考虑到无人机的动力学方程约束以及其安全避障需求，从安全强化学习的角度将该路径规划问题建模为约束markov决策过程。最后，设计了相应的奖励函数，采用sac算法迭代寻求该问题的近似最优策略，并用monte carlo测试对算法进行了分析。结果表明，本专利技术sac算法训练后的无人机能够在动态不确定的环境中自主进行路径规划，并且比其他策略更具优越性，规划出的动态环境下的路径更准确。...

【技术保护点】

1.一种基于最大熵安全强化学习的无人机路径规划方法，其特征在于，包括：

2.根据权利要求1所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，S200包括：

3.根据权利要求2所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，

4.根据权利要求3所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，在所述五元组<(S,A,R,P,C)>中，S是状态集合，A是动作集合，R是奖励集合，P是状态转移概率，P(s′|s,a)表示无人机在状态s∈S执行一个动作a∈A后转移到下一时刻状态s'的概率，P对无人机是不可知的，C是约束集合；

5.根据权利要求4所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，S200中的决策模型包括三个网络，分别为参数为θ，输入为状态s，得到策略概率分布π(.|st)的actor网络；参数为w，输入为状态动作对(s,a)，输出Q值的critic网络；参数为α的熵网络。

6.根据权利要求5所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，所述

7.根据权利要求6所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，S250包括：

8.根据权利要求7所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，S300包括：

9.一种基于最大熵安全强化学习的无人机路径规划装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于最大熵安全强化学习的无人机路径规划方法，其特征在于，包括：

2.根据权利要求1所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，s200包括：

3.根据权利要求2所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，

4.根据权利要求3所述的基于最大熵安全强化学习的无人机路径规划方法，其特征在于，在所述五元组<(s,a,r,p,c)>中，s是状态集合，a是动作集合，r是奖励集合，p是状态转移概率，p(s′|s,a)表示无人机在状态s∈s执行一个动作a∈a后转移到下一时刻状态s'的概率，p对无人机是不可知的，c是约束集合；

5.根据权利要求4所述的基于最大熵安全强化学习的无人...

【专利技术属性】
技术研发人员：杨飞生，方城亮，弓镇宇，
申请(专利权)人：西北工业大学深圳研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人