基于PPO算法多无人机协同避障控制方法、装置和设备制造方法及图纸

技术编号：44254552 阅读：1 留言：0更新日期：2025-02-11 13:52

本申请涉及一种基于PPO算法多无人机协同避障控制方法、装置和设备，所述方法包括：构建智能体，在每架无人机上部署一个智能体，智能体包括策略网络和价值网络；采用链式PPO训练框架对编队中的无人机进行多轮训练，得到每架无人机的路径规划和避障任务的最优策略；编队中的每架无人机执行各自的路径规划和避障任务的最优策略，实现多无人机协同避障控制。在训练过程中除了当前训练中的无人机，其他无人机保持固定策略，有效保持训练环境的稳定性；链式训练框架，利用无人机各自局部观测状态预估动作量，在有启发式信息和奖励函数的指导下，能够在避障的前提下保持一定的编队稳定性到达目标点，提高了快速到达目的地的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多飞行器协同控制，特别是涉及一种基于ppo算法多无人机协同避障控制方法、装置和设备。

技术介绍

1、在当今世界，无人机技术的发展日新月异，其应用领域也日益广泛。特别是在复杂环境中，如森林、城市峡谷等，多无人机的自主导航和路径规划能力显得尤为重要。在这样的环境中，无人机需要具备高度的自主性和灵活性，以便在执行任务时能够避开障碍物，同时保持高效的飞行路径。

2、在这样的背景下，随着人工智能技术的快速发展，基于深度强化学习(drl) 的控制方法引发了广泛的关注。基于深度强化学习算法的多无人机穿梭密集障碍物环境的运动规划成为了一个研究热点。

3、现有研究成果在多无人机集群编队避障过程中主要着眼于二维平面运动规划，同时强化学习训练连续运动的多无人机集群效果不理想，并且连续三维多无人机集群环境训练不稳定，这样使得多无人机编队执任务的有效性不高。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于ppo算法多无人机协同避障控制方法、装置和设备。该方法解决了目前在多无人机避障任务下模型难以建立，传统强化学习难以收敛的问题。

2、一种基于ppo算法的多无人机协同避障控制方法，该方法包括：

3、构建智能体，在每架无人机上部署一个智能体，智能体包括策略网络和价值网络。

4、采用链式ppo训练框架对编队中的无人机进行多轮训练，得到每架无人机的路径规划和避障任务的最优策略；链式ppo训练框架采用分布式训练方式，当前训练的无人机

5、编队中的每架无人机执行各自的路径规划和避障任务的最优策略，实现多无人机协同避障控制。

6、其中，增加启发式信息作为指引，包括：采用启发式速度叠加到动作量上，提升训练速度以及效果；其中，启发式速度为：

7、；

8、其中，为启发式速度，为一较小正系数，为当前训练无人机此时位置，为当前训练无人机目标点位置，为无人机群此时位置向量组合起来的矩阵，为无人机群目标点位置向量组合起来的矩阵。

9、在其中一个实施例中，第一轮训练时采用人工势场法模拟编队中非当前训练的无人机避障穿梭运动控制策略。

10、在其中一个实施例中，采用链式ppo训练框架对编队中的无人机进行多轮训练，得到每架无人机的路径规划和避障任务的最优策略；链式ppo训练框架采用分布式训练方式，当前训练的无人机采用ppo算法，增加启发式信息作为指引，向策略网络和值函数网络输入当前无人机局部观测状态，策略网络输出动作值到训练环境中对状态进行更新，价值网络输出q值对当前状态进行评估；编队中非当前训练的无人机基于各自的局部观测状态采用固定性策略分别输出各自动作量到训练环境中对状态进行更新；训练环境为多无人机运动的三维连续空间，包括：

11、将编队中的第一架无人机作为当前训练的无人机。

12、将当前训练的无人机的局部观测状态作为当前训练的无人机的策略网络的输入，并增加启发式信息作为指引，该策略网络输出动作值，将该动作作用到无人机后与训练环境进行交互，通过交互来收集经验和长期累积多类不同奖励，计算每个批次的策略梯度，再进行梯度裁剪并更新策略网络参数。

13、将当前训练的无人机的局部观测状态输入到当前训练的无人机的价值网络中，输出q值对当前状态进行评估；计算每个样本在不同状态下采取不同动作的最小值函数估计值，更新目标点的值函数，再以损失函数来更新价值网络参数。

14、编队中非当前训练的无人机基于各自的局部观测状态和固定策略输出各自动作量到训练环境中进行无人机状态更新。

15、当前训练的无人机训练后，该无人机加载训练后的模型，然后选择编队中与当前训练的无人机最近邻的无人机作为当前训练的无人机，继续进行训练，直到遍历完编队中所有无人机为止，进入下一轮训练中，直到满足预设终止条件为止，得到每架无人机的路径规划和避障任务的最优策略。

16、在其中一个实施例中，多类不同奖励分别为到达目标点奖励、碰撞惩罚、路径代价以及编队稳定性奖励。

17、到达目标点奖励为：

18、；

19、其中，为到达目标点奖励，为当前训练无人机的轨迹点信息，为当前训练无人机的目标点向量。

20、碰撞惩罚为：

21、；

22、；

23、；

24、其中，为单步沿途采样点数量；为总碰撞惩罚，为同组其他无人机；和分别表示第 i个采样时刻当前无人机与静态障碍物和动态障碍物的碰撞惩罚。

25、路径代价为：

26、；

27、其中，为当前步的路径代价，m为一正系数，分别为当前无人机x,y,z轴的速度。

28、编队稳定性奖励为：

29、；

30、；

31、其中，为保持编队的奖励，为稀疏奖励，为当前无人机位置，为编队预期此时该无人机位置，为当前无人机速度，为编队领航者速度， n为范围在的一个实数。

32、一种基于ppo算法的多无人机协同避障控制装置，该装置包括：

33、智能体构建模块，用于构建智能体，在每架无人机上部署一个智能体，智能体包括策略网络和价值网络。

34、路径规划和避障任务的最优策略确定模块，用于采用链式ppo训练框架对编队中的无人机进行多轮训练，得到每架无人机的路径规划和避障任务的最优策略；链式ppo训练框架采用分布式训练方式，当前训练的无人机采用ppo算法，增加启发式信息作为指引，向策略网络和值函数网络输入当前无人机局部观测状态，策略网络输出动作值到训练环境中对状态进行更新，价值网络输出q值对当前状态进行评估；编队中非当前训练的无人机基于各自的局部观测状态采用固定性策略分别输出各自动作量到训练环境中对状态进行更新；训练环境为多无人机运动的三维连续空间。

35、多无人机协同避障控制模块，用于编队中的每架无人机执行各自的路径规划和避障任务的最优策略，实现多无人机协同避障控制。

36、其中，路径规划和避障任务的最优策略确定模块，还用于采用启发式速度叠加到动作量上，提升训练速度以及效果；其中，所述启发式速度为：

37、；

38、其中，为启发式速度，为一较小正系数，为当前训练无人机此时位置，为当前训练无人机目标点位置，为无人机群此时位置向量组合起来的矩阵，为无人机群目标点位置向量组合起来的矩阵。

39、一种计算机设备，包括存储器本文档来自技高网...

【技术保护点】

1.一种基于PPO算法的多无人机协同避障控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于PPO算法的多无人机协同避障控制方法，其特征在于，第一轮训练时采用人工势场法模拟编队中非当前训练的无人机避障穿梭运动控制策略。

3.根据权利要求1所述的基于PPO算法的多无人机协同避障控制方法，其特征在于，采用链式PPO训练框架对编队中的无人机进行多轮训练，得到每架无人机的路径规划和避障任务的最优策略；所述链式PPO训练框架采用分布式训练方式，当前训练的无人机采用PPO算法，增加启发式信息作为指引，向策略网络和值函数网络输入当前无人机局部观测状态，策略网络输出动作值到训练环境中对状态进行更新，价值网络输出Q值对当前状态进行评估；编队中非当前训练的无人机基于各自的局部观测状态采用固定性策略分别输出各自动作量到训练环境中对状态进行更新；所述训练环境为多无人机运动的三维连续空间，包括：

4.根据权利要求3所述的基于PPO算法的多无人机协同避障控制方法，其特征在于，多类不同奖励分别为到达目标点奖励、碰撞惩罚、路径代价以及编队稳定性奖励；