一种基于安全强化学习的分布式多机器人路径规划方法技术

技术编号：44247059 阅读：14 留言：0更新日期：2025-02-11 13:44

本发明专利技术属于多机器人路径规划技术领域，具体涉及一种基于安全强化学习的分布式多机器人路径规划方法，为每个机器人提供分布式的运动策略，并有效降低机器人间发生冲突和碰撞的风险，提高运行效率。该方法设置状态空间为小尺度三通道局部观测地图，包括局部距离代价地图、邻居相对位置地图和邻居目标相对位置地图，将机器人与环境的信息以局部图的形式表示，有效提升了规模和场景的泛化性，基于广度优先搜索算法，构建了距离代价地图，从而将全局信息引入局部观测中，为易陷入局部最优的问题提供了有效的解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多机器人路径规划，具体涉及一种基于安全强化学习的分布式多机器人路径规划方法。

技术介绍

1、多机器人路径规划是机器人领域的核心研究课题之一，旨在为多个机器人在共享环境中规划出高效且安全的无碰撞路径，从而确保它们能够在较短时间内顺利抵达各自的目标位置。传统的图搜索算法，如a*和dijkstra算法，因其在确定性环境下的高效性，广泛应用于单机器人路径规划。然而，当这些算法直接应用于多机器人系统时，往往面临诸多挑战。例如，随着机器人数量的增加，路径规划问题的维度显著上升，导致计算复杂度急剧增加，进而容易陷入局部最优解。此外，传统算法在动态环境中的适应性较差，难以实时应对环境变化和机器人之间的动态交互。

2、为了克服这些困难，研究者们提出了多种启发式路径搜索方法。例如，基于冲突搜索的方法通过预先检测并解决潜在的路径冲突，显著提升了多机器人路径规划的效果。然而，集中式的离线规划方法鲁棒性较差，且在处理大规模复杂环境时，面临可扩展性和实时性的挑战。

3、在实际应用中，如酒店服务机器人，需要在动态且复杂的环境中高效运行。传统的路径规划算法往往依赖于预定义的地图和静态环境假设，难以适应酒店内部频繁变化的环境和机器人的流动。在提高路径规划效率的同时确保机器人之间及其与环境的安全互动，成为当前多机器人路径规划方法研究的热点和难点。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于安全强化学习的分布式多机器人路径规划方法，能够在多机器人的动态环境中，为每个机器人

2、为了达到上述目的，本专利技术的技术方案为：

3、一种基于安全强化学习的分布式多机器人路径规划方法，包括以下步骤：

4、机器人距离代价地图获取：创建包含多个机器人的二维环境，对于每一机器人获取对应的距离代价地图；

5、神经网络构建：构建一个全局神经网络和个局部神经网络，局部神经网络与全局神经网络相同，输入为局部观测地图信息，输出包括离散动作概率分布、状态价值和阻塞预测；所述全局神经网络用于策略的训练，局部神经网络用于机器人与环境分布式交互；

6、神经网络训练：针对于每一机器人，利用其距离代价地图获取局部观测地图信息，输入至对应的局部神经网络中，将局部神经网络的输入与输出组成训练样本，用于对全局神经网络进行训练；

7、路径规划：利用训练好的全局神经网络，获得分布式多机器人路径规划。

8、进一步地，本专利技术机器人距离代价地图获取的过程为：

9、首先，创建包含多个机器人的二维环境，障碍物的分布情况由二值占有度地图表示；

10、其次，对于每个机器人，采用广度优先搜索算法，根据占有度地图和目标位置，获得对应的距离代价地图。

11、进一步地，本专利技术所述局部观测地图信息的组成为：

12、

13、其中，表示第个通道的观测矩阵，为局部距离代价地图，为邻居相对位置地图，为邻居目标相对位置地图。

14、进一步地，本专利技术在每一个时间步下，将局部观测地图信息作为状态，计算在状态下执行动作，基于设定的奖励函数获得的奖励和得到下一时刻的状态，并记录终止标记和网络输出离散动作概率分布状态价值以及实际是否发生阻塞的标签，记录七元组存储到经验回放池 b中。

15、进一步地，本专利技术所述设定的奖励函数为：

16、

17、

18、

19、其中，表示每一步移动的稠密惩罚，为局部代价地图中心位置的对应值；表示发生特殊情况时的稀疏惩罚，包括发生碰撞或出界和阻塞其它机器人；

20、表示关于状态s和动作a的函数。

21、进一步地，本专利技术将经验回放池 b采用出数据作为样本数据，进行全局神经网络训练，所述全局神经网络的损失函数为：

22、

23、

24、

25、

26、

27、其中，为当前网络的参数，为策略剪切损失，为价值损失，是策略的熵，为阻塞预测损失，、、、是权重超参数，为对采样的所有时间步𝑡的均值函数，为新策略和旧策略在状态下选择动作的概率之比，为度量当前动作比平均策略优势程度的优势估计，为限制变量上下界的裁剪函数，为限制策略更新幅度的超参数，为状态的未来累积回报，为实际是否发生阻塞的标签，为网络预测的阻塞概率，为状态下的离散动作概率分布。

28、进一步地，本专利技术所述累积回报的计算方式为：

29、

30、其中，为折扣因子，是序列的终止时间步。

31、进一步地，本专利技术所述优势估计的计算方式为：

32、

33、

34、其中，为折扣因子，是序列的终止时间步，是时间差分残差，是用于在多步的估计时逐渐衰减权重的控制系数。

35、进一步地，本专利技术所路径规划的具体过程为：

36、在每一步行动前机器人将加载全局神经网络作为路径规划模型并调用，获得当前状态下的离散动作概率分布，选择具有最高概率的动作作为偏好离散动作；

37、基于最优互惠避碰机制，在多机器人间计算彼此的避碰速度集合，并用线性规划求解出带安全约束的连续动作规划结果。

38、进一步地，本专利技术所述连续动作规划结果的获取过程为：

39、s111：计算机器人a在时间内会与机器人b碰撞的相对速度集合；

40、

41、其中，、分别为机器人a、b的位置，、分别为机器人a、b的安全半径，是以为中心、为半径的圆；表示考虑未来是否碰撞的时间范围；

42、s112：基于所述相对速度集合，为每个机器人定义一个允许的速度集合，这个集合保证在考虑到其他机器人采用相同的算法时，能够避免碰撞；

43、

44、其中，为机器人a、b当前的速度，是边界上最近点的外法向量，是从到速度障碍边界的最近点的向量；

45、s113：基于所述允许的速度集合，为每个机器人选择安全速度；

46、

47、其中，是所有的交集，为机器人a的偏好动作。

48、有益效果：

49、第一，本专利技术提供一种基于安全强化学习的分布式多机器人路径规划方法，创新性地设计了强化学习决策模型的状态空间，该状态空间为小尺度三通道局部观测地图，包括局部距离代价地图、邻居相对位置地图和邻居目标相对位置地图，将机器人与环境的信息以局部图的形式表示，有效提升了规模和场景的泛化性。其中，基于广度优先搜索算法，构建了距离代价地图，从而将全局信息引入局部观测中，为易陷入局部最优的问题提供了有效的解决方案。

50、第二，本专利技术提供一种基于安全强化学习的分布式多机器人路径规划方法，将基于规则的最本文档来自技高网...

【技术保护点】

1.一种基于安全强化学习的分布式多机器人路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，机器人距离代价地图获取的过程为：

3.根据权利要求1所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，所述局部观测地图信息的组成为：

4.根据权利要求1所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，在每一个时间步下，将局部观测地图信息作为状态，计算在状态下执行动作，基于设定的奖励函数获得的奖励和得到下一时刻的状态，并记录终止标记和网络输出离散动作概率分布状态价值以及实际是否发生阻塞的标签，记录七元组存储到经验回放池B中。

5.根据权利要求4所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，所述设定的奖励函数为：

6.根据权利要求4所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，将经验回放池B采用出数据作为样本数据，进行全局神经网络训练，所述全局神经网络的损失函数为：

7.根据权利要求6所述基于安全

8.根据权利要求6所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，所述优势估计的计算方式为：

9.根据权利要求1所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，所路径规划的具体过程为：

10.根据权利要求9所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，所述连续动作规划结果的获取过程为：

...

【技术特征摘要】

1.一种基于安全强化学习的分布式多机器人路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，机器人距离代价地图获取的过程为：

3.根据权利要求1所述基于安全强化学习的分布式多机器人路径规划方法，其特征在于，所述局部观测地图信息的组成为：

5.根据权利要求4所述基于安全强化学习的分布式多机器人路...

【专利技术属性】
技术研发人员：陈晨，申奥，吴秉鸿，缪昌昊，李楠，王元，邓方，陈杰，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人