一种多智能体路径规划方法及终端技术

技术编号：37712353 阅读：15 留言：0更新日期：2023-06-02 00:05

本发明专利技术公开一种多智能体路径规划方法及终端，建立智能体与订单的图神经网络，并建立智能体自身的深度强化学习神经网络；根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络；对所述深度强化学习网络进行训练，得到权值更新后的深度强化学习网络；使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划，能够使各个智能体之间的数据相互通信，并自动进行任务分配和路径规划，单个智能体出现宕机后，不影响整个仓储管理系统的运行，即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划，从而提高了路径规划的实时性，并确保仓储管理的高效运行。保仓储管理的高效运行。保仓储管理的高效运行。

全部详细技术资料下载

【技术实现步骤摘要】
一种多智能体路径规划方法及终端

[0001]本专利技术涉及路径规划
，尤其涉及一种多智能体路径规划方法及终端。

技术介绍

[0002]传统路径规划算法实时性差，规划得到的是一条长时间内没有新运货车加入的路径，并且仅在检测到可能发生碰撞时，进行重新规划避免碰撞发生。实际情况当中，仓储管理常常有较大订单变动，运货车数量也会有不同的变更，如果运货车无法针对实时订单及环境信息做出变更，往往就会导致效率降低，甚至死锁等问题。

技术实现思路

[0003]本专利技术所要解决的技术问题是：提供一种多智能体路径规划方法及终端，能够提高路径规划的实时性，并确保仓储管理的高效运行。
[0004]为了解决上述技术问题，本专利技术采用的一种技术方案为：一种多智能体路径规划方法，包括步骤：建立智能体与订单的图神经网络，并建立智能体自身的深度强化学习神经网络；根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络；对所述深度强化学习网络进行训练，得到权值更新后的深度强化学习网络；使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
[0005]为了解决上述技术问题，本专利技术采用的另一种技术方案为：一种多智能体路径规划终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：建立智能体与订单的图神经网络，并建立智能体自身的深度强化学习神经网络；根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络；对所...

【技术保护点】

【技术特征摘要】
1.一种多智能体路径规划方法，其特征在于，包括步骤：建立智能体与订单的图神经网络，并建立智能体自身的深度强化学习神经网络；根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络；对所述深度强化学习网络进行训练，得到权值更新后的深度强化学习网络；使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。2.根据权利要求1所述的一种多智能体路径规划方法，其特征在于，所述建立智能体与订单的图神经网络包括：获取订单信息和智能体信息；根据所述订单信息和智能体信息生成订单顶点和智能体顶点，并对应生成订单与智能体之间的边以及智能体之间的边；根据所述订单顶点、所述智能体顶点、所述订单与智能体之间的边以及所述智能体之间的边构建智能体与订单的图神经网络。3.根据权利要求1所述的一种多智能体路径规划方法，其特征在于，所述对所述深度强化学习网络进行训练，得到权值更新后的深度强化学习网络包括：确定所述深度强化学习网络的迭代轮数、最大步数、衰减因子以及探索率；基于所述迭代轮数、最大步数、衰减因子以及探索率对所述深度强化学习网络进行训练，得到权值更新后的深度强化学习网络。4.根据权利要求2所述的一种多智能体路径规划方法，其特征在于，所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划包括：根据所述权值更新后的深度强化学习网络中的所述订单与智能体之间的边的权重作为第一Q值生成智能体与订单的第一Q值表，所述第一Q值为所述智能体选取不同动作的奖励；根据所述第一Q值确定所述智能体的订单任务分配，并使用时序差分方式增量式更新所述第一Q值；将时序差分误差作为目标函数更新所述图神经网络；基于所述权值更新后的深度强化学习网络中的所述智能体之间的边的权重作为第二Q值生成智能体与智能体之间的第二Q值表；根据所述第二Q值确定经过同一路段时智能体的优先级；获取当前环境信息，并将所述当前环境信息和所述订单任务分配输入至所述深度强化学习神经网络，输出路径规划结果。5.根据权利要求1所述的一种多智能体路径规划方法，其特征在于，所...

【专利技术属性】
技术研发人员：宋轩，宋歌，张浩然，谢洪彬，舒家阳，赵奕丞，
申请(专利权)人：南方科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人