一种多智能体路径规划方法及终端技术

技术编号:37712353 阅读:15 留言:0更新日期:2023-06-02 00:05
本发明专利技术公开一种多智能体路径规划方法及终端,建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划,能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。保仓储管理的高效运行。保仓储管理的高效运行。

【技术实现步骤摘要】
一种多智能体路径规划方法及终端


[0001]本专利技术涉及路径规划
,尤其涉及一种多智能体路径规划方法及终端。

技术介绍

[0002]传统路径规划算法实时性差,规划得到的是一条长时间内没有新运货车加入的路径,并且仅在检测到可能发生碰撞时,进行重新规划避免碰撞发生。实际情况当中,仓储管理常常有较大订单变动,运货车数量也会有不同的变更,如果运货车无法针对实时订单及环境信息做出变更,往往就会导致效率降低,甚至死锁等问题。

技术实现思路

[0003]本专利技术所要解决的技术问题是:提供一种多智能体路径规划方法及终端,能够提高路径规划的实时性,并确保仓储管理的高效运行。
[0004]为了解决上述技术问题,本专利技术采用的一种技术方案为:一种多智能体路径规划方法,包括步骤:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
[0005]为了解决上述技术问题,本专利技术采用的另一种技术方案为:一种多智能体路径规划终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
[0006]本专利技术的有益效果在于:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络,根据图神经网络和深度强化学习神经网络得到深度强化学习网络,对深度强化学习网络进行训练,得到权值更新后的深度强化学习网络,使用其对智能体进行订单任务分配以及路径规划,基于图神经网络的深度强化学习网络能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,深度强化学习网络中的数据也能够进行实时更新,并不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。
附图说明
[0007]图1为本专利技术实施例的一种多智能体路径规划方法的步骤流程图;图2为本专利技术实施例的一种多智能体路径规划终端的结构示意图;图3为本专利技术实施例的一种多智能体路径规划方法的深度强化学习网络结构示意图。
具体实施方式
[0008]为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。
[0009]请参照图1,本专利技术实施例提供了一种多智能体路径规划方法,包括步骤:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
[0010]从上述描述可知,本专利技术的有益效果在于:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络,根据图神经网络和深度强化学习神经网络得到深度强化学习网络,对深度强化学习网络进行训练,得到权值更新后的深度强化学习网络,使用其对智能体进行订单任务分配以及路径规划,基于图神经网络的深度强化学习网络能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,深度强化学习网络中的数据也能够进行实时更新,并不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。
[0011]进一步地,所述建立智能体与订单的图神经网络包括:获取订单信息和智能体信息;根据所述订单信息和智能体信息生成订单顶点和智能体顶点,并对应生成订单与智能体之间的边以及智能体之间的边;根据所述订单顶点、所述智能体顶点、所述订单与智能体之间的边以及所述智能体之间的边构建智能体与订单的图神经网络。
[0012]由上述描述可知,根据订单顶点、智能体顶点、订单与智能体之间的边以及智能体之间的边构建智能体与订单的图神经网络,该图神经网络能够根据边的权重来确定智能体所承接的订单以及智能体之间通行的优先级,且根据订单信息和智能体信息生成顶点和边,能够实时根据订单和智能体的最新情况完成订单任务分配,从而提高了仓储管理的运行效率。
[0013]进一步地,所述对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络包括:确定所述深度强化学习网络的迭代轮数、最大步数、衰减因子以及探索率;基于所述迭代轮数、最大步数、衰减因子以及探索率对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络。
[0014]由上述描述可知,通过对深度强化学习网络进行共同训练,避免了单个智能体训练过程中收敛性差且整体上难以达到全局优化的问题,训练后的网络的权值得到了更新,此时即可根据边的权重确定订单任务分配以及路径规划,从而提高路径规划的可靠性。
[0015]进一步地,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划包括:根据所述权值更新后的深度强化学习网络中的所述订单与智能体之间的边的权重作为第一Q值生成智能体与订单的第一Q值表,所述第一Q值为所述智能体选取不同动作的奖励;根据所述第一Q值确定所述智能体的订单任务分配,并使用时序差分方式增量式更新所述第一Q值;将时序差分误差作为目标函数更新所述图神经网络;基于所述权值更新后的深度强化学习网络中的所述智能体之间的边的权重作为第二Q值生成智能体与智能体之间的第二Q值表;根据所述第二Q值确定经过同一路段时智能体的优先级;获取当前环境信息,并将所述当前环境信息和所述订单任务分配输入至所述深度强化学习神经网络,输出路径规划结果。
[0016]由上述描述可知,根据第一Q值可将不同订单分配给不同的智能体,根据第二Q值可决定通过同一路段时运货车的优先级,最后,将当前环境信息和订单任务分配输入至深度强化学习网络,输出路径规划,即可完成订单任务分配以及路径规划,提高了路径规划的实时性,并确保仓储管理的高效运行。
[0017]进一步地,所述建立智能体与订单的图神经网络之前包括:将仓库地图进行栅格化处理,得到处理后的仓库地图;获取障碍物信息,并根据所述障碍物信息对所述处理后的仓库地图进行标记,得到标记后的仓库地图;将所述标记后的仓库地图输入至智能体中。
[0018]由上述描述可知,将标记后的仓库地图输入至智能体中,后续即可根据智能体中的标记后的仓库地图来规划路径,避开障碍物,实现可靠地路径规划。
[0019]进一步地,所述使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体路径规划方法,其特征在于,包括步骤:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。2.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所述建立智能体与订单的图神经网络包括:获取订单信息和智能体信息;根据所述订单信息和智能体信息生成订单顶点和智能体顶点,并对应生成订单与智能体之间的边以及智能体之间的边;根据所述订单顶点、所述智能体顶点、所述订单与智能体之间的边以及所述智能体之间的边构建智能体与订单的图神经网络。3.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所述对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络包括:确定所述深度强化学习网络的迭代轮数、最大步数、衰减因子以及探索率;基于所述迭代轮数、最大步数、衰减因子以及探索率对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络。4.根据权利要求2所述的一种多智能体路径规划方法,其特征在于,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划包括:根据所述权值更新后的深度强化学习网络中的所述订单与智能体之间的边的权重作为第一Q值生成智能体与订单的第一Q值表,所述第一Q值为所述智能体选取不同动作的奖励;根据所述第一Q值确定所述智能体的订单任务分配,并使用时序差分方式增量式更新所述第一Q值;将时序差分误差作为目标函数更新所述图神经网络;基于所述权值更新后的深度强化学习网络中的所述智能体之间的边的权重作为第二Q值生成智能体与智能体之间的第二Q值表;根据所述第二Q值确定经过同一路段时智能体的优先级;获取当前环境信息,并将所述当前环境信息和所述订单任务分配输入至所述深度强化学习神经网络,输出路径规划结果。5.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所...

【专利技术属性】
技术研发人员:宋轩宋歌张浩然谢洪彬舒家阳赵奕丞
申请(专利权)人:南方科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1