基于多资格迹分布式强化学习的AGV动态路径规划方法技术

技术编号：40016269 阅读：16 留言：0更新日期：2024-01-16 16:03

本发明专利技术公开了基于多资格迹分布式强化学习的AGV动态路径规划方法，属于路径规划领域，该方法首先搭建仿真工厂，在其中每个路径节点处设置智能体。其次，设计系统在强化学习中的要素。然后，设定节点智能体与自动引导车AGV的参数。最后，训练节点智能体，完成路径规划。本发明专利技术其可以很好的适应实时交通环境，极大的避免了拥塞的情况，运输效率可以得到保证，适合在大型工厂动态物料配送系统中使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于路径规划领域，涉及一种多资格迹分布式强化学习的多agv动态路径规划方法。

技术介绍

1、近些年，随着智能制造、电商以及智慧仓储行业快速发展，越来越多的行业开始使用自动引导车(agv)代替人工从事生产、运输等环节的工作，具有广阔的应用前景。一般来说在动态路由中，路径选择不仅要考虑道路交通的静态布局，更取决于当前的交通状况。而传统dijkstra算法、a*算法计算复杂且效率低下，既无法对不断变化的交通情况做出快速反应，也无法保证系统在运行过程中的安全性问题，因而不能运用于大规模复杂场景中的多agv调度系统问题。

2、针对上述问题，文章(hwang i,jang y j,"q(λ)learning-based dynamicrouteguidance algorithm for overhead hoist transport systems in semiconductorfabs,"international journal of production research,58(4),1199-1221,2020.)将为agv做出路径决策的路口监测节点作为智能体，并提出一种基于强化学习的动态调度算法。在这种方法中，系统的状态空间和动作空间可以被节点智能体所分割，每个节点智能体控制一部分的状态和动作，这样会大大减小每个检测单元所涉及的状态和动作空间。并在算法中引入资格迹方法，对每个节点智能体单元的q值进行及时修正，在一定程度上动态适应了学习过程的非平稳性。但该算法是一种集中式算法，仅靠一个中央计算单元计算所有

3、但该方法在算法迭代更新时仍然存在问题，现有算法运输网络中所有agv共用一个资格迹矩阵，这种方法在资格迹矩阵更新时，会将不同agv轨迹信息进行叠加，导致q值利用错误的资格迹信息更新，从而影响节点智能体决策。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种多资格迹分布式强化学习的多agv动态路径规划方法，该方法将所有处于运输状态的agv设置一个资格迹矩阵记录其轨迹权重信息，在agv抵达下一节点智能体时，更新自己的资格迹矩阵，当前路口调度单元计算出此刻的td-error(时序差分误差)，并通过分组局部通信的方法，将td-error(时序差分误差)传递给该agv轨迹中的路口调度单元，最后把轨迹中对应的资格迹信息通知给各路口调度单元，与td-error(时序差分误差)一齐更新该agv过往访问过的状态的q值，解决了所有agv共用一个资格迹矩阵出现不同agv轨迹信息叠加混用，导致q值错误更新，从而影响节点智能体正确决策的问题。为此，本专利技术采用如下技术方案：

2、一种基于多资格迹分布式强化学习的多agv动态路径规划方法，包括如下步骤：

3、s1、搭建仿真工厂，在其中每个路径节点处设置智能体，所述仿真智能工厂通过anylogic仿真软件所搭建；

4、s2、设计系统在强化学习中的要素，其要素如下：

5、状态state用s＝(d,i)表示，此时agv通过网络上的节点智能体i，并前往目标节点智能体d；

6、动作action用a(d,i)＝{j,j′,j″}表示，表示当前节点智能体i能够抵达的相邻节点智能体集合{j,j′,j″}；

7、奖励reward用r[(d,i),j]表示，t(i,j)表示实际行驶时间，ρ为奖励设计参数，势函数表示agv从节点智能体i行驶到节点智能体d不出现拥堵现象的agv最短行驶时间，当后续节点智能体j比节点智能体i离目的地更远，奖励值更大；反之当后续节点智能体j比节点智能体i离目的地更近，则奖励值更小，鼓励agv选择节点智能体j作为下一节点智能体；

8、策略policy使用boltzmann softmax policy(玻尔兹曼探索策略)，表示为：

9、

10、

11、qi[(d,i),j]表示处于节点智能体i上终点为d的agv选择节点智能体j作为下一个节点智能体时，到达目的地d的估计行驶时间，玻尔兹曼探索策略π(j∣(d,i))表示节点智能体i上终点为d的agv，选择下一节点智能体为j的概率，τ为温度参数，其可调整策略π的概率分布，大τ值意味着所有π(j∣(d,i))值都具有相似的概率，较小的τ值则较小的q[(d,i),j]值会有更高概率。

12、s3、设定节点智能体与agv的参数，方法如下：

13、所有节点智能体用集合i表示，agv用集合m表示。节点智能体i中保存着qi、δi，其中qi表示节点智能体i中保存的q表，q表横轴表示为节点智能体的状态、纵轴表示节点智能体的动作，δi＝(δ1,δ2,...,δm)表示节点智能体i中保存的所有agv的td-error(时序差分误差)，表示agv在从节点智能体i到节点智能体j在未拥塞的情况下的最短行驶时间。qi和δi的初始化为：

14、

15、

16、直至

17、

18、qi(0)[(d,i),j]表示第0次迭代时，处于节点智能体i上终点为d的agv选择节点智能体j作为下一个节点智能体时，到达目的地d的估计行驶时间；ε表示误差阈值。

19、对于某辆agv用m表示，m∈m。编号为m的agv中存储着一个全局的资格迹矩阵em和记录其历史轨迹的无向图元素gm(nm,εm,t)，em的横轴表示整个状态空间中的所有状态，纵轴表示整个动作空间中的所有动作也就是所有的节点智能体；gm(nm,εm,t)中nm集合储存着编号为m的agv经过的历史轨迹节点智能体，εm(h,i)表示上一时刻agv处于节点智能体h上，这一时刻处于节点智能体i上，t表示t时刻。无向图由所有子图所并成表示为g(n,ε,t)＝{g1(n1,ε1,t)∪...∪gm(nm,εm,t)∪...}。将所有agv资格迹矩阵和无向图初始化，即agv资格迹矩阵零初始化，无向图清空：

20、

21、gm(nm,εm,t)中

22、s4、训练节点智能体，完成路径规划，其包括如下子步骤：

23、s4-1、当agv(m,m∈m)抵达节点智能体h时，如果h是起点执行步骤s4-2，如果h是终点执行步骤s4-3，如果h即不是起点也不是终点执行步骤s4-4；

24、s4-2、设置误差δh(m)＝-1000，节点智能体h通过boltzmann softmax policy为agv(m,m∈m)选出下一动作k′，并控制行驶至节点智能体k′，将轨迹点h添加至集合n中，n∪{h}，重复步骤s4-1；<本文档来自技高网...

【技术保护点】

1.基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，S1中所述仿真智能工厂通过Anylogic仿真软件所搭建。

3.根据权利要求1所述的基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，在S2中所述要素如下：

4.根据权利要求3所述的基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，S3具体过程如下：

5.根据权利要求4所述的基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，所述节点智能体i中保存的Qi和δi的初始化为：

6.根据权利要求5所述的基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，S4具体过程如下：

7.根据权利要求6所述的基于多资格迹分布式强化学习的AGV动态路径规划方法，其特征在于，所述S4-4具体过程如下：

【技术特征摘要】

1.基于多资格迹分布式强化学习的agv动态路径规划方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多资格迹分布式强化学习的agv动态路径规划方法，其特征在于，s1中所述仿真智能工厂通过anylogic仿真软件所搭建。

3.根据权利要求1所述的基于多资格迹分布式强化学习的agv动态路径规划方法，其特征在于，在s2中所述要素如下：

4.根据权利要求3所述的基于多资格迹分布式强化学习的agv动态...

【专利技术属性】
技术研发人员：田玉平，李俊，刘崧，于绍琪，张力鸣，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人