System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于路径规划领域,涉及一种多资格迹分布式强化学习的多agv动态路径规划方法。
技术介绍
1、近些年,随着智能制造、电商以及智慧仓储行业快速发展,越来越多的行业开始使用自动引导车(agv)代替人工从事生产、运输等环节的工作,具有广阔的应用前景。一般来说在动态路由中,路径选择不仅要考虑道路交通的静态布局,更取决于当前的交通状况。而传统dijkstra算法、a*算法计算复杂且效率低下,既无法对不断变化的交通情况做出快速反应,也无法保证系统在运行过程中的安全性问题,因而不能运用于大规模复杂场景中的多agv调度系统问题。
2、针对上述问题,文章(hwang i,jang y j,"q(λ)learning-based dynamicrouteguidance algorithm for overhead hoist transport systems in semiconductorfabs,"international journal of production research,58(4),1199-1221,2020.)将为agv做出路径决策的路口监测节点作为智能体,并提出一种基于强化学习的动态调度算法。在这种方法中,系统的状态空间和动作空间可以被节点智能体所分割,每个节点智能体控制一部分的状态和动作,这样会大大减小每个检测单元所涉及的状态和动作空间。并在算法中引入资格迹方法,对每个节点智能体单元的q值进行及时修正,在一定程度上动态适应了学习过程的非平稳性。但该算法是一种集中式算法,仅靠一个中央计算单元计算所有
3、但该方法在算法迭代更新时仍然存在问题,现有算法运输网络中所有agv共用一个资格迹矩阵,这种方法在资格迹矩阵更新时,会将不同agv轨迹信息进行叠加,导致q值利用错误的资格迹信息更新,从而影响节点智能体决策。
技术实现思路
1、为了解决上述问题,本专利技术提出了一种多资格迹分布式强化学习的多agv动态路径规划方法,该方法将所有处于运输状态的agv设置一个资格迹矩阵记录其轨迹权重信息,在agv抵达下一节点智能体时,更新自己的资格迹矩阵,当前路口调度单元计算出此刻的td-error(时序差分误差),并通过分组局部通信的方法,将td-error(时序差分误差)传递给该agv轨迹中的路口调度单元,最后把轨迹中对应的资格迹信息通知给各路口调度单元,与td-error(时序差分误差)一齐更新该agv过往访问过的状态的q值,解决了所有agv共用一个资格迹矩阵出现不同agv轨迹信息叠加混用,导致q值错误更新,从而影响节点智能体正确决策的问题。为此,本专利技术采用如下技术方案:
2、一种基于多资格迹分布式强化学习的多agv动态路径规划方法,包括如下步骤:
3、s1、搭建仿真工厂,在其中每个路径节点处设置智能体,所述仿真智能工厂通过anylogic仿真软件所搭建;
4、s2、设计系统在强化学习中的要素,其要素如下:
5、状态state用s=(d,i)表示,此时agv通过网络上的节点智能体i,并前往目标节点智能体d;
6、动作action用a(d,i)={j,j′,j″}表示,表示当前节点智能体i能够抵达的相邻节点智能体集合{j,j′,j″};
7、奖励reward用r[(d,i),j]表示,t(i,j)表示实际行驶时间,ρ为奖励设计参数,势函数表示agv从节点智能体i行驶到节点智能体d不出现拥堵现象的agv最短行驶时间,当后续节点智能体j比节点智能体i离目的地更远,奖励值更大;反之当后续节点智能体j比节点智能体i离目的地更近,则奖励值更小,鼓励agv选择节点智能体j作为下一节点智能体;
8、策略policy使用boltzmann softmax policy(玻尔兹曼探索策略),表示为:
9、
10、
11、qi[(d,i),j]表示处于节点智能体i上终点为d的agv选择节点智能体j作为下一个节点智能体时,到达目的地d的估计行驶时间,玻尔兹曼探索策略π(j∣(d,i))表示节点智能体i上终点为d的agv,选择下一节点智能体为j的概率,τ为温度参数,其可调整策略π的概率分布,大τ值意味着所有π(j∣(d,i))值都具有相似的概率,较小的τ值则较小的q[(d,i),j]值会有更高概率。
12、s3、设定节点智能体与agv的参数,方法如下:
13、所有节点智能体用集合i表示,agv用集合m表示。节点智能体i中保存着qi、δi,其中qi表示节点智能体i中保存的q表,q表横轴表示为节点智能体的状态、纵轴表示节点智能体的动作,δi=(δ1,δ2,...,δm)表示节点智能体i中保存的所有agv的td-error(时序差分误差),表示agv在从节点智能体i到节点智能体j在未拥塞的情况下的最短行驶时间。qi和δi的初始化为:
14、
15、
16、直至
17、
18、qi(0)[(d,i),j]表示第0次迭代时,处于节点智能体i上终点为d的agv选择节点智能体j作为下一个节点智能体时,到达目的地d的估计行驶时间;ε表示误差阈值。
19、对于某辆agv用m表示,m∈m。编号为m的agv中存储着一个全局的资格迹矩阵em和记录其历史轨迹的无向图元素gm(nm,εm,t),em的横轴表示整个状态空间中的所有状态,纵轴表示整个动作空间中的所有动作也就是所有的节点智能体;gm(nm,εm,t)中nm集合储存着编号为m的agv经过的历史轨迹节点智能体,εm(h,i)表示上一时刻agv处于节点智能体h上,这一时刻处于节点智能体i上,t表示t时刻。无向图由所有子图所并成表示为g(n,ε,t)={g1(n1,ε1,t)∪...∪gm(nm,εm,t)∪...}。将所有agv资格迹矩阵和无向图初始化,即agv资格迹矩阵零初始化,无向图清空:
20、
21、gm(nm,εm,t)中
22、s4、训练节点智能体,完成路径规划,其包括如下子步骤:
23、s4-1、当agv(m,m∈m)抵达节点智能体h时,如果h是起点执行步骤s4-2,如果h是终点执行步骤s4-3,如果h即不是起点也不是终点执行步骤s4-4;
24、s4-2、设置误差δh(m)=-1000,节点智能体h通过boltzmann softmax policy为agv(m,m∈m)选出下一动作k′,并控制行驶至节点智能体k′,将轨迹点h添加至集合n中,n∪{h},重复步骤s4-1;<本文档来自技高网...
【技术保护点】
1.基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,S1中所述仿真智能工厂通过Anylogic仿真软件所搭建。
3.根据权利要求1所述的基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,在S2中所述要素如下:
4.根据权利要求3所述的基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,S3具体过程如下:
5.根据权利要求4所述的基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,所述节点智能体i中保存的Qi和δi的初始化为:
6.根据权利要求5所述的基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,S4具体过程如下:
7.根据权利要求6所述的基于多资格迹分布式强化学习的AGV动态路径规划方法,其特征在于,所述S4-4具体过程如下:
【技术特征摘要】
1.基于多资格迹分布式强化学习的agv动态路径规划方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于多资格迹分布式强化学习的agv动态路径规划方法,其特征在于,s1中所述仿真智能工厂通过anylogic仿真软件所搭建。
3.根据权利要求1所述的基于多资格迹分布式强化学习的agv动态路径规划方法,其特征在于,在s2中所述要素如下:
4.根据权利要求3所述的基于多资格迹分布式强化学习的agv动态...
【专利技术属性】
技术研发人员:田玉平,李俊,刘崧,于绍琪,张力鸣,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。