System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法技术_技高网

一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法技术

技术编号:43995806 阅读:2 留言:0更新日期:2025-01-10 20:15
本发明专利技术涉及一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,包括:根据仓库布局建立仓库节点图,获取AGV的部分观测信息,确定AGV初始起点、终点以及障碍物信息;若当前已有训练好的路径规划模型,则将AGV初始起点、终点以及障碍物信息,结合AGV前一个动作与AGV的ID信息,共同输入路径规划模型,输出得到AGV对应行驶路径;否则构建强化学习环境,将AGV的局部观测信息作为输入将其转化为观测矩阵,将观测矩阵输入深度神经网络,输出每个AGV的Q值,再通过参数网络接受全局信息生成参数,最后推理网络读取每辆AGV的Q值与参数网络的参数输出整体Q值。与现有技术相比,本发明专利技术针对多AGV进行多周期的路径规划,能够提高多AGV在复杂环境中的工作效率和准确性。

【技术实现步骤摘要】

本专利技术涉及agv路径规划,尤其是涉及一种基于qmix算法的自动化仓库多agv多周期路径规划方法。


技术介绍

1、近年来,随着电子商务平台的迅猛发展和消费习惯的改变,网络购物的用户数量持续攀升,带动了物流行业的快速增长。这些在线购买的商品通常需要从仓库发出,仓库因此成为了关键的商品中转站。然而,传统的仓库管理方式,如工人手动搬运或操作机械设备进行大型货物搬运,已经无法满足当前日益增长的物流需求。这些传统方法不仅管理复杂,效率低下,而且人力成本高昂。因此,寻找更高效、更经济的仓库管理方式已经成为行业内的紧迫需求。

2、为了应对仓储管理中的诸多挑战,智能物料搬运装备技术应运而生,尤其是自动导引车(automated guided vehicle,agv)在其中发挥了重要作用。agv利用先进的自动化设备、物联网、人工智能和大数据分析,实现了物料搬运的自动化和智能化操作。这些智能车辆能够在无需人工干预的情况下,自动完成货物的搬运、装卸和堆垛操作。

3、agv不仅显著提升了仓库的运营效率和订单准确性,降低了人力成本,还促进了仓库的科学管理和优化配置。通过精准的路径规划和灵活的调度系统,agv能够高效地在仓库内进行物料搬运,大幅减少了人工操作带来的误差和延迟。agv技术的应用不仅符合现代物流发展的趋势,更能适应未来智能物流的需求,为企业提供更强的竞争力和可持续发展能力。agv的广泛应用,也使得物流系统更具灵活性和响应能力,能够显著提升物流行业的整体效能。

4、为确保agv的可靠运行,有必要对agv进行准确的路径规划,路径规划是一种用于连接起始点和目标点的轨迹设计策略。现有技术中,常见路径规划算法包括传统路径规划算法、启发式路径规划算法、基于采样的路径规划算法和智能仿生学算法。但这些agv小车路径规划算法无法很好地应对多agv冲突的问题,对未知复杂环境的适用性较低,导致需要较高的人工参与度,因而其工作和运行效率较低,存在耗时长且无法求解大规模算例的问题。


技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于qmix算法的自动化仓库多agv多周期路径规划方法,能够针对多agv进行多周期的路径规划,提高多agv在复杂环境中的工作效率和准确性。

2、本专利技术的目的可以通过以下技术方案来实现:一种基于qmix算法的自动化仓库多agv多周期路径规划方法,包括以下步骤:

3、s1、根据仓库布局,建立仓库节点图,获取agv的部分观测信息,确定agv初始起点、终点以及障碍物信息;

4、s2、检查当前是否已有训练好的路径规划模型,若是,则将agv初始起点、终点以及障碍物信息,结合agv前一个动作与agv的id信息,共同输入路径规划模型,输出得到agv对应行驶路径;否则执行步骤s3;

5、s3、构建强化学习环境,将每辆agv的部分观测信息输入到qmix算法的rnn(recurrent neural network,循环神经网络)神经网络中,通过ε-greedy策略确定出每辆agv的预测q值;

6、将预测q值输入混合网络mixing network中,通过对预测q值进行评价,以获得整体的q值;

7、s4、根据整体的q值和agv的奖励值,指导agv进行下一步的动作选择,在隐藏层保存每辆agv的观测信息、最优路径,保存整体q值和环境真实奖励值,更新agv部分观测的障碍物信息;

8、通过循环迭代,使得单个的agv输出能够得到更高值的预测q值、使得整体的q值能够更加接近环境真实奖励值,构建得到路径规划模型,之后返回步骤s2。

9、进一步地,所述步骤s1中agv的部分观测信息具体为:

10、<i,s,a,t,r,o,ω,γ>

11、a={a1,a2,a3,...,an}

12、t(s,a,s′)=p(s′∣s,a)

13、

14、其中,i表示智能体的数量;s表示状态空间,其中包含了智能体与环境信息;a表示联合动作空间,其中ai表示智能体i所能采取的局部动作ai的集合;t为状态转移函数,t表示在状态s下,表示智能体采取联合动作a之后,转移到状态s′的概率函数;r为奖励函数,用以表示发生状态转移时智能体获得的奖励;o为观测空间,表示联合观测的集合,ot为时间t的观测集合,ω为观测函数;γ∈[0,1]为折扣因子。

15、进一步地,所述状态空间具体为:s=(s小车,s目的地,s障碍物),其中,agv的状态即位置坐标由表示,它由n个位置坐标元组构成,n为agv的数量;

16、agv目标的状态即目标位置坐标由表示,包括n个位置坐标元组,s小车和s目的地通过顺序一一对应,从而保证agv与目标点一一对应;

17、障碍物的状态即障碍物位置坐标由表示,包含了所有障碍物的位置坐标,由m个位置坐标元组构成,m为障碍物的数量;

18、所有的agv在0时刻处在初始位置,当某个坐标位置被agv或者障碍物占据时,其他agv将不可以到达该节点,即agv坐标位置以及障碍物坐标位置无法重合,当agv到达其目标位置后,会对应为其生成下一个目标位置并存入目标状态s障碍物中。

19、进一步地,所述观测空间具体为:o=(o障碍物,o小车,o目的地),将其分解为三个矩阵,即障碍矩阵、其他agv矩阵以及目标投影矩阵,障碍矩阵o障碍物包含了agv可观测距离内的障碍物信息,当观测范围内有障碍物时,矩阵中该部分会被置1,否则为0;

20、agv矩阵o小车包含了agv可观测范围内的其他agv信息,当观测范围内有其他agv时,矩阵中该部分会被置1,否则为0;

21、目标矩阵o目的地包含了agv目标点的位置信息,当目标点不在当前agv的观测范围内时,其为从agv指向目标点的一个向量在矩阵中的投影,且会显示在矩阵的边缘位置,即将该边缘位置1,其他位置为0;当目标点进入agv的观测空间内时,该目标点被置1,其他为0。

22、进一步地,所述步骤s2中路径规划模型包括多个rnn神经网络,多个rnn神经网络分别连接至混合网络,多个rnn神经网络分别对应于不同的agv,各rnn神经网络均包括输入层mlp(multilayer perceptron,多层感知器)、中间层gru(gated recurrent unit,门控循环单元)和输出层mlp,所述rnn神经网络的输入为每辆agv的观测空间、agv的动作编码以及agv的id,输出为该agv的q值;

23、所述混合网络包括推理网络和参数网络,推理网络的输入为所有agv的q值,输出为全局q值qtot,推理网络中权重和偏置参数由参数网络生成;

24、所述参数网络的输入为全局状态·st,输出为推理网络的权重w和偏置b;

25、所述混合网络最后一层的偏移量通过两层网络以及relu激活函数得到非线性映射网络,推理网络接收参数网络的参数后本文档来自技高网...

【技术保护点】

1.一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述步骤S1中AGV的部分观测信息具体为:

3.根据权利要求2所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述状态空间具体为:S=(S小车,S目的地,S障碍物)其中,AGV的状态即位置坐标由表示,它由n个位置坐标元组构成,n为AGV的数量;

4.根据权利要求2所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述观测空间具体为:O=(O障碍物,O小车,O目的地),将其分解为三个矩阵,即障碍矩阵、其他AGV矩阵以及目标投影矩阵,障碍矩阵O障碍物包含了AGV可观测距离内的障碍物信息,当观测范围内有障碍物时,矩阵中该部分会被置1,否则为0;

5.根据权利要求2所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述步骤S2中路径规划模型包括多个RNN神经网络,多个RNN神经网络分别连接至混合网络,多个RNN神经网络分别对应于不同的AGV,各RNN神经网络均包括输入层MLP、中间层GRU和输出层MLP,所述RNN神经网络的输入为每辆AGV的观测空间、AGV的动作编码以及AGV的ID,输出为该AGV的Q值;

6.根据权利要求5所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述步骤S3中RNN神经网络的工作过程包括:将每个AGV的当前观测值、上一步的动作、以向量形式表示的每个AGV的ID的one-hot编码输入给输入层MLP、通过中间层GRU接受第一层的输入和隐藏的历史信息,通过输出层MLP输出预测的Q值。

7.根据权利要求5所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述步骤S3中ε-greedy策略的计算公式为:

8.根据权利要求5所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述步骤S4中AGV的奖励值通过奖励函数计算得到:

9.根据权利要求8所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述冲突包括节点冲突、跟随冲突、换位冲突和循环冲突。

10.根据权利要求9所述的一种基于QMIX算法的自动化仓库多AGV多周期路径规划方法,其特征在于,所述节点冲突具体是指:AGV计划在同一时间步长占据同一节点;

...

【技术特征摘要】

1.一种基于qmix算法的自动化仓库多agv多周期路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于qmix算法的自动化仓库多agv多周期路径规划方法,其特征在于,所述步骤s1中agv的部分观测信息具体为:

3.根据权利要求2所述的一种基于qmix算法的自动化仓库多agv多周期路径规划方法,其特征在于,所述状态空间具体为:s=(s小车,s目的地,s障碍物)其中,agv的状态即位置坐标由表示,它由n个位置坐标元组构成,n为agv的数量;

4.根据权利要求2所述的一种基于qmix算法的自动化仓库多agv多周期路径规划方法,其特征在于,所述观测空间具体为:o=(o障碍物,o小车,o目的地),将其分解为三个矩阵,即障碍矩阵、其他agv矩阵以及目标投影矩阵,障碍矩阵o障碍物包含了agv可观测距离内的障碍物信息,当观测范围内有障碍物时,矩阵中该部分会被置1,否则为0;

5.根据权利要求2所述的一种基于qmix算法的自动化仓库多agv多周期路径规划方法,其特征在于,所述步骤s2中路径规划模型包括多个rnn神经网络,多个rnn神经网络分别连接至混合网络,多个rnn神经网络分别对应于不同的agv,各rnn神经网络均包括输入层mlp、中间层gru和输...

【专利技术属性】
技术研发人员:胡鸿韬林伟王翥
申请(专利权)人:上海海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1