基于贪婪值表征的多无人搬运车调度方法及系统技术方案

技术编号:39658724 阅读:28 留言:0更新日期:2023-12-09 11:27
本发明专利技术提供一种基于贪婪值表征的多无人搬运车调度方法及系统,方法包括构建多

【技术实现步骤摘要】
基于贪婪值表征的多无人搬运车调度方法及系统


[0001]本专利技术属于
AGV
调度领域,具体涉及一种基于贪婪值表征的多无人搬运车调度方法及系统


技术介绍

[0002]许多现实场景中的决策问题,如交通调度

多传感器协同

机器人集群协作等,都可以被建模为多智能体协同决策问题

在此类问题中,多个决策主体
(
即智能体
)
以团队形式与环境进行交互,并从环境中获取反馈信息
(
包括环境给与智能体团队的奖惩信息与环境的状态变化
)。
在多智能体强化学习中,算法根据该反馈信息计算每个动作的目标值函数,以便对团队决策进行评价

与此同时,算法为智能体团队构造一个联合值函数,对该目标值函数进行近似

智能体团队需要根据联合值函数推断每个智能体的团队贡献,从而对每个智能体的策略进行单独更新,该问题被称为效用分配

[0003]值分解是一种最简单高效的效用分配方法,在此类方法中,联合动作值函数通过一个混合器模块被分解为每个智能体的效用函数

然而,当前的值分解方法通常借助线性分解或单调分解来分解联合值函数,这两种分解方式在联合值函数与效用函数的关系中引入了线性或单调性约束,导致联合值函数无法表征任意的目标值函数

联合值函数的表征缺陷引入了相对过度泛化问题,即联合策略存在多种收敛结果,可能会收敛到非最优策略上,从而导致非最优协作问题

由于线性值分解和单调值分解被广泛应用于各种多智能体协同决策问题方法,在线性值分解和单调值分解的基础上解决相对过度泛化具有重要意义

[0004]如何实现多无人搬运车
(Automated Guided Vehicle

AGV)
的最优协同调度在实际中具有重要的意义,现有技术没有给出相关的技术方案


技术实现思路

[0005]本专利技术的目的在于解决线性值分解算法中存在的相对过度泛化问题,提供一种基于贪婪值表征的多无人搬运车调度方法,能够消除多智能体调度算法的非最优收敛点,在环境得到充分探索的前提下实现多
AGV
的最优协同调度

[0006]为实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术第一方面是提供一种基于贪婪值表征的多无人搬运车调度方法,包括:
[0008]构建多
AGV
团队决策模型以及多评论家评估模型;
[0009]AGV
通过多
AGV
团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;
[0010]从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化并保存优先样本,形成优先经验缓冲区;从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本;
[0011]将所述优先动作样本输入所述多
AGV
团队决策模型中,进行训练得到最终的多无人搬运车调度模型,用于生成多
AGV
的最优协同调度策略

[0012]作为本专利技术进一步改进,所述构建多
AGV
团队决策模型以及多评论家评估模型,包括:
[0013]利用循环神经网络为每一个决策主体构建一个独立的效用函数模型,所述效用函数模型以当前时间步的局部观测信息
、AGV
的动作

以及历史隐变量作为输入,以相应动作的效用值和新的历史隐变量作为输出;
[0014]利用线性
/
单调混合器将不同
AGV
的效用值混合,得到联合动作值,进而构建多
AGV
团队决策模型;
[0015]利用多个多层感知机构建多个评论家模型,每个评论家模型以环境状态和全体
AGV
的联合动作为输入,输出该状态下的
AGV
团队行为评估值

[0016]作为本专利技术进一步改进,所述
AGV
通过多
AGV
团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;包括:
[0017]AGV
从环境中获取观测信息,将所述观测信息与上一个时间步的历史隐变量

以及所有可行动作输入多
AGV
团队决策模型,更新历史隐变量,并得到可行动作的联合动作值;
[0018]从联合动作值中根据探索

利用策略选取合适的动作,与环境进行交互;
[0019]收集环境反馈,将环境状态

观测信息

所采取的动作

获得的团队奖励存入经验缓冲区;
[0020]AGV
根据新收集到的观测信息,重复上述步骤进行下一轮的交互,直至获得所有训练样本,形成经验缓冲区

[0021]作为本专利技术进一步改进,所述与环境进行交互中,对于每次交互的第一个时间步,历史隐变量通过全0向量来表示,在经验缓冲区中保存一次与环境交互产生的完整轨迹信息,并根据初始的全0向量推导出每一个时间步的历史隐变量

[0022]作为本专利技术进一步改进,所述从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化并保存优先样本,形成优先经验缓冲区,包括:
[0023]从经验缓冲区以轨迹为单位随机采样一批训练样本,计算该批样本对应的目标值函数;
[0024]对于非贪婪动作对应的样本,若该动作的目标值函数比贪婪动作的联合值函数
Q
低,则将该动作的目标值函数替换为
Q

b
,其中
b
为预先设定的偏置值;
[0025]计算多
AGV
团队决策模型输出的联合动作值与修改后目标动作值的误差,更新多
AGV
团队决策模型;
[0026]通过多评论家模型计算贪婪动作评估值的均值和方差,对于非贪婪动作对应的样本,根据该均值和方差计算其评估值高于贪婪动作评估值的置信度,将置信度超过一定阈值的样本记为优先样本;
[0027]将优先样本所在的轨迹存入优先经验缓冲区,并将轨迹中所含优先样本的数量记为该轨迹的优先级

[0028]作为本专利技术进一步改进,所述从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本,包括:
[0029]从优先经验缓冲区以轨迹为单位无放回取出优先级最高的一批训练样本,参照第一轮策略优化进行第二轮策略优化;
[0030]通过混合第一轮的随机样本训练和第二轮的优先样本训练,得到优先样本...

【技术保护点】

【技术特征摘要】
1.
一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,包括:构建多
AGV
团队决策模型以及多评论家评估模型;
AGV
通过多
AGV
团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化并保存优先样本,形成优先经验缓冲区;从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本;将所述优先动作样本输入所述多
AGV
团队决策模型中,进行训练得到最终的多无人搬运车调度模型,用于生成多
AGV
的最优协同调度策略
。2.
根据权利要求1所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述构建多
AGV
团队决策模型以及多评论家评估模型,包括:利用循环神经网络为每一个决策主体构建一个独立的效用函数模型,所述效用函数模型以当前时间步的局部观测信息
、AGV
的动作

以及历史隐变量作为输入,以相应动作的效用值和新的历史隐变量作为输出;利用线性
/
单调混合器将不同
AGV
的效用值混合,得到联合动作值,进而构建多
AGV
团队决策模型;利用多个多层感知机构建多个评论家模型,每个评论家模型以环境状态和全体
AGV
的联合动作为输入,输出该状态下的
AGV
团队行为评估值
。3.
根据权利要求1所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述
AGV
通过多
AGV
团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;包括:
AGV
从环境中获取观测信息,将所述观测信息与上一个时间步的历史隐变量

以及所有可行动作输入多
AGV
团队决策模型,更新历史隐变量,并得到可行动作的联合动作值;从联合动作值中根据探索

利用策略选取合适的动作,与环境进行交互;收集环境反馈,将环境状态

观测信息

所采取的动作

获得的团队奖励存入经验缓冲区;
AGV
根据新收集到的观测信息,重复上述步骤进行下一轮的交互,直至获得所有训练样本,形成经验缓冲区
。4.
根据权利要求3所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述与环境进行交互中,对于每次交互的第一个时间步,历史隐变量通过全0向量来表示,在经验缓冲区中保存一次与环境交互产生的完整轨迹信息,并根据初始的全0向量推导出每一个时间步的历史隐变量
。5.
根据权利要求1所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化并保存优先样本,形成优先经验缓冲区,包括:从经...

【专利技术属性】
技术研发人员:兰旭光万里鹏刘泽阳
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1