【技术实现步骤摘要】
基于贪婪值表征的多无人搬运车调度方法及系统
[0001]本专利技术属于
AGV
调度领域,具体涉及一种基于贪婪值表征的多无人搬运车调度方法及系统
。
技术介绍
[0002]许多现实场景中的决策问题,如交通调度
、
多传感器协同
、
机器人集群协作等,都可以被建模为多智能体协同决策问题
。
在此类问题中,多个决策主体
(
即智能体
)
以团队形式与环境进行交互,并从环境中获取反馈信息
(
包括环境给与智能体团队的奖惩信息与环境的状态变化
)。
在多智能体强化学习中,算法根据该反馈信息计算每个动作的目标值函数,以便对团队决策进行评价
。
与此同时,算法为智能体团队构造一个联合值函数,对该目标值函数进行近似
。
智能体团队需要根据联合值函数推断每个智能体的团队贡献,从而对每个智能体的策略进行单独更新,该问题被称为效用分配
。
[0003]值分解是一种最简单高效的效用分配方法,在此类方法中,联合动作值函数通过一个混合器模块被分解为每个智能体的效用函数
。
然而,当前的值分解方法通常借助线性分解或单调分解来分解联合值函数,这两种分解方式在联合值函数与效用函数的关系中引入了线性或单调性约束,导致联合值函数无法表征任意的目标值函数
。
联合值函数的表征缺陷引入了相对过度泛化问题,即联合策略存在多种收敛结果,可能会收敛到
【技术保护点】
【技术特征摘要】
1.
一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,包括:构建多
AGV
团队决策模型以及多评论家评估模型;
AGV
通过多
AGV
团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化并保存优先样本,形成优先经验缓冲区;从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本;将所述优先动作样本输入所述多
AGV
团队决策模型中,进行训练得到最终的多无人搬运车调度模型,用于生成多
AGV
的最优协同调度策略
。2.
根据权利要求1所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述构建多
AGV
团队决策模型以及多评论家评估模型,包括:利用循环神经网络为每一个决策主体构建一个独立的效用函数模型,所述效用函数模型以当前时间步的局部观测信息
、AGV
的动作
、
以及历史隐变量作为输入,以相应动作的效用值和新的历史隐变量作为输出;利用线性
/
单调混合器将不同
AGV
的效用值混合,得到联合动作值,进而构建多
AGV
团队决策模型;利用多个多层感知机构建多个评论家模型,每个评论家模型以环境状态和全体
AGV
的联合动作为输入,输出该状态下的
AGV
团队行为评估值
。3.
根据权利要求1所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述
AGV
通过多
AGV
团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;包括:
AGV
从环境中获取观测信息,将所述观测信息与上一个时间步的历史隐变量
、
以及所有可行动作输入多
AGV
团队决策模型,更新历史隐变量,并得到可行动作的联合动作值;从联合动作值中根据探索
‑
利用策略选取合适的动作,与环境进行交互;收集环境反馈,将环境状态
、
观测信息
、
所采取的动作
、
获得的团队奖励存入经验缓冲区;
AGV
根据新收集到的观测信息,重复上述步骤进行下一轮的交互,直至获得所有训练样本,形成经验缓冲区
。4.
根据权利要求3所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述与环境进行交互中,对于每次交互的第一个时间步,历史隐变量通过全0向量来表示,在经验缓冲区中保存一次与环境交互产生的完整轨迹信息,并根据初始的全0向量推导出每一个时间步的历史隐变量
。5.
根据权利要求1所述的一种基于贪婪值表征的多无人搬运车调度方法,其特征在于,所述从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化并保存优先样本,形成优先经验缓冲区,包括:从经...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。