System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉合作型多智能体强化学习,具体涉及一种基于先验知识超图学习的合作型多智能体强化学习方法。
技术介绍
1、合作型可部分观测的多智能体强化学习可以被建模为分散式部分可观测决策过程(decentralized partially observable decision processes,简称dec-pomdps)。dec-pomdps中智能体与环境的交互过程可用表示。具体来说,每个时间步t,智能体αi,i∈{1,2,3,…,n}根据其局部观测信息选择个体动作并组成联合动作作用于环境中。环境状态根据状态转移函数转移到新状态并给予智能体奖励所有智能体共享奖励函数r(s,u),即得到相同奖励值。智能体随后通过观测函数获得新的局部观测并不断重复上述过程。dec-pomdps的最终目标是令智能体的决策最大化累计折扣奖励的期望值,即最大化其中γ∈[0,1)为折扣因子,τ为动作观测历史。
2、通常情况下,合作型多智能体强化学习的环境将根据智能体的联合动作给予智能体反馈,即所有智能体共享同一个奖励函数,因此准确评估单个智能体的动作决策对团队的贡献是训练阶段的关键问题。价值函数分解算法是通过神经网络拟合智能体个体价值函数与总体价值函数之间的复杂关系,并利用时序差分误差实现总体与个体策略网络的同步更新,但是未能充分利用个体与个体之间潜在的合作关系评估单个智能体对团队的贡献。
3、为表示智能体之间的群组合作关系以更准确估计个体价值函数,[bai,y.;gong,c.;zhang,b.;fan,g.;hou,x.;and
技术实现思路
1、本专利技术的目的是提供一种用于基于先验知识的超图学习方法,解决如何通过对智能体群组合作关系建模以提高智能体之间协作效率的问题。
2、为达到上述目的,本专利技术提供如下方案:
3、基于先验知识超图学习的合作型多智能体强化学习方法,步骤如下:
4、步骤1:超图的关联矩阵的计算,包括:首先获取所有智能体的局部观测信息向量以及观测信息向量的语义信息;将观测数据分别输入根据先验规则模块和神经网络得到两个超图关联矩阵表示,以及两个矩阵之间的均方误差。
5、步骤2:个体价值函数的计算,包括:获取智能体的局部观测信息和历史信息并输入深度循环q神经网络(deep recurrent q-networks,drqn),输出未考虑合作关系的个体价值函数。将drqn的输出值与步骤1中神经网络输出的超图关联矩阵输入超图卷积模块,得到更新后的个体价值函数。
6、步骤3.总体价值函数的计算,包括:获取环境全局状态的向量表示以及步骤2得到的更新后的个体价值函数,并输入到混合神经网络(mixing networks)中,得到总体价值函数。并利用时序差分误差对和步骤1得到的均方误差更新网络参数。
7、本专利技术的有益效果:
8、1.本专利技术提出了一种超图构建的规则,使得依据智能体观测构建的超图结构具有一定解释性,为智能体合作关系学习提供偏好。
9、2.本专利技术使用基于规则和神经网络结合的方式构建超图,通过先验知识和环境反馈两个误差学习超图结构。在随机性较大的环境中,其提高利于协作的超图构建速度,并提高智能体合作效率。
本文档来自技高网...【技术保护点】
1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:
2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:
3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:
4.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:
5.如权利要求3所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:
6.如权利要求2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1.2中,λt采用指数衰减形式,λt随训练步数增大而减小,如公式(4)所示,其中λ0为初始权重,μ为衰减因子;
【技术特征摘要】
1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:
2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:
3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:
4.如权利要求1或2所述的基于先验知识超图学习的合作型多智...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。