【技术实现步骤摘要】
通信资源受限下基于深度强化学习的多智能体协同决策方法
[0001]本专利技术属于多智能体协同决策领域,主要设计了一种通信资源受限下基于深度强化学习的多智能体协同决策方法。
技术介绍
[0002]近年来,深度强化学习在一系列具有挑战性的任务中取得了显著的成功。受深度强化学习强大的感知和学习能力的启发,研究人员不断尝试将深度强化学习应用于多智能体领域,以促进多智能体合作行为。人类社会中存在许多合作问题,如自动驾驶、交通灯控制、导航制导和智能电网控制。它们可以自然地形成合作的多智能体系统,目标是从团队的角度最大化回报。
[0003]以最广泛的追逃场景为例,目前追逃问题场景中大多都是设定追捕智能体性能优于或等于逃逸目标,而针对追捕智能体性能相对于逃逸目标处于劣势的场景,则需要研究更为复杂和精确的模型,以充分利用集群的优势,处理这种非同等运动参数条件下的追捕问题,通过多智能体协同合作,完成对高性能逃逸目标的协同追捕。
[0004]针对此类问题,传统的方法是基于数学模型的方法设计的智能体控制策略,对敌方运动往往作了假定约束或者需要知道对方的控制策略,但是在战场环境下己方很难获知敌方的控制策略,同时基于数学模型设置的控制器参数往往是人工设定或者需要借助其他算法进行优化,一旦环境模型发生改变,原来旧的控制器参数可能就不是最优的,具有一定的局限性。现有的多智能体强化学习多数采用集中式训练,分散式执行的模式,针对追捕环境这类完全合作型场景,在分散式执行过程中,每个智能体仅根据本地局部观测信息进行决策,而不与其他友军智能体 ...
【技术保护点】
【技术特征摘要】
1.一种通信资源受限下基于深度强化学习的多智能体协同决策方法,其特征在于,所述方法包括以下步骤:步骤1:初始化环境参数,对智能体Actor和Critic中所有网络参数进行正交初始化,设定智能体的简化动力学方程;步骤2:随机分配友军智能体和目标的坐标p
i
=[p
i,x
,p
i,y
],初始速度v
i
=[v
i,x
,v
i,y
]为0;步骤3:设定协作追捕的奖励函数其中包括和目标距离相关的个人奖励和团队奖励以及智能体间的碰撞惩罚和目标的捕获奖励β1、β2、β3、β4为比例系数;步骤4:每个智能体获得本地局部观测o
i
,输入至Encoder层和GRU层进行特征提取,将其输出作为通信的内容m
i
,将观测o
i
输入至权重生成器策略网络π
c
得到本地观测的重要性权重策略,输出为Beta分布的两个参数α和β,对该分布进行采样得到重要性权重参数w
i
;步骤5:每个智能体将自己的观测重要性权重发送至团队的Leader进行通信信道的申请,Leader收集所有智能体的权重,构建冲突图,通过局部搜索算法产生无通信冲突的信道分配策略,在不造成通信冲突的情况下最大化利用有限信道情况,并将分配结果广播给其余智能体,所有智能体根据该时刻的信道分配结果进行通信;步骤6:该轮通信完成后,每个智能体将该周期内收集到的所有数据输入至多头自注意力层进行信息整合和特征提取,生成m
′
i
,并拼接原始本地信息m
i
输入至智能体的策略网络π
a
,并将输出进行采样得到最终的动作作用至智能体上,得到该时刻的环境反馈数据(o
t+1
,r
t
,done
t
,adj
t+1
),其中,o
t+1
为下一时刻的观测值,r
t
为当前时刻的奖励,done
t
用于标识当前时刻回合是否结束,adj
t+1
表示下一时刻的通信拓扑情况;步骤7:以上步骤4、5、6完成了一个轨迹样本收集过程,将轨迹样本保存至回放缓冲池中,轨迹样本内容为(o
t
,a
t
,o
t+1
,r
t
,done
t
,adj
t
),其中,o
t
和o
t+1
为当前时刻和下一时刻的观测值,a
t
为当前时刻的动作,r
t
为当前时刻的奖励,done
t
用于标识当前时刻回合是否结束,adj
t
表示下一时刻的通信拓扑情况,根据done
t
判断该回合是否结束,结束则跳回至步骤2继续收集数据直至回放缓冲池数据达到要求;步骤8:抽取轨迹样本数据,基于轨迹样本分别使用广义优势函数估计方法计算每个轨迹样本所有智能体的优势函数其中,λ为GAE中的折扣因子,γ为奖励的折扣因子,表示t时刻的时间差分误差,r
t
为当前时刻的奖励,V(s
t
)和V(s
t+1
)为当前时刻和下一时刻的状态价值函数;步骤9:对于智能体控制策略网络π
a
,以当前策略网络给出的策略为基准,迭代更新策略网络的参数来取得性能更好的策略,对偶策略网络损失函数的采用可以减少训练的方差同时保证模型收敛,策略参数更新的损失函数为:其中为新旧策略的比例系数,为优势函数,clip(
·
)函...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。