多智能体时空特征提取方法及系统、行为决策方法及系统技术方案

技术编号:26033780 阅读:36 留言:0更新日期:2020-10-23 21:11
本发明专利技术涉及一种多智能体时空特征提取方法及系统、行为决策方法及系统,所述时空特征提取方法包括:获取在时刻

【技术实现步骤摘要】
多智能体时空特征提取方法及系统、行为决策方法及系统
本专利技术涉及多智能体系统及群体智能应用
,特别涉及一种基于图注意力和长短期记忆网络的多智能体时空特征提取方法及系统、行为决策方法及系统。
技术介绍
多智能体系统具有分布性、简单性、灵活性和健壮性等优势,为很多极具挑战的复杂性问题提供了崭新的解决方案。随着微纳电子、计算平台、自主控制等新兴技术的迅猛发展,由无人机、无人车等无人自主平台组成的多智能体系统在关乎国计民生以及国家和国防安全的重大场景中获得了越来越多的应用。无人自主多智能体系统能以网络化、分布化、协同化方式快速形成区域覆盖,实现集群资源优化调度,提高任务完成率和响应速度,一方面可作为一种常态化部署系统,服务于山区巡逻、灾害预警、环境监测、区域物流等领域;另一方面也可作为一种突发事件的快速响应系统,在诸如疫情防控、突发灾害、大型活动人防等场景下提供快速物资调度、灾害监测评估、通信保障支援等能力。然而,现有对于无人自主多智能体系统实时决策与控制技术的研究尚处于起步阶段,大多数多智能体系统采用预规划的方式提前拟定了各智能体的行为决策规则,使得智能体在面向实际应用场景时不能随着任务、环境变化实现自适应的自主行为决策,极大限制了多智能体系统智能协同效果的发挥。实际场景中,单个智能体往往仅具有有限的环境感知能力、通信能力和行为能力,智能体之间的通信拓扑连接关系也将在动态任务中时刻发生改变,此外由于任务分工不同,每个智能体对于其他智能体及周围环境的注意力并不相同,因此,采取有效手段时刻提取出智能体与智能体之间、智能体与任务环境要素之间的时空特征关系,是保障多智能体系统实现对任务、环境的抽象理解,进而实现自主决策与智能控制的关键。
技术实现思路
为了解决现有技术中的上述问题,即为了提升多智能体系统在大规模复杂任务中的自主决策与智能控制能力,本专利技术的目的在于提供一种多智能体时空特征提取方法及系统、行为决策方法及系统。为解决上述技术问题,本专利技术提供了如下方案:一种多智能体系统的时空特征提取方法,所述时空特征提取方法包括:步骤100:获取在时刻t下,基于(t-nt)时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,nt为预设的历史状态数;步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;步骤400:基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。可选地,所述基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集,具体包括:步骤310,以多智能体系统原始特征集h作为输入,通过第一图注意力网络模块,获得空间关系特征集;其中,原始特征集,为智能体i对应的原始特征向量,i=1,2…,N;步骤320,以为输入,通过第一全连接网络模块,获得空间特征集;步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集、;其中,,为图注意力网络模块和全连接网络模块的堆叠层数;步骤340,在迭代计算第次的空间特征集时,基于,采用步骤310的方法,通过第图注意力网络模块得到空间特征集;将拼接特征集输入第全连接网络模块,得到空间特征集,作为时刻t下多智能体系统基于所述空间特征提取层的最终输出。可选地,所述获得空间关系特征集,具体包括:步骤311:采用多头注意力机制,针对多头注意力机制的多智能体系统中的第m头注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为Ni,在邻居智能体中选取一个智能体j,采用可学习的矩阵W对智能体i、j对应的关系特征向量、进行线性变换,并拼接为一个新的关系特征向量;其中,W为关系特征向量、的线性变换矩阵;步骤312:将输入一个全连接神经网络,输出智能体i对于智能体j的注意力系数;步骤313:计算第m头注意力机制下的智能体i对于智能体j的注意力归一化系数:;步骤314:计算多头注意力机制融合下智能体i与其邻居间的空间关系特征向量:;其中,为sigmoid激活函数,为第头注意力选取的线性变换矩阵,表示向量的拼接操作,K为注意力机制的头数;步骤315:计算得到所有智能体与其邻居间的空间关系特征后,得多智能体系统空间关系特征集。可选地,所述得到多智能体系统在当前时刻t下的时空关系特征集,具体包括:将得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系特征集,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的时空关系提取层,靠近输出端的长短期记忆网络单元记作,向前依次类推;第q个长短期记忆网络单元的单元状态记作,输出为时空关系特征集,输入为()时刻的空间关系特征集以及第(q+1)个单元输出的时空关系特征集及其单元状态;q=1,2,…,n+1;将()时刻的空间关系特征集、第(q+1)个单元输出的时空关系特征集及单元状态输入到采用图卷积神经网络的忘记门:其中,*表示图卷积运算,表示忘记门的图卷积神经网络的权重系数矩阵,表示忘记门的图卷积神经网络的偏置,为sigmoid激活函数;将()时刻的空间特征集以及第(q+1)个单元输出的时空关系特征集及单元状态输入到采用图卷积神经网络的输入门,并对单元状态进行更新:;;其中,*表示图卷积运算,、为输入门的图卷积神经网络对应的权重系数矩阵,、为输入门的图卷积神经网络对应的偏置,为sigmoid激活函数,为tanh激活函数,为哈达玛积;将()时刻的空间关系特征集以及第(q+1)个单元输出的时空关系特征集以及更新后的单元状态输入到采用图卷积神经网络的输出门,得到第q个单元输出的时空关系特征集:;;其中,*表示图卷积运算,表示过度变量,表示输出门的图卷积神经网络对应的权重系数矩阵,表示输出门的图卷积神经网络对应的偏置,为sigmoid激活函数,为tanh激活函数,为哈达玛积;其中第1个单元输出的为多智能体系统在当前时刻t下的时空关系特征集。可选地,所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;其中,智能体自身状态包括智能体自身位置、速度、加速度状态,任务目标状态包括目标位置、速本文档来自技高网
...

【技术保护点】
1.一种多智能体系统的时空特征提取方法,其特征在于,所述时空特征提取方法包括:/n步骤100:获取在时刻

【技术特征摘要】
1.一种多智能体系统的时空特征提取方法,其特征在于,所述时空特征提取方法包括:
步骤100:获取在时刻t下,基于t-nt时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,nt为预设的历史状态数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
步骤400:基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。


2.根据权利要求1所述的多智能体系统的时空特征提取方法,其特征在于,所述基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集,具体包括:
步骤310,以多智能体系统原始特征集h作为输入,通过第一图注意力网络模块,获得空
间关系特征集;其中,原始特征集,为智能体i对应
的原始特征向量,i=1,2…,N;
步骤320,以为输入,通过第一全连接网络模块,获得空间特征集
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和全连
接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集、;其
中,,为图注意力网络模块和全连接网络模块的堆叠层数;
步骤340,在迭代计算第次的空间特征集时,基于,采用步骤310的方法,通过
第图注意力网络模块得到空间特征集;将拼接特征集输入第全连接网络模块,得到空间特征集,作为时
刻t下多智能体系统基于所述空间特征提取层的最终输出。


3.根据权利要求2所述的多智能体系统的时空特征提取方法行为决策方法,其特征在
于,所述获得空间关系特征集,具体包括:
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体系统中的第m头注意
力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为Ni,在邻居智能
体中选取一个智能体j,采用可学习的矩阵W对智能体i、j对应的关系特征向量、进
行线性变换,并拼接为一个新的关系特征向量;其中,W为关系特
征向量、的线性变换矩阵;
步骤312:将输入一个全连接神经网络,输出智能体i对于智能体j的注意力系数;
步骤313:计算第m头注意力机制下的智能体i对于智能体j的注意力归一化系数:


步骤314:计算多头注意力机制融合下智能体i与其邻居间的空间关系特征向量:


其中,为sigmoid激活函数,为第头注意力选取的线性变换矩阵,表示
向量的拼接操作,K为注意力机制的头数;
步骤315:计算得到所有智能体与其邻居间的空间关系特征后,得多智能体系统空间关
系特征集。


4.根据权利要求1所述的多智能体系统的时空特征提取方法,其特征在于,所述得到多智能体系统在当前时刻t下的时空关系特征集,具体包括:
将得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系特征集,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的
时空关系提取层,靠近输出端的长短期记忆网络单元记作,向前依次类推;第q个长短期
记忆网络单元的单元状态记作,输出为时空关系特征集,输入为时刻的空间关系特征集以及第q+1个单元输出的时空关系特征集及其单元状态;q=1,2,…,n+1;
将时刻的空间关系特征集、第q+1个单元输出的时空关系特征
集及单元状态输入到采用图卷积神经网络的忘记门:



其中,*表示图卷积运算,表示忘记门的图卷积神经网络的权重系数矩阵,表示忘记门的图卷积神经网络的偏置,为sigmoid激活函数;
将时刻的空间特征集以及第q+1个单元输出的时空关系特征集及单元状态输入到采用图卷积神经网络的输入门,并对单元状态进行更...

【专利技术属性】
技术研发人员:蒲志强王彗木刘振丘腾海易建强
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1