基于群体对抗战术动态生成的多智能体强化学习方法技术

技术编号:36743568 阅读:14 留言:0更新日期:2023-03-04 10:23
本发明专利技术提出一种基于群体对抗战术动态生成的多智能体强化学习方法,通过在利用多智能体强化学习方法解决群体对抗中,引入了动态生成的方式,能够更好地理解场景,克服复杂场景任务理解困难的技术挑战,通过战术充分理解场景任务;通过引入位置热力图,有效的总结和记录了智能体在群体对抗中的行动轨迹,并根据与成功的关联形成了一种概率分布形式,通过使用基于位置热力图的自模仿学习机制,可以使智能体在任务初期将宏观动作倾向于全面探索环境,而在任务中后期将宏观动作集中在利用探索到的关键位置并不断优化。的关键位置并不断优化。的关键位置并不断优化。

【技术实现步骤摘要】
基于群体对抗战术动态生成的多智能体强化学习方法


[0001]本专利技术属于深度强化学习
,具体涉及一种基于群体对抗战术动态生成的多智能体强化学习方法。

技术介绍

[0002]群体对抗问题在现实生活中有着重要的研究意义,例如在无人设备(无人机和无人船)系统中,多个无人设备组成一个多智能体系统,该系统需要依赖一定的算法,完成环境中的探索,并最终做到能够在环境中导航行动,与可能存在的对手完成对抗任务。
[0003]对于无人设备组成的多智能体系统,主要有基于知识,即:固定规则的方法,和数据驱动的方法。前者依赖人为经验,需要利用经典的控制算法对多智能体系统的行动进行设计,需要专家知识的辅助,并且缺乏动态优化的可能。后者数据驱动的方法主要利用深度强化学习算法对多智能体系统进行控制。然而,现有的多智能体强化学习方法立足于多智能体间对于唯一的奖励信号的信用分配,即重点关注于多智能体系统在微观层次的具体动作的决策,缺乏如人类专家一样从宏观角度对整个对抗过程进行考虑,所有的决策依靠数据驱动,缺乏宏观层面长时间的战术指导。因此,不能很好地适用于复杂的群体对抗过程。
[0004]目前多数的多智能体深度强化学习方法,没有在战术层面对群体对抗过程进行考虑,仅仅在具体动作上进行决策和优化,因此,现有方法不能充分理解任务关键,系统化层次化地探索环境,进而指导智能体完成合作对抗任务。少数方法虽然利用通信或层次化建模信息辅助多智能体决策具体动作,但是其上层信息的持续时长依赖人为经验事先给定,并且不同智能体之间需要统一且不能更改。因此不能灵活的适应不同环境。
[0005]结合目前群体对抗的多智能体场景,现有技术主要面对的技术挑战有如下三点:
[0006]技术挑战1:复杂场景任务理解困难,现有方法从多智能体具体动作角度进行决策,因此不能充分理解场景任务,尤其是在困难的对抗场景和稀疏奖励的任务之下,奖励函数稀疏,智能体如果不能从宏观角度理解任务,将会局限于局部最优解。
[0007]技术挑战2:时空信息利用不充分,群体对抗场景中的时空信息是理解和完成任务的关键,但是如何根据已有探索回合中轨迹经验总结更多的信息,并利用其指导智能体进一步在群体对抗中决策则是一个技术挑战,现有方法不能从时空信息中得到更多信息,也不能利用时空信息进行更好地动作决策,因此可谓时空信息利用不充分。
[0008]技术挑战3:人为先验知识依赖强,利用宏观信息帮助智能体决策具体动作是一种更好完成任务的方式。但是现有研究中或者是需要人为定义宏观信息的具体内容,或者是需要依靠经验给定宏观信息的使用时长,因此需要人为先验知识的引入来辅助多智能体群体对抗,不能适用于不同场景,存在一定的局限性,对人为参与依赖性强。
[0009]基于现有技术存在如上述技术问题,本专利技术提供一种基于群体对抗战术动态生成的多智能体强化学习方法。

技术实现思路

[0010]本专利技术提出一种基于群体对抗战术动态生成的多智能体强化学习方法。
[0011]本专利技术采用以下技术方案:
[0012]本专利技术提供一种基于群体对抗战术动态生成的多智能体强化学习方法,包括:
[0013]步骤1,建立上层宏观动作控制器和下层微观操作控制器,以及上层宏观动作优化器和下层微观操作优化器,并分别初始化网络参数;
[0014]步骤2,智能体利用上层宏观动作控制器生成目标位置和宏观动作持续时间;
[0015]步骤3,n

>n+1,其中,n表示第n个智能体,对不同智能体分别执行步骤2,直到所有智能体均利用上层宏观动作控制器生成目标位置和宏观动作持续时间,即n=N,N为多智能体系统总个数;
[0016]步骤4,多智能体系统中的智能体利用下层微观操作控制器生成具体动作;
[0017]步骤5,n

>n+1,其中,n表示第n个智能体,对不同智能体分别执行步骤4,直到所有智能体均利用下层微观操作控制器生成具体动作,即n=N,N为智能体个数;
[0018]步骤6,智能体在环境中执行具体动作;
[0019]步骤7,智能体反复执行步骤2至步骤6,直到t=T,第i个回合结束,其中,T为一个回合的最大时间步数,t为智能体与环境交互的所处时间步数;
[0020]步骤8,智能体引入位置热力图并更新;
[0021]步骤9,智能体引入基于热力图的自模仿学习机制损失函数;
[0022]步骤10,智能体优化上层宏观动作控制器;
[0023]步骤11,n

>n+1,其中n表示第n个智能体,不同智能体分别执行步骤9至步骤10,直到所有智能体均优化上层宏观动作控制器,即n=N,N为智能体个数;
[0024]步骤12,智能体引入包含时空信息的辅助奖励;
[0025]步骤13,智能体优化下层微观操作控制器;
[0026]步骤14、反复执行步骤2至步骤13,直到智能体上层宏观动作控制器和下层微观操作控制器不再变化或达到最大回合数;
[0027]步骤15、智能体利用优化好的上层宏观动作控制器生成目标位置和宏观动作持续时间,指导下层微观操作控制器生成具体动作。
[0028]进一步地,步骤2中包括:
[0029]步骤21、智能体从环境中获取局部观测
[0030]步骤22、智能体将局部观测和先前上层宏观动作使用神经网络抽象表示;
[0031]步骤23、智能体利用循环神经网络生成隐含信息
[0032]步骤24、智能体利用神经网络通过隐含信息生成上层宏观动作包括持续时间和目标位置
[0033]步骤25、智能体对上层宏观动作进行选择,当目前正在采取的上层宏观动作持续时间大于1时,则t时刻仍然沿用先前上层宏观动作,并将上层宏观动作持续时间减一;当目前正在采取的上层宏观动作持续时间小于1时,则在t时刻使用上层宏观动作控制器新生成的上层宏观动作;如下式(1):
[0034][0035]进一步地,步骤4包括:
[0036]步骤41、智能体从环境中获取局部观测
[0037]步骤42、智能体从上层宏观动作控制器获取上层宏观动作
[0038]步骤43、智能体将局部观测上层宏观动作以及先前具体动作使用神经网络抽象表示;
[0039]步骤44、智能体利用循环神经网络生成隐含信息
[0040]步骤45、智能体利用神经网络通过隐含信息生成具体动作
[0041]进一步地,步骤6包括:
[0042]步骤61、智能体整合独立的具体动作,组合成为所有智能体得到联合动作
[0043]步骤62、智能体将动作输入环境,收集环境给出的信息;
[0044]步骤63、智能体从环境得到状态信息
[0045]步骤64、智能体将上层宏观动作和下层微观操作控制器的输出以及环境信息存储到经验池中。
[0046]进一步地,步骤8包括:
[0047]步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于群体对抗战术动态生成的多智能体强化学习方法,其特征在于,包括:步骤1,建立上层宏观动作控制器和下层微观操作控制器,以及上层宏观动作优化器和下层微观操作优化器,并分别初始化网络参数;步骤2,智能体利用上层宏观动作控制器生成目标位置和宏观动作持续时间;步骤3,n

>n+1,其中n表示第n个智能体,对不同智能体分别执行步骤2,直到所有智能体均利用上层宏观动作控制器生成目标位置和宏观动作持续时间,即n=N,N为多智能体系统总个数;步骤4,多智能体系统中的智能体利用下层微观操作控制器生成具体动作;步骤5,n

>n+1,其中n表示第n个智能体,不同智能体分别执行步骤4,直到所有智能体均利用下层微观操作控制器生成具体动作,即n=N,N为智能体个数;步骤6,智能体在环境中执行具体动作;步骤7,智能体反复执行步骤2至步骤6,直到t=T,第i个回合结束,其中,T为一个回合的最大时间步数,t为智能体与环境交互的所处时间步数;步骤8,智能体引入位置热力图并更新;步骤9,智能体引入基于热力图的自模仿学习机制损失函数;步骤10,智能体优化上层宏观动作控制器;步骤11,n

>n+1,其中n表示第n个智能体,不同智能体分别执行步骤9至步骤10,直到所有智能体均优化上层宏观动作控制器,即n=N,N为智能体个数;步骤12,智能体引入包含时空信息的辅助奖励;步骤13,智能体优化下层微观操作控制器;步骤14、反复执行步骤2至步骤13,直到智能体上层宏观动作控制器和下层微观操作控制器不再变化或达到最大回合数;步骤15、智能体利用优化好的上层宏观动作控制器生成目标位置和宏观动作持续时间,指导下层微观操作控制器生成具体动作。2.根据权利要求1所述的基于群体对抗战术动态生成的多智能体强化学习方法,其特征在于,步骤2中包括:步骤21、智能体从环境中获取局部观测步骤22、智能体将局部观测和先前上层宏观动作使用神经网络抽象表示;步骤23、智能体利用循环神经网络生成隐含信息步骤24、智能体利用神经网络通过隐含信息生成上层宏观动作包括持续时间和目标位置步骤25、智能体对上层宏观动作进行选择,当目前正在采取的上层宏观动作持续时间大于1时,则t时刻仍然沿用先前上层宏观动作,并将上层宏观动作持续时间减一;当目前正在采取的上层宏观动作持续时间小于1时,则在t时刻使用上层宏观动作控制器新生成的上层宏观动作;如下式(1):
3.根据权利要求1所述的基于群体对抗战术动态生成的多智能体强化学习方法,其特征在于,步骤4包括:步骤41、智能体从环境中获取局部观测步骤42、智能体从上层宏观动作控制器获取上层宏观动作步骤43、智能体将局部观测上层宏观动作以及先前具体动作使用神经网络抽象表示;步骤44、智能体利用循环神经网络生成隐含信息步骤45、智能体利用神经网络通过隐含信息生成具体动作4.据权利要求1所述的基于群体对抗战术动态生成的多智能体强化学习方法,其特征在于,步骤6包括:步骤61、智能体整合独立的具体动作,组合成为所有智能体得到联合动作步骤62、智能体将动作输入环境,收集环境给出的信息;步骤63、智能体从环境得到状态信息步骤64、智能体将上层宏观动作和下层微观操作控制器的输出以及环境信息存储到经验池中。5.根据权利要求2所述的基于群体对抗战术动态生成的多智能体强化学习方法,其特征在于,步骤8包括:步骤81、...

【专利技术属性】
技术研发人员:张翰澄李国政刘驰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1