一种用于连续空间兵棋推演的多智能体决策方法技术

技术编号:31091254 阅读:21 留言:0更新日期:2021-12-01 12:54
本发明专利技术公开一种用于连续空间兵棋推演的多智能体决策方法,包括以下步骤:构建连续空间兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;构建经验重访数据集;多个智能体进行本地观测;基于CNN提取推演多智能体的多实体特征;多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;利用训练完成的多智能体进行对战决策;该发明专利技术中基于CNN的多实体特征提取方法收敛速度超过了基于全连接网络的特征提取方法;基于探索奖赏和竞争奖赏相结合的课程学习奖赏方法,克服了稀疏奖赏对动作指导不足、收敛慢的问题,使得多智能体的决策效率更高,决策方案更贴合对战实际。战实际。

【技术实现步骤摘要】
一种用于连续空间兵棋推演的多智能体决策方法


[0001]本专利技术属于智能决策领域,具体涉及一种用于连续空间兵棋推演的多智能体决策方法。

技术介绍

[0002]在早期的兵棋推演领域中,多采用网格化的离散数据特征对当前的局势进行判断。但随着技术的进步,越来越多的连续化状态空间的兵棋推演平台被推出。这类平台相较于之前的平面化兵棋推演平台,将整个推演环境从二维拓展到了空间三维领域,对推演单元的状态描述从离散的网格发展到连续的三维空间,推演更加真实。兵棋推演平台的发展,相应的也带来了学习训练的难度,包含状态空间爆炸,动作连续、长时奖励的影响,多智能体的合作与对抗等。在这类平台中,基于全连接(Full Connect,FC)网络的特征提取方式处理上述问题时,收敛较慢。同时仅使用稀疏的竞争奖励无法对智能体进行有效的训练。

技术实现思路

[0003]本专利技术的目的是,提供一种用于连续空间兵棋推演的多智能体决策方法,该方法采用基于卷积神经网络(CNN)的特征提取方法,优于基于全连接(Full Connect,FC)的特征提取方法,收敛速度更快;该方法利用探索奖赏和竞争奖赏相结合的课程学习奖赏塑造Q学习算法,收敛速度更快,对智能体动作的指导性更强,使得多智能体在连续空间兵棋推演中的决策效率更高,决策方案更贴合对战实际。。
[0004]本专利技术采用值分解网络的思想,分别输出每个智能体的动作。在智能体的输入端,通过通信的方式,将各个智能体的观测进行融合,同时多智能体的本地观测也作为一部分输入。在训练阶段,将包含了联合动作奖赏的竞争奖赏传给智能体,还将单个智能体的私有探索奖赏同样进行回传,保证了多智能体对基本动作的学习。
[0005]本专利技术的技术方案是:一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:
[0006]步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;
[0007]步骤2,构建经验重访数据集,所述的经验重访数据集D
t
={e1,e2,...,e
t
}存储了多智能体在每一个时间步的经验e
t
=(s
t
,a
t
,r
t
,s
t+1
),包含当前的状态s
t
,采取的动作a
t
,当前转移获得的奖赏r
t
以及下一个时间步的状态s
t+1
;构建目标函数,所述目标函数为:
[0008][0009]其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;
[0010]步骤3,多个智能体进行本地观测;
[0011]步骤4,基于CNN提取推演多智能体的多实体特征;
[0012]步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;
[0013]步骤6,利用训练完成的多智能体进行对战决策;
[0014]所述步骤5中,所述课程学习奖赏是探索奖赏和竞争奖赏相结合的课程学习奖赏方法;所述探索奖赏是指在训练的起始阶段,多智能体学习基本的动作使用的密集私有奖赏,探索奖赏随着仿真训练的推进逐渐趋向于零;所述竞争奖赏是指稀疏全局奖赏,是仿真结果的胜负奖赏。所有的智能体的训练都以最大化全局奖赏为目标。
[0015]作为上述技术方案的进一步改进:
[0016]更进一步的,所述步骤1中构建连续空间的兵棋推演场景,即将连续空间兵棋推演场景形式化的定义为分布式局部观测MDP过程,具体表示为如下七元组(I,S,{A
i
},{Z
i
},T,R,O);其中,I表示有限的智能体的集合;S表示状态集;{A
i
}表示智能体i的动作集;{Z
i
}表示智能体i的观测集;T表示所有智能体的联合状态T(s'|s,{a1,...,a
n
})转移,s'∈S,s∈S,a1,...,a
n
∈{A
i
};R表示全局动作奖赏;O表示单个智能体的观测模型,环境状态S下,单个智能体的观测状态函数为O(s,i)=o
i

[0017]更进一步的,所述步骤4中基于CNN提取推演多智能体的多实体特征的方法为:用一个1
×
n的横向卷积核,对单实体的信息压缩成为一个值,通过输出多个通道,将实体信息压缩为多个值;之后通过m
×
1的纵向卷积核对多个实体的信息进行融合压缩。
[0018]更进一步的,所述步骤5中探索奖赏和竞争奖赏相结合的课程学习奖赏方法通过线性退火因子μ来实现;在仿真时刻t,获得的探索奖赏为r
texploration
,竞争奖赏为r
tcooperation
,该仿真片段的总步长为T,T即时刻,表示该次仿真结束,获得胜负结果,则获得的奖赏值为:
[0019]r
t
=μ
t
r
texploration
+(1

μ
t
)r
tcooperation
;μ
t
:1

0,t:0

T
[0020]线性退火因子μ
t
随着仿真时间推进不断降低,逐渐趋近于零。
[0021]更进一步的,该专利技术采用值分解网络的思想,分别输出每个智能体的动作;在多智能体的输入端,通过通信的方式,将各个智能体的观测进行融合,同时各个智能体的本地观测作为一部分输入。
附图说明
[0022]图1为本专利技术方法的整体流程图;
[0023]图2为本专利技术中基于值分解网络的训练图;
[0024]图3为本专利技术中单智能体网络架构;
[0025]图4为实施例中基于CNN和FC的特征提取方法对内置规则1的对战结果对比;
[0026]图5为实施例中基于CNN和FC的特征提取方法对内置规则2的对战结果对比;
[0027]图6为实施例中基于课程学习奖赏的Q学习和基于稀疏奖赏的VDN、QMIX分别对内置规则1的对战结果对比;
[0028]图7为实施例中基于课程学习奖赏的Q学习和基于稀疏奖赏的VDN、QMIX分别对内置规则2的对战结果对比;
[0029]图8为实施例中基于课程学习奖赏的Q学习、VDN和QMIX分别对内置规则1的对战结果对比;
[0030]图9为实施例中基于课程学习奖赏的Q学习、VDN和QMIX分别对内置规则2的对战结果对比。
具体实施方式
[0031]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;步骤2,构建经验重访数据集,所述的经验重访数据集D
t
={e1,e2,...,e
t
}存储了多智能体在每一个时间步的经验e
t
=(s
t
,a
t
,r
t
,s
t+1
),包含当前的状态s
t
,采取的动作a
t
,当前步转移获得的奖赏r
t
以及下一个时间步的状态s
t+1
;构建目标函数,所述目标函数为:其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;步骤3,多个智能体进行本地观测;步骤4,基于CNN提取推演多智能体的多实体特征;步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;步骤6,利用训练完成的多智能体进行对战决策;所述步骤5中,所述课程学习奖赏是探索奖赏和竞争奖赏相结合的课程学习奖赏方法;所述探索奖赏是指在训练的起始阶段,多智能体学习基本的动作使用的密集私有奖赏,探索奖赏随着仿真训练的推进逐渐趋向于零;所述竞争奖赏是指稀疏全局奖赏,是仿真结果的胜负奖赏。2.根据权利要求步骤1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤1中构建连续空间的兵棋推演场景,即将连续空间兵棋推演场景形式化的定义为分布式局部观测MDP过程,具体表示为如下七元组(I,S,{A
i

【专利技术属性】
技术研发人员:黄魁华程光权黄金才成清付阳辉黄亭飞梁星星
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1