一种面向无人系统模拟对抗的智能体训练方法及系统技术方案

技术编号:26880352 阅读:19 留言:0更新日期:2020-12-29 14:42
本发明专利技术涉及一种面向无人系统模拟对抗的智能体训练方法及系统,方法包括:获取暴雪公司发布的游戏录像,并进行预处理;使用PYSC2将预处理后的数据解析到数据库中存储;获取预设数量的动作字段和状态字段并对应构建特征向量;将动作特征向量和状态特征向量构成(A,S)二元组,并进行归一化,得到第三数据集;根据第三数据集得到第一训练集和第二训练集;利用第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;利用第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;利用第二智能体训练第一智能体,得到第三智能体。本发明专利技术训练出的第三智能体能够模拟人类指挥官指挥无人系统的模拟对抗。

An agent training method and system for unmanned system simulation confrontation

【技术实现步骤摘要】
一种面向无人系统模拟对抗的智能体训练方法及系统
本专利技术涉及智能体训练领域,特别是涉及一种面向无人系统模拟对抗的智能体训练方法及系统。
技术介绍
美国国防部高级研究计划局(DARPA),计划在5年内推出了其革命性的“Gremlin”(小精灵)无人机系统,项目旨在实现其先进的无人机群集系统和自主战斗管理能力,战斗无人机能在飞行母舰上进行“空中发射”以及“空中回收”。该系统与暴雪游戏《星际争霸》中的神族航母相似,如果日后真的能蜕变成游戏中的航母,那么这样一个可在空中移动的巨型“蜂巢”,只怕将成为人类史上的又一大超级武器。目前对于该系统,美军已经在“LockheedC-130”(洛克希德C-130“大力神”)运输机上进行实验,每个可部署的“Gremlin”无人驾驶飞机大小与小型巡航导弹相似,可以通过擒纵钩发射和回收。DARPA表示,目前单个C-130可以同时运行四架无人机。一旦该系统实现,这些无人机可以协同工作,编队飞行,同时使用网络数据链路共享信息,完成空中协调情报、监视和侦查(ISR)任务。而且由于它们是空中发射的,一群“Gremlins”还可以在定点打击前(配合F-35战斗机)消除战争迷雾,进一步提升指挥官对战场的把控,同时也可以支援深入敌后的特种作战小队。在进行低成本研发量产后,“Gremlins”可被大量部署,但同时空中恢复技术也意味着它们能被通过击败母舰而坠毁,就像击毁了《星际争霸》中的神族航母,它周围所施放的拦截机也会随之消失。在未来智能化时代,军事战争中将大量采用上述此类的无人系统机器人,战场中的数据特点海量异构,这对于指挥控制无人系统的精确性、时效性、有效性提出了很高的要求,指挥控制智能化为大势所趋。一个智能的大脑对于打赢战争的重要性是不言而喻的,智能指挥官的贡献度将超越任何一型智能武器,2018年6月的一份最新报道中提到,目前美军作战训练数据库中已有的数据并不支持机器学习和其他人工智能算法。基于此,我们计划用《星级争霸》游戏训练智能指挥官,成功后会尝试迁移到现实中执行类似作战指控任务,对现代军事行动提出新型战术。
技术实现思路
本专利技术的目的是提供一种面向无人系统模拟对抗的智能体训练方法及系统,训练出的智能体能够充分模拟无人系统作战。为实现上述目的,本专利技术提供了如下方案:一种面向无人系统模拟对抗的智能体训练方法,包括:获取暴雪公司发布的游戏录像,记为第一数据集;对所述第一数据集进行预处理,得到第二数据集;使用PYSC2将所述第二数据集解析到数据库中存储;从所述数据库中获取预设数量的动作字段和状态字段;根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;对所述(A,S)二元组进行归一化,得到第三数据集;根据所述第三数据集得到第一训练集;对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。可选的,采用公式对所述(A,S)二元组的每一列进行归一化,其中,yi为归一化之后的值,xi为所述二元组中任意一个值,min(x)为xi所在列的最小值,max(x)为xi所在列的最大值。可选的,对所述第三数据集按照6:2:2的比例划分成第一训练集、验证集和测试集。一种面向无人系统模拟对抗的智能体训练系统,包括:第一数据获取模块,用于获取暴雪公司发布的游戏录像,记为第一数据集;预处理模块,用于对所述第一数据集进行预处理,得到第二数据集;解析模块,用于使用PYSC2将所述第二数据集解析到数据库中存储;第二数据获取模块,用于从所述数据库中获取预设数量的动作字段和状态字段;特征向量构建模块,用于根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;特征向量合成模块,用于将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;归一化模块,用于对所述(A,S)二元组进行归一化,得到第三数据集;第一训练集构建模块,用于根据所述第三数据集得到第一训练集;第二训练集构建模块,用于对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;第一训练模块,用于利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;第二训练模块,用于利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;第三训练模块,用于采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。可选的,所述归一化模块采用公式对所述(A,S)二元组的每一列进行归一化,其中,yi为归一化之后的值,xi为所述二元组中任意一个值,min(x)为xi所在列的最小值,max(x)为xi所在列的最大值。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术公开了一种面向无人系统模拟对抗的智能体训练方法及系统,利用《星级争霸》游戏数据对多层全卷积LSTM网络进行训练,将训练后的神经网络作为智能体,该智能体能够充分模拟无人系统作战。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种面向无人系统模拟对抗的智能体训练方法流程图;图2为本专利技术一种面向无人系统模拟对抗的智能体训练系统模块图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种面向无人系统模拟对抗的智能体训练方法及系统,训练出的智能体能够充分模拟无人系统作战。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术的基本参数设置包括:系统环境CPU:Intel(R)Xeon(R)Silver4110CPU@2.10GHz;操作系统:Ubuntu16.04;显卡:GeForce2080TI;内存:32G;开发框架:PYSC本文档来自技高网
...

【技术保护点】
1.一种面向无人系统模拟对抗的智能体训练方法,其特征在于,包括:/n获取暴雪公司发布的游戏录像,记为第一数据集;/n对所述第一数据集进行预处理,得到第二数据集;/n使用PYSC2将所述第二数据集解析到数据库中存储;/n从所述数据库获取预设数量的动作字段和状态字段;/n根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;/n将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;/n对所述(A,S)二元组进行归一化,得到第三数据集;/n根据所述第三数据集得到第一训练集;/n对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;/n利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;/n利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;/n采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。/n

【技术特征摘要】
1.一种面向无人系统模拟对抗的智能体训练方法,其特征在于,包括:
获取暴雪公司发布的游戏录像,记为第一数据集;
对所述第一数据集进行预处理,得到第二数据集;
使用PYSC2将所述第二数据集解析到数据库中存储;
从所述数据库获取预设数量的动作字段和状态字段;
根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
对所述(A,S)二元组进行归一化,得到第三数据集;
根据所述第三数据集得到第一训练集;
对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。


2.根据权利要求1所述的面向无人系统模拟对抗的智能体训练方法,其特征在于,采用公式对所述(A,S)二元组的每一列进行归一化,其中,yi为归一化之后的值,xi为所述二元组中任意一个值,min(x)为xi所在列的最小值,max(x)为xi所在列的最大值。


3.根据权利要求1所述的面向无人系统模拟对抗的智能体训练方法,其特征在于,对所述第三数据集按照6:2:2的比例划分成第一训练集、验证集和测试集。


4.一种面向无人系统模拟对抗的...

【专利技术属性】
技术研发人员:王滨杨军原鑫杨菲聂芸
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1