System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,具体涉及一种基于逆强化学习算法的即时战略推演场景仿真方法。
技术介绍
1、人工智能技术作用于军事的变革正在加剧,未来战争信息化、智能化、无人化的特点日益显著。并且,由于战争逐步向全域作战方向发展演变,作战研究中体系对抗的重要性日益凸显,体系对抗仿真也由武器装备仿真向指挥对抗作战筹划转变。未来战争(例如,无人机蜂群作战、空基导弹作战等)的体系对抗涉及面更广、强度更高、时间更长、手段更丰富,体系对抗仿真体现出强烈的对抗性、竞争性和批判性。因此,设计支撑新型体系对抗的架构、解决对抗仿真的动态需求、对复杂指控系统进行建模和仿真,已成为当前系统建设中亟待解决的问题。具体而言包括,设计具备智能化作战决策能力和指挥作战决策能力的系统,在高强度作战对抗环境下实现作战行动规则、指挥决策的学习优化,提供对抗条件下的不确定性问题建模、智能化方案分析、博弈性对抗仿真等功能,达到总结作战经验、探索作战规律和启发作战思想的目的。
2、强化学习作为机器学习和人工智能的一种学习方式,其主要思想是关注智能体如何在环境中采取不同的行动,最大限度地提高累计奖励。2013年mnih v等人将深度学习中的卷积神经网络引入强化学习中,提出了dqn算法,开启深度强化学习的研究;2016年围棋世纪大战中alpha go因战胜世界顶级选手李世石而声名鹊起;2019年deepmind将深度强化学习方法,应用于公认为最具挑战性的即时战略游戏星际争霸,其结果以封面文章的形式发表于《nature》;2020年腾讯ai lab围绕王者荣耀游戏,探索了在
3、现有方法无法对复杂体系对抗策略空间建模,面对复杂的体系对抗环境,智能体在自学习的情况下表现产生不稳定现象,采用现有方案的智能体在自学习情况下会出现循环对弈,导致无法有效生成仿人类智慧的策略。多智能体对抗学习过程缓慢,效果不明显。传统模仿学习作为常用训练方式,利用人类在博弈对抗过程中获得的训练数据,仍存在专家数据利用率不高、智能体学习推理性不足的问题。
4、随着现代战争越发呈现快节奏、高复杂度的特性,专家系统与规则系统已经较难适应态势快速更迭的战场,传统博弈对抗模型无法对复杂战争决策活动进行建模。如上述的规则系统、专家系统,本质上为基于专家领域知识建模,无法模拟人类专家决策思维过程,无法准确模拟复杂系统的演进。因此快速、自主的决策迫切需要智能博弈对抗技术延伸到军事领域,提升信息系统分析决策能力,从而适应未来战场环境。基于监督学习的机器学习方法训练模型则存在样本数据不足,模型可解释性弱的缺点,样本空间无法覆盖决策空间,存在泛化能力弱,适用性不强的缺陷。
5、综上,采用现有技术存在体系对抗指挥决策不确定性效果难以预测和评估的问题,需要进行改进。
技术实现思路
1、本专利技术提供一种基于逆强化学习算法的即时战略推演场景仿真方法,目的是解决现有技术体系对抗指挥决策不确定性效果难以预测和评估的问题。
2、本专利技术的目的是通过如下技术方案实现的:
3、一种基于逆强化学习算法的即时战略推演场景仿真方法,包括如下步骤:
4、s1、构建适用于即时战略推演场景的仿真模型
5、所述即时战略推演场景仿真方法构建的仿真模型包括环境策略空间描述研究模块、多智能体对抗的优先级虚拟自学习策略方法模块和推理性模仿学习模块;
6、环境策略空间描述研究模块用于探究即时战略推演场景中动作空间和环境状态的描述,构建四元组表示;
7、多智能体对抗的优先级虚拟自学习策略方法模块用于解决面对复杂的体系对抗环境,采用为智能体的对手创造历史经验池进行对抗学习的方式,生成仿人类智慧的策略;
8、推理性模仿学习模块采用推理型模仿学习方法;
9、s2、构建多智能体对抗的优先级虚拟自学习策略方法
10、以历史智能体的组合作为集合,为智能体的对手创造历史经验池;历史经验池中不同种类的智能体互为竞争对手,挖掘集合中智能体的缺陷,从现有的智能体中学习到新的分支;经验池中智能体数目逐渐增加,新的智能体再从历史经验池中按照概率抽取对手竞争学习;
11、s3、构建逆向强化学习实现推理性模仿学习
12、采取逆向强化学习直接观察专家行为设置奖励值,利用行业背景优势收集专家数据,将专家与环境相互作用的数据与网络训练相结合;
13、首先采取监督学习的方式预训练,提供强化学习的初始化参数;
14、其次用收集的专家数据行为,约束智能体的探索性行为,缩小策略空间,加速策略形成;
15、利用专家数据的行为构造新型奖励,以专家行为奖励值最大为前提,智能体训练过程中模型输出奖励值与新型奖励的奖励值之差小于预设值。
16、作为优选方案,构建适用于即时战略推演场景的仿真模型步骤中,环境策略空间描述研究模块对博弈性体系对抗中的状态及策略空间描述采用如下方式:
17、仿真平台抽象为建模环境状态与策略空间;
18、仿真平台输入到算法的环境状态抽象为三种类型信息:地图图像信息、环境信息和战斗方矢量信息;地图图像信息为现有战场的缩略图,将地图中的信息以矩阵的形式输入到神经网络中,表示当前状态全局地图的信息;环境信息为当前游戏的开始时间、观察到的对方实体的残损程度、位置等信息形成环境到神经网络输入的n个长度为k的向量;我方矢量信息为当前状态下我方不同战斗单元的位置、数量和分组信息等;
19、基于体系对抗的策略空间描述,采用四元素构造策略信息描述,分别为策略类型、选中单元、策略目标和执行动作序列;策略类型表示下次输出动作的类型;选中单元为执行动作的单元;策略目标表示选择执行动作的目的地和对象;执行动作序列表示是否马上进行该动作。
20、作为优选方案,构建多智能体对抗的优先级虚拟自学习策略方法步骤中,以a3c的强化学习方法作为主体,采用虚拟自学习的方式建立智能体集合,每个智能体获得的累计奖励值为:
21、
22、其中,s表示状态集合;
23、ai表示智能体i的动作集合;
24、πi表示智能体i的策略;
25、在训练过程中,智能体的训练目标为打败历史经验池中所有的策略,用如下表达式表示:
26、
27、采用基于优先级的方式选取对手,打败次数越多的对手将被赋予更高的优先级,有更高的权重被选取到,优先级权重定义如下:
28、
29、其中,f:[0,1]→[0,∞);
30、采取下述方法为智能体选择集合中最强的对手:
31、f(x)=(1-x)p
32、其中,p∈r+。
33、作为优选方案,构建逆向强化学习实现推理性模仿学习步骤中,采取监督学习的方式预训练,提供强化学习的初始化参数,提高神经网络训练过程的有效性及速度;用收集的专本文档来自技高网...
【技术保护点】
1.一种基于逆强化学习算法的即时战略推演场景仿真方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的即时战略推演场景仿真方法,其特征在于,所述构建适用于即时战略推演场景的仿真模型步骤中,环境策略空间描述研究模块对博弈性体系对抗中的状态及策略空间描述采用如下方式:
3.根据权利要求1所述的即时战略推演场景仿真方法,其特征在于,所述构建多智能体对抗的优先级虚拟自学习策略方法步骤中,以A3C的强化学习方法作为主体,采用虚拟自学习的方式建立智能体集合,每个智能体获得的累计奖励值为:
4.根据权利要求1所述的即时战略推演场景仿真方法,其特征在于,所述构建逆向强化学习实现推理性模仿学习步骤中,采取监督学习的方式预训练,提供强化学习的初始化参数,提高神经网络训练过程的有效性及速度;用收集的专家数据行为,约束智能体的探索性行为,缩小策略空间,加速策略形成,训练过程用如下公式表示:
【技术特征摘要】
1.一种基于逆强化学习算法的即时战略推演场景仿真方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的即时战略推演场景仿真方法,其特征在于,所述构建适用于即时战略推演场景的仿真模型步骤中,环境策略空间描述研究模块对博弈性体系对抗中的状态及策略空间描述采用如下方式:
3.根据权利要求1所述的即时战略推演场景仿真方法,其特征在于,所述构建多智能体对抗的优先级虚拟自学习策略方法步骤中...
【专利技术属性】
技术研发人员:王晓天,薛晗庆,薛凯,齐征,梁瑞卿,王晨,李磊,尹琼,杨飞,底亚峰,魏珂,谭佳琳,于喜红,赵爱红,
申请(专利权)人:北京临近空间飞行器系统工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。