System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法技术_技高网
当前位置: 首页 > 专利查询>之江实验室专利>正文

基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法技术

技术编号:42960217 阅读:6 留言:0更新日期:2024-10-15 13:09
本发明专利技术公开了一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法,其设计了基于对抗生成式算法和深度强化学习算法共同组成的对抗技能嵌入学习框架,利用专家飞行数据由AI算法自动学习底层控制指令到宏机动技能的映射,并通过复用这些宏机动技能,显著降低下游空战任务的学习难度,大幅压缩强化学习算法的收敛时间,提升空战智能体的博弈性能,并赋予了空战智能体更高的灵活性和快速迁移能力,为空战智能体的实用化训练和部署探明了一条新技术路径。

【技术实现步骤摘要】

本专利技术属于高精度(带气动模型和飞控系统)战斗机飞行仿真领域,尤其涉及一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法


技术介绍

1、战斗机作为一种高度精密的机电系统,其底层控制指令(副翼、升降舵、方向舵、油门等)到特定飞行轨迹之间需要经过飞行控制系统(以下简称飞控系统)的复杂映射和转换,且存在飞机结构和飞行员承受能力的种种限制,因此人类飞行员需要经过漫长的训练才能驾驶战斗机完成诸如侦察、威慑和视距内或超视距空战等各类任务。

2、另一方面,受限于人类飞行员在经验技巧和反应速度等方面的局限性,在空战等激烈作战场景下,战斗机的机动能力往往无法得到充分发挥和利用,仍存在很大的制胜力提升空间。近十年来,人工智能(ai)技术获得爆发式增长,ai智能体已经接连在围棋对弈、大型视频游戏、数学运算、核聚变等离子体控制等各种领域取得显著超越人类水平的成绩,ai在军事领域的应用成为关注焦点。

3、ai空战智能体的潜在应用场景十分丰富。例如,在空战中接管战斗机底层机动,使人类飞行员集中精力用于高级决策;控制无人僚机与有人长机组成编队协同作战,负责侦察、引诱、保护等任务;控制无人机群完成密集编队、协同抵近、视距内外作战等任务。此外,基于空战仿真环境训练得到的ai智能体能够控制战斗机生成海量多样化飞行动作数据库,并用于视频生成大模型的训练和微调,从而有力支撑战场可视化复盘等延伸应用场景。

4、然而,由于战斗机飞控系统的高度复杂性,配备了飞控系统仿真的虚拟环境对算力资源消耗较大、计算速度较慢,难以实现深度强化学习技术所要求的大规模分布式交互采样;另一方面,由于战斗机飞行和空战任务本身的学习难度极高,算法需要首先学会起飞、降落、巡航等基本动作的控制,然后再逐步学会蛇形机动等高级机动动作,以上因素都导致算法收敛速度十分缓慢,并且最终性能往往不尽如人意。


技术实现思路

1、本专利技术的目的在于解决高精度(带气动模型和飞控系统)仿真环境中,空战智能体学习困难、收敛速度慢、性能不佳和迁移性差等问题,提出了一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法,以改善空战智能体的学习效率和对战性能,从而显著提升其实用价值。

2、根据本申请实施例的第一方面,提供一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法,包括:

3、获取专家示教数据集,其中所述专家示教数据集包括多种战斗机飞行机动动作的飞行轨迹;

4、根据所述专家示教数据集中的机动状态转移对,基于深度强化学习算法和广义优势估计算法进行低层策略的训练,其中所述低层策略用于根据宏机动技能及当前状态得到相应的底层控制指令;

5、针对下游任务目标,基于深度强化学习算法和广义优势估计算法进行高层策略的训练,其中所述高层策略用于根据当前状态得到相应的宏机动技能,高层策略训练过程中低层策略的参数保持冻结;

6、获取战斗机当前状态,基于训练后的高层策略和低层策略得到相应的底层控制指令,从而实现战斗机的飞行控制。

7、在一种可能的实现方式中,所述低层策略的目标为:

8、

9、其中dπ(s,s′)和分别表示低层策略π主导的状态迁移分布和专家示教数据集中的状态迁移分布,djs是jensen-shannon散度的算子,s为状态,(s,s′)为机动状态转移对,i(s,s′;z|π)表示低层策略π主导下习得的技能嵌入z与对应的机动状态转移之间的互信息,β为用于调节jensen-shannon散度和互信息之间的相对权重。

10、在一种可能的实现方式中,通过最小化所述jensen-shannon散度和最大化互信息实现所述低层策略的训练;

11、所述jensen-shannon散度的优化目标为:

12、

13、其中d(s,s′)为判别器,用于区分机动状态转移对(s,s′)来自专家示教数据集或者由低层策略主导产生;τ为权重系数,表示梯度计算;

14、通过最大化技能编码器q(z|s,s′)实现所述互信息i(s,s′;z|π)的最大化,优化目标为:

15、

16、在一种可能的实现方式中,采用神经网络表征所述低层策略神经网络的输入为状态s和技能嵌入z的拼接向量,输出为均值向量μπ(s,z),进而得到与底层控制指令对应的多维连续空间的高斯分布其中对角协方差矩阵∑π由一个可接收梯度的固定同维度向量构成;

17、低层策略的具体训练步骤如下:

18、1)从p(z)中采集一个长度为t的技能嵌入序列{z0,z1,...,zt-1};

19、2)基于低层策略π(at|st,zt)从空战仿真环境中采样一条等长的轨迹每一个时间步低层策略输入当前状态st和技能嵌入zt,输出动作at,并获得由判别器和技能编码器共同定义的回报函数

20、

21、3)重复步骤1)~2)以获取一批轨迹数据;

22、4)从该批轨迹数据中随机选取一个minibatch的状态转移对和对应技能嵌入(si,si′,zi),用于更新技能编码器q(z|s,s′);

23、5)从该批轨迹数据和专家示教数据集中各随机选取一个minibatch的状态转移对(si,si′),用于更新判别器d(s,s′);

24、6)基于该批轨迹数据,结合回报函数利用深度强化学习算法和广义优势估计算法更新低层策略π(a|s,z);

25、7)重复步骤1)-6)直到收敛或达到预设的最大训练步数。

26、在一种可能的实现方式中,以所述低层策略的输入中的宏机动技能嵌入z所在的分布空间p(z),作为高层策略ω(z|s)的动作空间,所述高层策略的动作在通过模长归一化后作为所述低层策略的输入。

27、在一种可能的实现方式中,高层策略优化目标可表示为以下公式:

28、

29、其中,表示基于高层策略从仿真环境中采集的轨迹,表示未进行模长归一化的高层策略输出,g表示下游任务目标。

30、根据本申请实施例的第二方面,提供一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制装置,包括:

31、数据集获取模块,用于获取专家示教数据集,其中所述专家示教数据集包括多种战斗机飞行机动动作的飞行轨迹;

32、低层策略训练模块,用于根据所述专家示教数据集中的机动状态转移对,基于深度强化学习算法和广义优势估计算法进行低层策略的训练,其中所述低层策略用于根据宏机动技能及当前状态得到相应的底层控制指令;

33、高层策略训练模块,针对下游任务目标,基于深度强化学习算法和广义优势估计算法进行高层策略的训练,其中所述高层策略用于根据当前状态和回报函数得到相应的宏机动技能,高层策略训练过程中低层策略梯度冻结;

34、指令生成模块,用于获取战斗机当前状态,基于训练后的高层策略和低层策略得到相应的底层控制指令,从而实现战斗机的飞行控制。...

【技术保护点】

1.一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述低层策略的优化目标为:

3.根据权利要求2所述的方法,其特征在于,通过最小化所述Jensen-Shannon散度和最大化互信息实现所述低层策略的训练;

4.根据权利要求1所述的方法,其特征在于,采用神经网络表征所述低层策略神经网络的输入为状态s和技能嵌入z的拼接向量,输出为均值向量μπ(s,z),进而得到与底层控制指令对应的多维连续空间的高斯分布其中对角协方差矩阵∑π由一个可接收梯度的固定同维度向量表示;

5.根据权利要求1所述的方法,其特征在于,以所述低层策略的输入中的宏机动技能嵌入z所在的分布空间p(z),作为高层策略ω(z|s)的动作空间,所述高层策略的动作在通过模长归一化后作为所述低层策略的输入。

6.根据权利要求1所述的方法,其特征在于,高层策略优化目标可表示为以下公式:

7.一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制装置,其特征在于,包括:

8.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1-6任一项所述的方法。

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述低层策略的优化目标为:

3.根据权利要求2所述的方法,其特征在于,通过最小化所述jensen-shannon散度和最大化互信息实现所述低层策略的训练;

4.根据权利要求1所述的方法,其特征在于,采用神经网络表征所述低层策略神经网络的输入为状态s和技能嵌入z的拼接向量,输出为均值向量μπ(s,z),进而得到与底层控制指令对应的多维连续空间的高斯分布其中对角协方差矩阵∑π由一个可接收梯度的固定同维度向量表示;

5.根据权利要求1所述的方法,其特征在于,以所述低层策略的输入中的宏...

【专利技术属性】
技术研发人员:魏宁耿炜邹常青余昕遥赵志峰
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1