一种基于强化学习的空域协同控制方法技术

技术编号:32516829 阅读:37 留言:0更新日期:2022-03-02 11:12
本发明专利技术提供了一种基于强化学习的空域协同控制方法,根据人民航空出行需求以及现有航路网规划的实际状况,基于地球网格剖分模型对全球空域进行数字化建模;根据数学模型描述的空域网格在空间离散性特点,建立网格状态集合以及对飞行器控制动作集合,然后将两种集合关联并建立基于网格的控制动作集;设计空域协同控制算法,得到基于强化学习的飞行器空域协同控制算法;最后对同一空域内的多架飞行器使用空域协同控制算法、并利用网格控制动作集得出网格指引动作,使每架飞行器绕开可能存在飞行冲突的网格、实现多飞行器飞行轨迹的冲突解脱,提高飞行安全系数,满足未来空域日趋增长的容量要求。的容量要求。的容量要求。

【技术实现步骤摘要】
一种基于强化学习的空域协同控制方法


[0001]本专利技术涉及一种空域协同控制方法,特别是一种基于强化学习的空域协同控制方法。

技术介绍

[0002]空域作为我国重要战略资源之一,关乎我国国防、经济、民生多方面发展,作为军民航共同的国家基础性资源,如何充分发挥好空域资源的使用效率,解决好空域资源的利用问题,是军民深度融合的典型应用,对于保证国家空防安全、发挥民用航空运输潜力具有重要的战略意义与经济价值。
[0003]随着信息化时代以及民航事业的快速发展,当前航空器在某些热点空域越来越密集,传统的点、线、面二维几何表征方式和以人为主的空域静态管控模式已无法满足上万个航空器在有限空域同时运行的管控需求,针对多类型航空器不同的空域使用需求,需要研究面向不同任务要求和不同约束环境下的空域协同管控技术,围绕航空器特征参数和飞行任务,构建基于统一数学描述与计算模型,提出空域多飞行器协同管控算法,解决多机协同用空场景下的空域协同解耦控制问题,提升空域规划效率,保障空域使用安全。因此,需要考虑将人工智能技术应用于空中交通管理系统领域,将空域剖分形成立体空间区块,并利用飞行器在控制过程中高效地对众多航空器提供高可靠性的决策,以促进空域交通安全,保障空域畅通,提高空域管控效率,消解空域冲突。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于强化学习的空域协同控制方法。
[0005]本专利技术提供了一种基于强化学习的空域协同控制方法,包括如下步骤:/>[0006]步骤1,将几何全球空域表述为一系列剖分网格构成的空域网格表征系统,建立空域网格数字模型;
[0007]步骤2,依据空域网格数字模型中的空域网格在空间上的离散性特点,建立基于网格的控制动作集,即网格控制动作集;
[0008]步骤3,设计空域协同控制算法,通过利用强化学习算法选择网格控制动作集得到指引动作,同时对空域中的飞行器进行飞行路径指引管控。
[0009]本专利技术中,步骤1包括:
[0010]步骤1

1,将几何全球空域按照剖分网格原理进行划分,形成网格化的空域并进行数学描述,将基本空域概念抽象成一个数学模型,即空域网格数字模型;
[0011]步骤1

2,将地球表面空间的经度和纬度方向,进行正轴圆柱等距投影,同时将地球的球面投影长宽比例设定为1:1,形成经纬间隔相等的正方形平面,并对经纬投影平面按照长宽各八份的六十四等分逐层进行剖分,形成在各不同层级都可以相互包含且不存在缝隙的经纬投影平面网格系统;
[0012]步骤1

3,将高度空间按照7个等级逐层进行等分剖分,在经纬平面进行第1层级的剖分时,高度方向不剖分,即第1层级高度不剖分;在经纬平面进行第2层级的剖分时,高度方向进行八等分剖分形成第2层级高度网格,继续对下一级进行高度方向剖分,最终形成高度网格系统;
[0013]步骤1

4,空域网格数字模型由步骤1

2中所述经纬平面网格系统与步骤1

3中的高度网格系统相结合而构成,将空域进行离散化表示;
[0014]步骤1

5、在空域网格数字模型中,定义一个网格g∈G(V)为某空域中的一个网格,其具备以下属性参数:网格唯一编码N
g
;起始点经纬度和高度坐标网格的剖分所属层级r;网格分别在经度、纬度和高度三个维度上的空间跨度:Δθ、和Δh。
[0015]本专利技术中,步骤2包括:
[0016]步骤2

1,基于空域网格数字模型中的网格,设计针对飞行器的网格控制动作集,将管控的主体由航空器变为空域网格数字模型中的网格,由网格获取航空器信息并给飞行器提供控制动作,实现航向指引;
[0017]步骤2

2,飞行器在受网格指引飞行的状态下,任一时刻所受控制由两个网格的控制状态决定,分别是飞行器当前所在的网格即所在网格的控制状态和飞行器将要飞入的下一个相邻的网格即目标网格的控制状态;
[0018]步骤2

3,定义一架飞行器f∈F(V)在空域中受网格指引进行飞行,其具有以下飞行参数:飞行器唯一编号N
f
、飞行器当前所在的网格编码、飞行器当前的目标网格编码、飞行器当前经纬度及高度坐标和飞行器空速v
f

[0019]本专利技术中,步骤3包括:
[0020]步骤3

1,采用强化学习算法获得空域协同控制的算法,强化学习选取的训练模型包含四个要素:训练环境的状态S、飞行器采取的动作A、训练环境反馈给飞行器的奖励R和贪婪算法的探索率∈;
[0021]步骤3

2、训练环境的状态S由价值函数的近似表示方法得出,采用神经网络的方法获得价值函数的近似表示;
[0022]步骤3

3、空域网格对飞行器的指引,由强化学习算法利用空域网格控制动作集得到;
[0023]步骤3

4、基于强化学习的DQN算法构造飞行器训练模型,DQN的输入是训练环境的状态S对应的状态向量φ(s),输出是所有动作在该状态下的动作价值函数Q,使用经验回放将每次和环境交互得到的奖励与状态更新情况都保存起来,用于之后目标Q值的更新,DQN的算法输入还包含以下参数:算法迭代轮数T、训练环境状态的特征维度n、飞行器动作集A、贪婪算法的探索率∈、Q网络结构和批量梯度下降的样本数m。
[0024]本专利技术中,步骤1

2包括:
[0025]经纬投影平面网格系统的剖分层级最高为8级。
[0026]本专利技术中,步骤1

3包括:
[0027]高度网格系统的剖分层级最高为8级。
[0028]本专利技术中,步骤3

3包括:
[0029]步骤3
‑3‑
1,飞行器飞往目标网格之前,由强化学习算法根据当前所在网格的控制状态和周围网格的控制状态得出目标网格的信息;
[0030]步骤3
‑3‑
2,由强化学习算法根据当前网格的控制状态和目标网格的控制状态从网格的控制动作集中选定网格状态;
[0031]步骤3
‑3‑
3,根据网格控制动作集导出的状态获得飞行器实际飞行应采取的动作。
[0032]本专利技术中,步骤1

5包括:
[0033]网格唯一编码N
g
为网格的实际ID名,每个网格的唯一编码不会重复;
[0034]网格起始点经纬度和高度坐标在网格剖分过程中被记作计算网格其他几何参数的原点;
[0035]网格剖分所属层级r在网格剖分过程中被用来计算该网格的长宽高(即三维跨度);
[0036]网格经、纬和高度三个维度上空间跨度:Δθ、和Δh在网格剖分过程中被记作相本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的空域协同控制方法,其特征在于,包括如下步骤:步骤1,将几何全球空域表述为一系列剖分网格构成的空域网格表征系统,建立空域网格数字模型;步骤2,依据空域网格数字模型中的空域网格在空间上的离散性特点,建立基于网格的控制动作集,即网格控制动作集;步骤3,设计空域协同控制算法,通过利用强化学习算法选择网格控制动作集得到指引动作,同时对空域中的飞行器进行飞行路径指引管控。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1

1,将几何全球空域按照剖分网格原理进行划分,形成网格化的空域并进行数学描述,将基本空域概念抽象成一个数学模型,即空域网格数字模型;步骤1

2,将地球表面空间的经度和纬度方向,进行正轴圆柱等距投影,同时将地球的球面投影长宽比例设定为1:1,形成经纬间隔相等的正方形平面,并对经纬投影平面按照长宽各八份的六十四等分逐层进行剖分,形成在各不同层级都可以相互包含且不存在缝隙的经纬投影平面网格系统;步骤1

3,将高度空间按照7个等级逐层进行等分剖分,在经纬平面进行第1层级的剖分时,高度方向不剖分,即第1层级高度不剖分;在经纬平面进行第2层级的剖分时,高度方向进行八等分剖分形成第2层级高度网格,继续对下一级进行高度方向剖分,最终形成高度网格系统;步骤1

4,空域网格数字模型由步骤1

2中所述经纬平面网格系统与步骤1

3中的高度网格系统相结合而构成,将空域进行离散化表示;步骤1

5、在空域网格数字模型中,定义一个网格g∈G(V)为某空域中的一个网格,其具备以下属性参数:网格唯一编码N
g
;起始点经纬度和高度坐标网格的剖分所属层级r;网格分别在经度、纬度和高度三个维度上的空间跨度:Δθ、和Δh。3.根据权利要求2所述的方法,其特征在于,步骤2包括:步骤2

1,基于空域网格数字模型中的网格,设计针对飞行器的网格控制动作集,将管控的主体由航空器变为空域网格数字模型中的网格,由网格获取航空器信息并给飞行器提供控制动作,实现航向指引;步骤2

2,飞行器在受网格指引飞行的状态下,任一时刻所受控制由两个网格的控制状态决定,分别是飞行器当前所在的网格即所在网格的控制状态和飞行器将要飞入的下一个相邻的网格即目标网格的控制状态;步骤2

3,定义一架飞行器f∈F(V)在空域中受网格指引进行飞行,其具有以下飞行参数:飞行器唯一编号N
f
、飞行器当前所在的网格编码、飞行器当前的目标网格编码、飞行器当前经纬度及高度坐标和飞行器空速v
f
。4.根据权利要求3所述的方法,其特征在于,步骤3包括:步骤3

1,采用强化学习算法获得空域协同控制的算法,强化学习选取的训练模型包含四个要素:训练环境的状态S、飞行器采取的动作A、训练环境反馈给飞行器的奖励R和贪婪算法的探索率∈;步骤3

2、训练环境的状态S由价值函数的近似表示方法得出,采用神经网络的方法获
...

【专利技术属性】
技术研发人员:刘智奇杨毅南英谢如恒
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1