基于可拓展多智能体强化学习的机场滑行智能调度方法技术

技术编号：41215835 阅读：3 留言：0更新日期：2024-05-09 23:37

本发明专利技术提供了一种基于可扩展多智能体强化学习的机场滑行智能调度方法，包括：接收机场场面上每架飞机的状态信息；根据得到的所有飞机的状态信息，对状态信息进行填充与基于自注意力机制的特征提取处理，并将得到的状态特征信息传入分布式策略；分布式策略根据得到的飞机状态特征信息为相应的飞机选择动作，场面上的飞机根据分布式策略生成的动作进行滑行；并使用多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练，更新场面上的每一架飞机的分布式策略；执行上述步骤重复上述学习过程，最终所有的飞机都能够在复杂多变的场面航班计划下，避免滑行冲突并滑行至指定目的地。本发明专利技术解决了现有机场调度方法泛化性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于空中交通管理领域，具体涉及一种基于可扩展多智能体强化学习的机场滑行智能调度方法。

技术介绍

1、随着空中交通运输量的增长，民航机场的运行管理面临着越来越大的压力。机场基础设施扩建的周期远远跟不上航空运输需求的增长，所以当务之急是提高整个机场系统的运作效率，以相对经济的方式解决机场资源的冲突。

2、传统调度方式依靠人工指派滑行路径，由于塔台管制员高强度工作负荷，在监视指挥航空器运行的同时，还需规划路径，受限于场面的复杂环境以及人员因素等，存在安全风险高、效率低下等不足。现有技术“一种基于多智能体强化学习的机场滑行智能调度方法与流程”设计了机场滑行调度环境，并在此实验平台的基础上完成了多智能体强化学习的机场滑行智能调度方法，但其使用的多智能体强化学习算法，只能处理给定滑行计划的情况和固定航班数量的情况，对于有因突发情况而导致的航班计划变动，其表现效果不理想，不能很好地应用在不确定环境下的大型机场场面调度中。

技术实现思路

1、专利技术目的：本专利技术针对现有机场调度方法泛化性差的问题，提供一种基于可扩展多智能体强化学习的机场滑行智能调度方法。

2、技术方案：一种基于可扩展多智能体强化学习的机场滑行智能调度方法，包含以下步骤：

3、步骤1：接收机场场面上每架飞机的状态信息，所述状态信息包括所述飞机当前时刻的第一位置信息、上一时刻的第二位置信息和滑行终点第三位置信息；

4、步骤2：根据得到的所有飞机的状态信息，对状态信息进行填充

5、步骤3：分布式策略根据得到的飞机状态特征信息为相应的飞机选择动作，场面上的飞机根据分布式策略生成的动作进行滑行；并使用基于多智能体近端策略优化(multi-agent proximal policy optimization，mappo)的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练，更新场面上的每一架飞机的分布式策略；

6、步骤4：执行步骤1至步骤3重复上述学习过程，最终所有的飞机都能够在避免滑行冲突的前提下，滑行到指定的目的地。

7、进一步的，所述步骤1中包括如下步骤：

8、记机场场面上共有n架飞机，n≥2，且n在不同的学习回合值都不一样，第i架飞机记为ei，i＝1，....，n，第i架飞机ei的状态信息包括t时刻的第一位置信息xi(t)、在上一时刻t-1的第二位置信息xi(t-1)和指定的滑行终点第三位置信息第i架飞机ei的动作设计为一个元组对于每一个时隙t，第i架飞机ei沿着的方向以速度vi(t)进行移动，每架飞机能观测到的数据zi，t包括场面上所有飞机在时隙t下的位置，自己在上一时刻和指定的滑行终点位置。

9、进一步的，所述步骤2中包含如下步骤：

10、步骤2-1，将得到的所有飞机的状态信息进行填充处理：给定航班计划表的最大航班数量nmax，针对不同学习回合的航班数目n，n≤nmax，补充形状为的填充矩阵，其中为每架飞机能观测到的数据zi，t的维度；

11、步骤2-2，将输入的全局状态信息st分别与参数矩阵wq，wk，wv相乘，得到查询矩阵q＝stwq，索引矩阵k＝stwk和值矩阵v＝stwv；其中参数矩阵wq，wk，wv由训练得到；

12、步骤2-3，对q，k，v做缩放点积注意力(scaled dot-product attention)；计算注意力分布α＝softmax(score(q，k))，其中softmax函数用于处理注意力分数，将其转换为一个概率分布；score(q，k)为注意力打分机制，在本专利技术中，采用缩放点积打分模型：

13、

14、其中dk是索引矩阵k中向量的维度，kt为索引矩阵k的转置矩阵；再根据注意力分布α来计算输入信息的加权平均，得到缩放点积注意力最终输出的结果为：

15、

16、步骤2-4，对attention(q，k，v)做残差连接和归一化处理：将全局状态信息st与attention(q，k，v)作残差连接处理：将输入直接加到缩放点积注意力的输出上，得到res(st)，其中st为全局状态信息，res(st)表示残差连接输出；对残差连接结果作层归一化(layer normalization)处理，得到特征提取处理的最终结果s′t。

17、进一步的，所述步骤3中包含如下步骤：

18、步骤3-1，基于提取到的特征信息使用策略选择动作，每架飞机在t时刻执行相应动作后发生状态转移，并给出对应的奖励函数值：在每个时刻t的初始阶段，中央控制器基于全局状态特征信息s′t使用分布式策略πi给对应的飞机ei，选择一个动作ai，t～πi(ai，t|s′t)，其中～表示某个随机变量的取值所对应的概率，表示机场场面内所有飞机的集合，并将得到的动作发送给场面上对应的飞机让其执行；当收到场面上所有飞机在t时刻发送的数据后，根据每架飞机运动方向以及场面上是否发生碰撞、是否有飞机抵达终点情况，计算此时的奖励；

19、步骤3-2，根据所有飞机传入的状态信息，中央控制器根据全局信息对分布式策略的参数进行梯度更新：通过与所有飞机之间的通信，中央控制器得到每一架飞机ei的(zi，t，ai，t，ri，t)，从而得到场面上所有飞机整体的(st，at，rt)；其中表示时刻t下场面上所有飞机的全局状态信息，at＝(a1，t，a2，t，...，an，t)为所有飞机的联合动作空间，表示环境全部的状态信息的集合，ri,t表示第i架飞机在t时刻发生状态转移后的奖励函数，所有的飞机共享同一个奖励函数r(st，at)＝rt；分布式策略参数的梯度更新表达式为：

20、

21、其中为优势函数，πold表示当前联合策略，s和a分别表示本轮学习回合下所有飞机的完整滑行轨迹与完整动作集合，θi表示第i架飞机的策略πi的参数，θ表示所有πi参数的集合，表示对参数θ求梯度，表示对πold求期望，r(θi)为更新前后策略的比值，剪裁函数cε((r(θi))将更新前后策略的比值限制在区间[1-ε，1+ε]内，0＜ε≤0.2；基于分布式策略参数的梯度更新表达式，求解最优分布式策略。

22、进一步的，所述步骤4中包含如下步骤：

23、步骤4-1，在每个学习的回合里，根据不同的场景需求设置参数动态调整航班计划表后，每架飞机根据给定的航班计划表，从各自的初始位置出发滑行至给定的终点，目标是在避免冲突的前提下学习到一条最大化奖励的滑行轨迹；当所有的飞机都滑行到终点或场面上有飞机发生冲突或超出训练回合时间上限时，这一轮的学习回合结束，开始下一轮的学习。

24、有益效果：本专利技术基于可拓展多智能体强化学习算法的机场滑行智能调度方法，可实现在航班计划发生动态变化时，场面上的飞机能在中央控制器的引导下规避潜在的冲突事件，并滑行到指本文档来自技高网...

【技术保护点】

1.一种基于可拓展多智能体强化学习辅助的机场滑行智能调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于可拓展多智能体强化学习辅助的机场滑行智能调度方法，其特征在于，所述步骤1中记机场场面上共有N架飞机，N≥2，且N在不同的学习回合值都不一样，第i架飞机记为Ei，i＝1，....，N，第i架飞机Ei的状态信息包括t时刻的第一位置信息xi(t)、在上一时刻t-1的第二位置信息xi(t-1)和滑行终点的第三位置信息第i架飞机Ei的动作设计为一个元组ai，t＝(vi(t)，θi(t))，对于每一个时隙t，第i架飞机Ei沿着θi(t)的方向以速度vi(t)进行移动，每架飞机能观测到的数据zi，t包括场面上所有飞机在时隙t下的位置，自己在上一时刻的位置和滑行终点的位置。

3.根据权利要求2所述的基于可拓展多智能体强化学习辅助的机场滑行智能调度方法，其特征在于，所述步骤2中包括如下步骤：

4.根据权利要求3所述的基于可拓展多智能体强化学习辅助的机场滑行智能调度方法，其特征在于，所述步骤3中包括如下步骤：

5.根据权利要求1所述的基

...

【技术特征摘要】

1.一种基于可拓展多智能体强化学习辅助的机场滑行智能调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于可拓展多智能体强化学习辅助的机场滑行智能调度方法，其特征在于，所述步骤1中记机场场面上共有n架飞机，n≥2，且n在不同的学习回合值都不一样，第i架飞机记为ei，i＝1，....，n，第i架飞机ei的状态信息包括t时刻的第一位置信息xi(t)、在上一时刻t-1的第二位置信息xi(t-1)和滑行终点的第三位置信息第i架飞机ei的动作设计为一个元组ai，t＝(vi(t)，θi(t))，对于每一个时隙t，第i架飞机...

【专利技术属性】
技术研发人员：唐岚，黄泓毓，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人