本发明专利技术公开了一种飞行控制智能体的并行分布式计算系统及方法,系统包括全局调度模块、数据处理模块和仿真模拟模块,针对航空控制领域强化学习而设计;解决其它飞行仿真模拟器都无法统一直接地完成强化学习并行计算的问题;计算方法可以将空中航空领域主要计算囊括并分布式化,解决了仿真模拟计算进程可以在多台机器上实现高效并行处理的问题,也可以在集群适用于大型的计算;其技术方案要点是:包括深度强化学习组件、全局调度组件、局部调度组件用于任务调度,进程调度;状态控制程序,用于信息状态供给全局调度算法;数据同步组件,用于计算完成的数据同步。本发明专利技术具有高吞吐量低延迟的数据传输能力;支持飞行训练任务的动态构建。
【技术实现步骤摘要】
一种飞行控制智能体的并行分布式计算系统及方法
本专利技术涉及智能空管
,具体为一种飞行控制智能体的并行分布式计算系统及方法。
技术介绍
自由空战代表了无人机的未来发展方向。空战行为以机动轨迹的形式表示,其目的是通过机动获得战场形势的优势,构成武器发射的条件,最大限度地发挥武器性能,最大程度地消灭敌人并保护我们的飞行员。在新大纲自由空战训练中,要求飞机有更高精度和更快速的反应来防御敌机的进攻并做出相应的攻击,在这种情况下,飞行员将无法控制飞机在最短反应时间内进行最佳机动。为了保护飞行员的生命,无人驾驶飞行器在空战中扮演着越来越重要的角色。但是保护飞行员的安全并不是提供的唯一优势,无人作战飞机能够以比有人驾驶飞机更低的成本执行某些任务。目前,无人作战飞机可以执行一些基本的空对地打击任务。此外,下一代无人作战飞机的功能将更加强大。未来空战是空军武器装备体系与体系之间的对抗,无人作战飞机是一种全新的空中武器系统,无人作战飞机从过去主要是执行空中侦察·战场监视和战斗毁伤评估等任务的作战支援装备,升级成为能执行压制敌防空系统·对地攻击,诊治可以执行对空作战的主要作战装备之一。而在现代仿真理论和仿真技术强力支持下,可以在现代高技术的仿真复杂战场环境条件下,进行无危险或无损伤的仿真对抗训练,进行作战行动预演和现代作战理论、作战原则、作战方式的战法研究。因此,为了满足预期的和更强大的功能,有必要提高无人作战飞机的自主性。将智能控制器加载到无人作战飞机上,可以有效地增加无人作战飞机的作战能力。由于应具有适应动态环境的能力和从动态环境中学习的能力,这个问题非常复杂。受到深度强化学习的控制机器人的启发,使用深度强化学习算法来控制操纵杆,油门和踏板以实现飞行控制。强化学习是人工智能中讨论最多、关注最多和考虑最多的话题之一,因为它有可能改变大多数环境。根据问题的复杂性,强化学习算法可以在必要时随时间保持适应环境,以便长期获得最大的回报。一个通过强化学习来学会行走的机器人将通过尝试不同的方法实现目标,获得有关这些方式成功的反馈,然后进行调整直到达到行走的目标。大步伐会让机器人摔倒,通过调整步距来判断这是否是保持直立的原因,通过不同的变化持续学习,最终能够行走。以上说明,奖励是保持直立,惩罚就是摔倒,机器人基于对其动作的反馈信息进而优化并强化。强化学习需要大量的数据,这就是为什么这项技术的第一个应用领域是模拟数据,如游戏和机器人。战术理论的研究与创新,以及新机型新战法的高难度训练,都需要借助仿真环境的强力支撑,因此,体系作战仿真已成为高技术条件下加快空军战斗力生成模式转变的重要手段。空中作战具有作战对抗激烈、态势变化迅速、战术运用灵活等重要特性,其作战模拟训练设备按规模可以分为战役级、战术级、作战平台级及精确武器级仿真平台,各级既有独特的任务和功能,又可以联为一体,构建成规模更大的体系训练平台。战术级仿真系统起着上下层衔接的核心作用,是作战仿真系统中关注问题最多的一级系统,无人作战飞机的研究会对作战仿真技术发展起着非常重要的意义。将强化学习引领的人工智能技术应用在战术级仿真系统上能够有效提高计算机生成兵力的智能化水平。无人作战飞机的深度强化学习过程需要通过随机采样,通过判定结果价值来反馈更新神经网络的参数,而空战过程发生在三维的空间内,在位置、速度等多个参数上跟踪给观测空间的大小造成了指数级别的增长,现有技术的单智能体训练环境无法承担智能空战的研究需求。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种飞行控制智能体的并行分布式计算系统及方法,增强智能体与仿真环境的交互速度,减少深度强化学习的训练时间,加快作战飞机智能体的训练速度,且观测环境更加具体,将仿真性能从三自由度提升到六自由度。技术方案如下:一种飞行控制智能体的并行分布式计算系统,包括:1)全局调度模块:管理所有的计算资源,根据训练任务,随机选取某服务器作为主节点,即全局调度节点,作为集中的服务端,是所有计算节点之间传递消息的纽带;根据调度策略调配服务器资源;去中心化管理仿真节点和智能体节点:对任务进行显式的资源约束,对所有节点的计算资源进行硬件无关的抽象,将所有资源归一化管理,每个节点独立的对自己所看到的任务进行调度;调度策略的特征点在于,对于每个任务计算任务的权重设置;调度策略通过智能体的配置文件读取调度资源的量值为等待训练任务产生调度权重,按权重进行节点选择,并将任务调度过去;局部调度模块则根据计算任务调配单个服务器的进程来完成计算任务;2)并行数据处理模块:负责各个节点之间的数据通信,强化学习的特征在于MDP决策模型,当多机训练时智能体与环境之间的观测数据增大,导致交互延时增大精度降低;以DIS协议的为基础,将多个飞机的六自由度数据通过加上时间戳的方式,合并发送数据以达到提高精度和效率的目的;并行数据处理模块与各个仿真节点的进程之间有通信管道,智能体训练时,各个数据监控线程将收集的数据缓存到缓存队列并加上时间信息,每隔一段时间将该阶段的数据序列化为字节流发送给智能体节点分析并学习数据;3)仿真模拟模块:用于模拟仿真战斗机的训练环境,包括仿真数据存储模块、分布式网络支撑模块、强化学习控制模块、仿真核心模块、仿真命令子模块、记录回放模块和运动核心子模块;所述仿真数据存储模块用于存储仿真数据,为仿真核心模块和记录回放模块提供数据读写支持;所述分布式网络支撑模块用于信息发送和信息接收;所述强化学习控制模块用于解析网络命令和封装环境信息交由分布式网络支撑模块发送与接收;所述仿真核心模块用于解析训练命令,将控制命令送入运动核心子模块进行仿真计算,更新飞机六自由度信息;所述仿真命令子模块读取强化学习控制模块的处理命令,根据命令修改仿真参数,包括航空器的当前推力;所述记录回放模块从仿真数据存储模块中读取仿真数据,进行训练信息回放处理,并记录训练信息;所述运动核心子模块从仿真数据存储子模块读取航空器性能参数,解析数据库中飞机的气动模型,将飞机模型数据建模,提供物理仿真基础;运动核心子模块中的仿真循环计算出新的状态写入仿真数据存储模块提供给分布式网络支撑子模块发送数据。进一步的,所述调度策略包括确定飞行训练任务调度的目标机器;如果计算节点负荷可以完成,则在该节点创建进程开始计算;如果机器计算资源不足,则跳过当前任务,并将飞行训练任务返回全局调度节点的任务队列。更进一步的,所述仿真数据包括:机场信息:机场跑道信息、机场滑行线信息、机场关键点信息、机场塔台信息;空域信息:导航台、固定点、扇区信息;航空器性能参数:包括翼展、机长、地面滑行速度等;环境信息:云、风信息。更进一步的,还包括多台多机种仿真器,每台仿真器根据空战训练需求模拟多种机型,并模拟多机内的各种编队空战。一种飞行控制智能体的并行分布式计算方法,包括以下步骤:步骤1:仿真设置:在各节点上设置脚本参数,包括飞行智能体任务资源需求向量,根据收集到的数据,生成本文档来自技高网...
【技术保护点】
1.一种飞行控制智能体的并行分布式计算系统,其特征在于,包括:/n1)全局调度模块:管理所有的计算资源,根据训练任务,随机选取某服务器作为主节点,即全局调度节点,作为集中的服务端,是所有计算节点之间传递消息的纽带;根据调度策略调配服务器资源;去中心化管理仿真节点和智能体节点:对任务进行显式的资源约束,对所有节点的计算资源进行硬件无关的抽象,将所有资源归一化管理,每个节点独立的对自己所看到的任务进行调度;调度策略的特征点在于,对于每个任务计算任务的权重设置;调度策略通过智能体的配置文件读取调度资源的量值为等待训练任务产生调度权重,按权重进行节点选择,并将任务调度过去;局部调度模块则根据计算任务调配单个服务器的进程来完成计算任务;/n2)并行数据处理模块:负责各个节点之间的数据通信,强化学习的特征在于MDP决策模型,当多机训练时智能体与环境之间的观测数据增大,导致交互延时增大精度降低;以DIS协议的为基础,将多个飞机的六自由度数据通过加上时间戳的方式,合并发送数据以达到提高精度和效率的目的;并行数据处理模块与各个仿真节点的进程之间有通信管道,智能体训练时,各个数据监控线程将收集的数据缓存到缓存队列并加上时间信息,每隔一段时间将该阶段的数据序列化为字节流发送给智能体节点分析并学习数据;/n3)仿真模拟模块:用于模拟仿真战斗机的训练环境,包括仿真数据存储模块、分布式网络支撑模块、强化学习控制模块、仿真核心模块、仿真命令子模块、记录回放模块和运动核心子模块;/n所述仿真数据存储模块用于存储仿真数据,为仿真核心模块和记录回放模块提供数据读写支持;/n所述分布式网络支撑模块用于信息发送和信息接收;/n所述强化学习控制模块用于解析网络命令和封装环境信息交由分布式网络支撑模块发送与接收;/n所述仿真核心模块用于解析训练命令,将控制命令送入运动核心子模块进行仿真计算,更新飞机六自由度信息;/n所述仿真命令子模块读取强化学习控制模块的处理命令,根据命令修改仿真参数,包括航空器的当前推力;/n所述记录回放模块从仿真数据存储模块中读取仿真数据,进行训练信息回放处理,并记录训练信息;/n所述运动核心子模块从仿真数据存储子模块读取航空器性能参数,解析数据库中飞机的气动模型,将飞机模型数据建模,提供物理仿真基础;运动核心子模块中的仿真循环计算出新的状态写入仿真数据存储模块提供给分布式网络支撑子模块发送数据。/n...
【技术特征摘要】
1.一种飞行控制智能体的并行分布式计算系统,其特征在于,包括:
1)全局调度模块:管理所有的计算资源,根据训练任务,随机选取某服务器作为主节点,即全局调度节点,作为集中的服务端,是所有计算节点之间传递消息的纽带;根据调度策略调配服务器资源;去中心化管理仿真节点和智能体节点:对任务进行显式的资源约束,对所有节点的计算资源进行硬件无关的抽象,将所有资源归一化管理,每个节点独立的对自己所看到的任务进行调度;调度策略的特征点在于,对于每个任务计算任务的权重设置;调度策略通过智能体的配置文件读取调度资源的量值为等待训练任务产生调度权重,按权重进行节点选择,并将任务调度过去;局部调度模块则根据计算任务调配单个服务器的进程来完成计算任务;
2)并行数据处理模块:负责各个节点之间的数据通信,强化学习的特征在于MDP决策模型,当多机训练时智能体与环境之间的观测数据增大,导致交互延时增大精度降低;以DIS协议的为基础,将多个飞机的六自由度数据通过加上时间戳的方式,合并发送数据以达到提高精度和效率的目的;并行数据处理模块与各个仿真节点的进程之间有通信管道,智能体训练时,各个数据监控线程将收集的数据缓存到缓存队列并加上时间信息,每隔一段时间将该阶段的数据序列化为字节流发送给智能体节点分析并学习数据;
3)仿真模拟模块:用于模拟仿真战斗机的训练环境,包括仿真数据存储模块、分布式网络支撑模块、强化学习控制模块、仿真核心模块、仿真命令子模块、记录回放模块和运动核心子模块;
所述仿真数据存储模块用于存储仿真数据,为仿真核心模块和记录回放模块提供数据读写支持;
所述分布式网络支撑模块用于信息发送和信息接收;
所述强化学习控制模块用于解析网络命令和封装环境信息交由分布式网络支撑模块发送与接收;
所述仿真核心模块用于解析训练命令,将控制命令送入运动核心子模块进行仿真计算,更新飞机六自由度信息;
所述仿真命令子模块读取强化学习控制模块的处理命令,根据命令修改仿真参数,包括航空器的当前推力;
所述记录回放模块从仿真数据存储模块中读取仿真数据,进行训练信息回放处理,并记录训练信息;
所述运动核心子模块从仿真数据存储子模块读取航空器性能参数,解析数据库中飞机的气动模型,将飞机模型数据建模,提供物理仿真基础;运动核心子模块中的仿真循环计算出新的状态写入仿真数据存储模块提供给分布式网络支撑子模块发送数据。
2.根据权利要求1所述的飞行控制智能体的并行分布式计算系统,其特征在于,所述局部调度模块确定飞行训练任务调度的目标机器;如果计算节点负荷可以完成,则在该节点创建进程开始计算;如果机器计算资源不足,...
【专利技术属性】
技术研发人员:何扬,季玉龙,俎文强,黄操,吴志红,
申请(专利权)人:四川大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。