本发明专利技术涉及一种基于深度强化学习的飞行器探测传感器资源调度方法,属于计算机应用技术领域,该方法为调度模型构建、调度策略的离线训练和飞行器探测资源调度的在线决策三个步骤。飞行器探测资源调度模型的构建是在考虑各类调度影响因素的前提下,将飞行器探测资源调度过程抽象为马尔可夫决策过程,明确调度问题中的要素在马尔可夫决策模型中的具体表示;调度策略的离线训练是在深度强化学习理论的基础上建立Critic与Actor网络,将飞行器探测调度环境与其马尔可夫决策模型交互过程中获取的数据作为网络输入进行网络参数的更新与策略的训练。本发明专利技术有效提高了探测资源调度的自主决策能力,并解决飞行器探测过程中资源分配不合理的问题。
【技术实现步骤摘要】
一种基于深度强化学习的飞行器探测传感器资源调度方法
本专利技术属于计算机应用
,涉及一种基于深度强化学习的飞行器探测传感器资源调度方法。
技术介绍
在多传感器组网探测中,需要根据飞行器位置等状态信息分配合适的探测传感器,以完成飞行器进行跟踪监视和测量等工作。其具体可描述为图1所示:图1中黄色线段代表探测设备与飞行目标建立连接,t1时刻飞行目标按照预计轨迹进行飞行任务,t2时刻考虑探测设备的探测条件,决策者分配探测设备4对飞行目标进行探测,t3时刻探测设备4无法满足探测需求,选择切换探测设备并由探测设备1对飞行目标进行探测,之后根据任务需求,不断地切换探测设备直至飞行任务完成,t4时刻飞行任务完成,探测设备不再需要对飞行目标进行探测。目前,飞行器探测探测网络已形成具有一定规模的实用网络,已经具备探测资源的自动化调度和设备的自动化运行能力的基础,但在实际传感器的使用过程中普遍存在探测资源综合利用不足、自适应能力差的问题。探测传感器调度问题存在实时性要求高、动态性强的特点,因而如何在满足探测需求的条件下有效协调部署各探测设备,综合利用探测资源,完善自动化运行工作是当前飞行器探测传感器资源调度系统需要解决的主要问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于深度强化学习的飞行器探测传感器资源调度方法。对飞行器探测资源调度过程进行建模,通过深度强化学习方法不断对模型空间进行探索,学习最优的资源调度方案,在满足调度实时性和动态性的条件下,实现飞行器飞行过程中探测传感器的自主分配,达到合理利用探测资源、提升探测性能的目的。为达到上述目的,本专利技术提供如下技术方案:一种基于深度强化学习的飞行器探测传感器资源调度方法,该方法包含以下步骤:步骤S1:构建飞行器探测传感器资源调度过程模型,对资源调度过程进行关键因素分析,定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S,定义每个时刻的资源决策动作A,定义奖励R用于衡量每一个状态下的决策行为;在此基础上飞行器探测资源调度决策问题可以描述为:寻找一个策略π,使得在一次共计T时刻的飞行过程中,执行T次资源决策动作at后获得的累计奖励最大;步骤S2:离线策略训练,针对探测传感器资源调度模型构建Actor-Critic架构,初始阶段在探测资源调度模型中执行随机动作获取经验数据,Critic网络根据每一个状态执行动作获取的奖励对历史状态进行评估,之后取消随机动作行为,由Actor根据环境状态选定动作,由Critic对选定的动作进行评估,并将评估的结果作为Actor网络的反馈更新,在不断的迭代学习中改进Actor网络的决策能力;步骤S3:在线资源调度决策,根据离线网络训练过程中得到的Actor网络,在仿真环境下获取每一时刻的飞行状态特征及探测设备状态特征,并将其作为网络输入,由网络输出下一个时刻的资源选定方案,统计全时刻输出制定飞行器探测设备全时刻的调度方案,达到自主调度和调度优化的目标。可选的,所述飞行器探测传感器资源调度过程模型中,系统状态S具有能够表现出部分通视性、探测距离和设备负载情况的飞行设备状态与探测设备状态的特点参数。可选的,所述飞行器探测传感器资源调度过程模型中,动作空间A中的每一个元素分别对应于采用相应的探测设备进行探测的动作,将资源调度过程定义为每一个时刻下选定动作空间A中合适的元素的过程。可选的,所述飞行器探测传感器资源调度过程模型中,奖励函数R是根据调度过程中涉及到的探测设备性能指标与探测资源利用效率指标所确定的,包括探测设备的最大测量距离因素、探测设备与飞行器间通视性因素和探测设备的使用时间因素。可选的,所述离线策略训练,将构建的飞行器探测传感器资源调度过程模型下每一个时刻的状态作为训练网络的输入,将状态下对应的奖励值作为网络更新的考虑因素。可选的,所述离线策略训练,采用仿真环境模拟实现飞行器探测传感器资源调度过程模型,将仿真环境下每一个时刻的状态作为训练网络的输入,将状态下对应的奖励值作为网络更新的考虑因素;训练网络的输出将直接作用于仿真环境,通过不断交互更新直到一次飞行过程中获取的总奖励值达到阈值,则所述离线策略训练过程结束。可选的,所述在线资源调度决策包括:1)将获取的飞行器状态、探测传感器状态作为网络输入;2)网络输出具体的探测设备序号;3)选用对应序号的探测设备对飞行器进行探测。本专利技术的有益效果在于:综合考虑探测设备的使用效率以及选用探测设备的性能给出合理的资源调度方案。能够实时的根据获取的状态数据给出具体的调度行为,从而解决调度问题的实时性需求。能够及时解决飞行过程中出现的路径偏差、设备故障等动态性问题。能够达到自主调度的目标,便于操作人员的操作。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。附图说明为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:图1为多传感器组网探测示意图;图2为飞行器探测传感器资源调度实现流程;图3为系统模拟仿真环境;图4为Actor网络结构;图5为Critic网络结构;图6为训练过程的数据流向;图7为在线调度仿真结果。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利技术的限制;为了更好地说明本专利技术的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。本专利技术实施例的附图中相同或相似的标号对应相同或相似的部件;在本专利技术的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利技术的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。飞行器探测传感器资源调度过程是在飞行器飞行过程中实时分配不同的探测传感器资源从而对飞行器进行探测的过程。本专利技术提供了一种基于深度强化学习的飞行器探测资源本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:该方法包含以下步骤:/n步骤S1:构建飞行器探测传感器资源调度过程模型,对资源调度过程进行关键因素分析,定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S,定义每个时刻的资源决策动作A,定义奖励R用于衡量每一个状态下的决策行为;在此基础上飞行器探测资源调度决策问题可以描述为:寻找一个策略π,使得在一次共计T时刻的飞行过程中,执行T次资源决策动作a
【技术特征摘要】
1.一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:该方法包含以下步骤:
步骤S1:构建飞行器探测传感器资源调度过程模型,对资源调度过程进行关键因素分析,定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S,定义每个时刻的资源决策动作A,定义奖励R用于衡量每一个状态下的决策行为;在此基础上飞行器探测资源调度决策问题可以描述为:寻找一个策略π,使得在一次共计T时刻的飞行过程中,执行T次资源决策动作at后获得的累计奖励最大;
步骤S2:离线策略训练,针对探测传感器资源调度模型构建Actor-Critic架构,初始阶段在探测资源调度模型中执行随机动作获取经验数据,Critic网络根据每一个状态执行动作获取的奖励对历史状态进行评估,之后取消随机动作行为,由Actor根据环境状态选定动作,由Critic对选定的动作进行评估,并将评估的结果作为Actor网络的反馈更新,在不断的迭代学习中改进Actor网络的决策能力;
步骤S3:在线资源调度决策,根据离线网络训练过程中得到的Actor网络,在仿真环境下获取每一时刻的飞行状态特征及探测设备状态特征,并将其作为网络输入,由网络输出下一个时刻的资源选定方案,统计全时刻输出制定飞行器探测设备全时刻的调度方案,达到自主调度和调度优化的目标。
2.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述飞行器探测传感器资源调度过程模型中,系统状态S具有能够表现出部分通视性、探测距离和设备负载情况的飞行设备状态与探测设备状态的特点参数。
3.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感...
【专利技术属性】
技术研发人员:郭茂耘,梁皓星,汪梦倩,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。