当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于强化学习的飞行器自主规避决策方法技术

技术编号:38333881 阅读:11 留言:0更新日期:2023-08-02 09:14
本发明专利技术公开了一种基于强化学习的飞行器自主规避决策方法,S1、建立自主规避决策博弈模型;S2、威胁目标轨迹预测网络;S3、飞行器自主规避决策算法;S4、验证算法的有效性。本发明专利技术采用上述步骤的一种基于强化学习的飞行器自主规避决策方法,该自主规避方法考虑了预测信息,设计了基于深度长短期记忆神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测,结合双延迟深度确定性策略梯度算法强化学习算法设计了具有连续动作空间的深度强化学习系统,有效提升了决策模型的收敛速度。有效提升了决策模型的收敛速度。有效提升了决策模型的收敛速度。

【技术实现步骤摘要】
一种基于强化学习的飞行器自主规避决策方法


[0001]本专利技术涉及飞行器自主规避决策
,特别是涉及一种基于强化学习的飞行器自主规避决策方法。

技术介绍

[0002]高超声速飞行器通常具有经济性、高效性、安全性、强机动性等特点。随着现代信息技术和空间技术的发展,高超声速飞行器已逐渐成为未来空间攻防对抗、应对潜在空间冲突、维护国家安全等方面必不可缺的战略装备,是世界各国航空航天系统的重要研究方向。然而,随着飞行器任务与飞行环境的日益复杂,飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,如雷达探测系统及其他飞行器的跟踪、拦截等。因此,研究飞行器自主规避决策方法,对保障飞行器的高效安全飞行,增强飞行器自主能力具有十分重要的意义。
[0003]目前飞行器自主机动决策的方法主要分为基于数学模型的传统方法和基于强化学习的人工智能方法。基于数学模型的传统方法包含微分对策法、影响图法、矩阵对策法等。然而,基于数学模型的理论方法进行飞行器规避决策设计时,均建立在离线规划数学模型的基础上,在实际复杂的博弈环境中,由于无法获得威胁目标的参数信息,飞行器无法在短时间内推导出威胁目标的弹道和制导方式,因此无法自主应对威胁目标的实时跟踪和拦截。
[0004]随着人工智能的发展,基于强化学习的人工智能方法可用于求解无模型非线性规划问题,具有求解速度比传统数学算法快的优势,逐渐成为飞行器自主决策领域的研究重点。然而,当前的决策理论研究大多集中在无人机等无人系统上,针对飞行器自主规避决策技术的研究还较少。
专利技术内
[0005]本专利技术的目的是提供一种基于强化学习的飞行器自主规避决策方法,实现了飞行器的自主规避决策,有利于提高飞行器对潜在威胁的成功规避概率,保障飞行器的安全性。
[0006]为实现上述目的,本专利技术提供了一种基于强化学习的飞行器自主规避决策方法,S1、建立自主规避决策博弈模型:根据飞行器运动特性设计连续动作空间及状态空间,以完成规避任务为目标,综合全局环境的约束条件,考虑飞行器与威胁目标的相对位置以及与任务目标点的距离建立奖惩机制,设定最大化飞行器的总收益作为该博弈模型的性能指标函数;
[0007]S2、威胁目标轨迹预测网络:综合考虑飞行器与威胁目标行为之间的耦合性,设计两层LSTM网络学习特征间的长期依赖关系,采用通过时间的反向传播算法训练预测网络,预测威胁目标的未来轨迹;
[0008]S3、飞行器自主规避决策算法:设计基于双延迟深度确定性策略梯度算法的飞行器决策算法求解S1中自主规避决策模型的最优奖励函数值,结合S2中的预测信息,通过迭代更新飞行器决策网络与飞行器评价网络的权值,获得自主规避决策博弈模型的求解策
略,实现飞行器自主规避决策;
[0009]S4、验证算法的有效性:基于“Python

Unity”交互模式搭建飞行器自主规避决策的虚拟仿真交互平台,验证飞行器自主规避算法的有效性。
[0010]优选的,S1中,将飞行器面向威胁目标的规避任务转化为博弈问题,并基于飞行器运动模型,建立面向飞行器规避任务的自主规避决策博弈模型,自主规避决策博弈模型包含六个基本要素:即参与者,状态空间,动作空间,折扣因子,状态转移函数以及奖励函数。
[0011]优选的,S1.1、参与者:飞行器和威胁目标;
[0012]S1.2、状态空间:考虑规避任务需求,将飞行器的状态信息、威胁目标的状态信息以及对威胁目标的预测信息作为飞行器面向规避任务的状态;
[0013]S1.3、动作空间:动作空间为飞行器攻角,倾侧角和推力;
[0014]S1.4、折扣因子:设定折扣因子为γ,γ∈[0,1]表示未来累积回报收益值相对于当前决策的重要程度;
[0015]S1.5、状态转移函数:将飞行器的运动学方程作为自主规避决策博弈模型的状态转移函数;
[0016]S1.6、奖励函数:为了减小飞行器自主规避决策行为对后续任务的影响,设置任务目标点以限制飞行器采取不合理的规避决策,考虑参与者双方相对位置、飞行器与任务目标点的距离建立奖惩机制,设定单步决策立即回报收益值和博弈模型的性能指标函数。
[0017]优选的,S2中,将飞行器与威胁目标的历史轨迹作为输入,通过数据处理、特征提取以及双层LSTM的时序分析,输出威胁目标的下一时刻动作。
[0018]优选的,S3中,S3.1、飞行器决策网络中最大化博弈过程的总收益;
[0019]S3.2、优化飞行器决策网络的权值;
[0020]S3.3、优化飞行器评价网络的权值;
[0021]S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值。
[0022]优选的,S4中,飞行器每次与虚拟仿真交互平台的交互过程中,将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。
[0023]因此,本专利技术采用上述步骤的一种基于强化学习的飞行器自主规避决策方法,其有益效果为:
[0024]1、本专利技术设计提出的自主规避方法考虑了威胁目标的行为对飞行器决策的影响,设计了基于深度长短期记忆神经网络(Long Short

Term Memory,LSTM)的轨迹预测算法,实现对威胁目标未来轨迹的预测,结合双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)强化学习算法设计了具有连续动作空间的深度强化学习系统,有效提升了决策模型的收敛速度;
[0025]2、针对飞行器面临的飞行安全问题,给出了飞行器规避机动场景的任务描述,基于马尔可夫决策过程理论构建了面向飞行器规避任务的博弈模型;
[0026]3、考虑威胁目标的行为对飞行器决策的影响,综合考虑飞行器与威胁目标行为之间的耦合性,设计基于深度长短期记忆神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测;
[0027]4、基于预测信息与博弈模型,结合双延迟深度确定性策略梯度算法设计了飞行器
决策算法,该决策方法依据神经网络的拟合能力具有很好的自主性,实现了飞行器的自主规避决策,有利于提高飞行器对潜在威胁的成功规避概率,保障飞行器的安全性;
[0028]5、通过仿真训练实现了飞行器的自主规避,有效提高了飞行器对潜在威胁的成功规避概率,增强了飞行器的自主性与安全性,对飞行器自主规避技术研究具有一定的参考价值。
[0029]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0030]图1是基于强化学习的飞行器自主规避决策方法结构图;
[0031]图2是预测网络与决策算法网络图;
[0032]图3是威胁目标轨迹预测仿真结果;
[0033]图4是奖励值变化曲线;
[0034]图5是飞行器自主规避决策仿真结果;
[0035]图6是飞行器控制量变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的飞行器自主规避决策方法,其特征在于:S1、建立自主规避决策博弈模型:根据飞行器运动特性设计连续动作空间及状态空间,以完成规避任务为目标,综合全局环境的约束条件,考虑飞行器与威胁目标的相对位置以及与任务目标点的距离建立奖惩机制,设定最大化飞行器的总收益作为该博弈模型的性能指标函数;S2、威胁目标轨迹预测网络:综合考虑飞行器与威胁目标行为之间的耦合性,设计两层LSTM网络学习特征间的长期依赖关系,采用通过时间的反向传播算法训练预测网络,预测威胁目标的未来轨迹;S3、飞行器自主规避决策算法:设计基于双延迟深度确定性策略梯度算法的飞行器决策算法求解S1中自主规避决策模型的最优奖励函数值,结合S2中的预测信息,通过迭代更新飞行器决策网络与飞行器评价网络的权值,获得自主规避决策博弈模型的求解策略,实现飞行器自主规避决策;S4、验证算法的有效性:基于“Python

Unity”交互模式搭建飞行器自主规避决策的虚拟仿真交互平台,验证飞行器自主规避算法的有效性。2.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S1中,将飞行器面向威胁目标的规避任务转化为博弈问题,并基于飞行器运动模型,建立面向飞行器规避任务的自主规避决策博弈模型,自主规避决策博弈模型包含六个基本要素:即参与者,状态空间,动作空间,折扣因子,状态转移函数以及奖励函数。3.根据权利要求2所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S1.1、参与者:飞行器和威胁目标;S1...

【专利技术属性】
技术研发人员:窦立谦任梦圆张秀云唐艺璠张睿隆
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1