一种基于强化学习的飞机大迎角失速改出方法技术

技术编号:37047319 阅读:30 留言:0更新日期:2023-03-29 19:25
本发明专利技术属于人工智能技术领域,涉及一种基于强化学习的飞机大迎角失速改出方法。本发明专利技术在TD3算法基础上,采用一种更加贴合飞机失速场景实际的奖励函数,在仿真模拟器环境中,根据强化学习算法要素,构建强化学习交互环境,同时使用一种基于混合模型的奖励机制,在强化学习交互环境中,强化学习算法通过与仿真模拟环境进行交互,完成训练,将得到的模型参数固化,形成失速改出算法模型;实现了效果良好的失速改出控制。本发明专利技术是以强化学习算法为手段,通过改进强化学习算法(TD3),面向飞机失速改出场景进行相关参数、模型的设计,以实现仿真环境下飞机失速改出方法的智能化,提高改出效率。效率。效率。

【技术实现步骤摘要】
一种基于强化学习的飞机大迎角失速改出方法


[0001]本专利技术属于人工智能
,涉及一种基于强化学习的飞机大迎角失速改出方法。

技术介绍

[0002]在飞机以一定速度飞行过程中,飞机迎角超过临界迎角时,飞机升力系数下降,升力与重力不能平衡,飞机可能发生失速。飞机失速可能导致危险发生,甚至导致致命事故。给飞行带来严重隐患。长期以来,飞机失速改出问题一直是航空安全领域攻克的主要方向,在现代飞机中,采用了许多方法改出失速,最大限度保障人员安全。
[0003]失速改出与诸多因素相关,失速改出非常复杂。波音737Max客机安装了防止失速的装置MCAS(Manuever Characteristics Augumentation System)。MCAS在飞机处于自动驾驶,且襟翼收上,机组没有给出安定面配平指令的情况下,此时迎角超过临界迎角时将激活MCAS。临界迎角是基于空速和高度计算得出。MCAS输出使得飞机低头的安定面配平指令,以高速模式控制安定面,增强俯仰操纵系统。同时,MCAS启动后,配平指令将旁通停止驾驶杆指令,直接送到配平限制电门。因此,即使拉杆无法切断MCAS发出的机头向下配平的信号。
[0004]除了波音737Max之外,还有空客的客机也安装了迎角保护装置。在大迎角的情况下指令飞机下俯。如果此时飞机迎角探测器发生故障,不能给飞机迎角减小的信号造成飞机控制计算机认为没有达到指令的效果,从而进一步指令飞机下俯,最终导致飞机进入持续下俯,最终发生致命事故。
[0005]由于飞机失速的复杂性,自动控制系统不能完全避免飞机失速。在某些情况下,并不危险的情况,由于自动失速保护装置的误判,可能导致机毁人亡。随着智能技术的发展,特别是强化学习的发展,计算机在感知的表达能力及策略学习方面有了长足进步。为了充分利用智能技术的发展,我们研究利用强化学习解决飞机失速问题。
[0006]强化学习作为一种智能体在与环境相交互过程中学习策略的技术,在解决飞机失速改出具有广阔前景。强化学习通过智能体与环境的交互学习获得好的策略。
[0007]飞机失速改出的主要目标是减小迎角并尽快达到安全速度,同时将高度损失降至最低。在强化学习中,我们可通过选择一定的神经网络结构,设计一定奖励函数,通过不断学习、训练,让算法自己找到最优改出方法,提高效率。

技术实现思路

[0008]本专利技术主要使用强化学习方法,搭建一套针对飞机失速场景的强化学习算法,借助仿真模拟器解决飞机失速改出问题。由于飞机失速的试验具有高成本、高风险的特点,一般情况下不易获取相关数据,本专利技术通过仿真模拟器实现算法参数输入,通过不断训练、学习,使算法参数收敛,实现改出效果。
[0009]算法方面,本专利技术在TD3算法基础上进行改进,设计了一种更加贴合飞机失速场景
实际的奖励函数,同时提出了一种基于混合模型的奖励机制,实现了效果良好的失速改出控制,提高了改出效率。
[0010]本专利技术技术方案:一种基于强化学习的飞机大迎角失速改出方法,包括以下步骤:
[0011]S1、在仿真模拟器环境中,根据强化学习算法要素,构建强化学习交互环境,包括输入算法的状态参数空间和动作空间。
[0012]S2、搭建用于失速改出的强化学习算法框架,奖励函数和基于混合模型的奖励机制;
[0013]S3、在强化学习交互环境中,强化学习算法通过与仿真模拟环境进行交互,完成训练,将得到的模型参数固化,形成失速改出算法模型;
[0014]S4、在仿真模拟飞行中,当出现失速现象时,将状态参数输入失速改出算法模型,经通信交互将得到的动作指令输出,由模拟器执行,逐渐实现失速改出。
[0015]所述S1状态参数空间包括仿真模拟器攻角、俯仰角、偏航角、滚转角、俯仰角速率、偏航角速率。
[0016]所述S1算法输出的动作空间包括升降舵、方向舵、油门舵面操作数据。
[0017]所述S2奖励函数为一系列与状态变量有关的函数,每个状态分量相关的奖励值由局部分量与全局分量加权构成。
[0018]所述状态变量为攻角、俯仰角、偏航角、滚转角、俯仰角速率、偏航角速率。
[0019]奖励函数形式如下:
[0020]Reward=γReward
global
+(1

γ)Reward
local
[0021]每个状态分量相关的奖励值由局部分量与全局分量加权和组成,权重γ决定了在此次计算中全局分量与局部分量的重要程度,其中,全局分量的计算构成为:
[0022][0023]其中函数变量state
t
表示智能体当前该状态分量的值,系数state
target
表示智能体该状态分量的目标值,k为放缩系数,ε为函数斜率缩放系数,通过调整它的大小,可控制函数斜率的陡缓。
[0024]所述基于混合模型的奖励机制为分别使用一个只关注全局奖励的模型和另一个只关注局部奖励的模型共同决策,两个模型会对智能体的当前状态分别计算出一个动作,将这两个动作输入到比较器中,比较器将输出两者中更好的动作,以此动作作为智能体在下一时刻真正执行的动作。
[0025]所述全局奖励的模型为基于全局奖励函数
[0026][0027]构造的模型,即神经网络通过全局奖励函数计算出一个动作值。
[0028]所述局部奖励的模型为基于局部奖励函数
[0029][0030]构造的模型,即神经网络通过局部奖励函数计算出一个动作值。
[0031]所述S3进一步包括:
[0032]S31,初始化,即飞机配平:根据飞机控制率,配置飞机相关气动参数,使飞机达到指定状态下的平衡;
[0033]S32,获取状态参数s:状态数据即飞机气动参数,作为算法输入,送入强化学习算法神经网络。此时的状态数据通过与仿真模拟器通信获取;
[0034]S33,神经网络输出动作A:通过神经网络计算,输出动作值;
[0035]S34,执行动作A:通过与仿真模拟器的通信,将动作值发送给模拟器,由模拟器执行动作;
[0036]S35,飞机发生状态转移至下一状态s

:由于模拟器自带飞控,可根据动作值反馈新的状态数据,同时,根据奖励函数和奖励机制,获得奖励值:
[0037]S36,存储经验池:将<当前状态s,下一状态s

,动作值A,奖励值R>作为一组数据存入经验池:
[0038]S37,状态更新:将模拟器最新的状态数据发送给基于强化学习的失速改出算法,为下一回合做准备;
[0039]S38,参数更新:从经验池随机抽取一组数据,根据数据更新策略更新神经网络参数;
[0040]S39,模型固化:当算法训练满足结束条件时,以指定数据模型文件格式存储模型参数,得到可用的算法模型。
[0041]本专利技术的有益效果:本专利技术是以强化学习算法为手段,通过改进强化学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的飞机大迎角失速改出方法,其特征在于,包括以下步骤:S1、在仿真模拟器环境中,根据强化学习算法要素,构建强化学习交互环境,包括输入算法的状态参数空间和动作空间;S2、搭建用于失速改出的强化学习算法框架:奖励函数和基于混合模型的奖励机制;S3、在强化学习交互环境中,强化学习算法通过与仿真模拟环境进行交互,完成训练,将得到的模型参数固化,形成失速改出算法模型;S4、在仿真模拟飞行中,当出现失速现象时,将状态参数输入失速改出算法模型,经通信交互将得到的动作指令输出,由模拟器执行,逐渐实现失速改出。2.根据权利要求1所述的基于强化学习的飞机大迎角失速改出方法,其特征在于,所述S1状态参数空间包括仿真模拟器攻角、俯仰角、偏航角、滚转角、俯仰角速率、偏航角速率。3.根据权利要求1所述的基于强化学习的飞机大迎角失速改出方法,其特征在于,所述S1算法输出的动作空间包括升降舵、方向舵、油门舵面操作数据。4.根据权利要求1所述的强化学习的飞机大迎角失速改出方法,其特征在于,所述S2奖励函数为一系列与状态变量有关的函数,每个状态分量相关的奖励值由局部分量与全局分量加权构成。5.根据权利要求4所述的强化学习的飞机大迎角失速改出方法,其特征在于,所述状态变量为攻角、俯仰角、偏航角、滚转角、俯仰角速率、偏航角速率。6.根据权利要求4所述的强化学习的飞机大迎角失速改出方法,其特征在于,奖励函数形式如下:Reward=γReward
global
+(1

γ)Reward
local
每个状态分量相关的奖励值由局部分量与全局分量加权得到,权重γ决定了在此次计算中全局分量与局部分量的重要程度,其中,全局分量的计算构成为:其中函数变量state
t
表示智能体当前该状态分量的值,系数stat
etarget
表示智能体该状态分量的目标值,k为放缩系数,ε为函数斜率缩放系数,通过调整它的大小,可...

【专利技术属性】
技术研发人员:王君秋邢晨光王经纬谭健美
申请(专利权)人:中国航空研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1