基于深度策略性梯度强化学习的在线轨迹生成制导方法技术

技术编号:33855200 阅读:22 留言:0更新日期:2022-06-18 10:42
一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,属于轨迹生成技术领域。方法如下:建立无量纲化的动力学模型,并将过程约束转化为倾侧角约束;设计攻角剖面和倾侧角剖面形式;设定强化学习要素;建立actor

【技术实现步骤摘要】
基于深度策略性梯度强化学习的在线轨迹生成制导方法


[0001]本专利技术涉及一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,属于轨迹生成


技术介绍

[0002]可重复使用运载器滑翔段具有广空域、宽速域的特点,再入滑翔过程中还要满足热流、过载、动压等过程约束和末端速度、高度、航程等末端约束。飞行器动力学模型复杂,气动干扰性比较强。传统制导方法很难应对滑翔过程中的强扰动条件,偏差较大。

技术实现思路

[0003]为解决
技术介绍
中存在的问题,本专利技术提供一种基于深度策略性梯度强化学习的在线轨迹生成制导方法。
[0004]实现上述目的,本专利技术采取下述技术方案:一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,所述方法包括如下步骤:
[0005]S1:建立无量纲化的动力学模型,并将过程约束转化为倾侧角约束;
[0006]S2:设计攻角剖面和倾侧角剖面形式;
[0007]S3:设定强化学习要素;
[0008]S4:建立actor

critic架构的智能体;
[0009]S5:提取智能体的online

actor网络参数并进行固定。
[0010]与现有技术相比,本专利技术的有益效果是:
[0011]本专利技术考虑飞行器终点的状态约束以及整个飞行过程的过程约束,能够有效的在可重复使用运载器的滑翔段大扰动条件下生成再入轨迹;解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不足,难以满足多个终端约束的问题。同时,本专利技术在深度确定性策略梯度学习框架基础上,通过对随机强扰动条件下的离线飞行轨迹进行网络训练,寻找不同环境影响条件下的最优动作网络,以用于在线干扰条件下的制导轨迹规划,可通过对再入飞行攻角和倾侧角剖面的周期性预测,满足再入飞行终端高度、航程和速度约束。较传统跟踪制导方法有较大的精度提升,算法计算量小,具有较好的应用前景。
附图说明
[0012]图1是本专利技术的流程图;
[0013]图2是本专利技术的DDPG强化学习在线轨迹生成制导训练与应用流程图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是专利技术的一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,
都属于本专利技术保护的范围。
[0015]一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,所述方法包括如下步骤:
[0016]S1:建立无量纲化的动力学模型,并将热流、过载、动压等过程约束转化为倾侧角约束;
[0017]S101:建立无量纲化的动力学模型如下:
[0018][0019]式(1)中:
[0020]r表示飞行器飞行时的地心距;
[0021]V表示飞行器飞行时的速度;
[0022]γ表示飞行器的飞行路径角;
[0023]θ表示飞行器飞行时的经度;
[0024]ψ表示飞行器飞行时的航向角;
[0025]表示飞行器飞行时的纬度;
[0026]σ表示飞行器飞行时的倾侧角;
[0027]D表示飞行器的气动阻力;
[0028]L表示飞行器的气动升力;
[0029]且:
[0030][0031]式(2)中:
[0032]α表示飞行器飞行时的攻角;
[0033]C
L
(α,Ma)表示由攻角和马赫数决定的升力系数;
[0034]C
D
(α,Ma)表示由攻角和马赫数决定的阻力系数;
[0035]q表示飞行器的动压;
[0036]S
ref
表示飞行器的参考面积;
[0037]S102:将过程约束转化为倾侧角约束的过程如下:
[0038]S10201:确定过程约束如下:
[0039]大气密度公式采用指数型公式:
[0040][0041]式(3)中:
[0042]ρ为大气密度;
[0043]ρ0=1.225kg/m3为海平面大气密度;
[0044]h
s
=7110m为基准高度;
[0045]h为飞行器高度;
[0046]e为自然常数;
[0047]动压约束:
[0048]q=ρ(VV
c
)2/2≤q
max
ꢀꢀꢀ
(4)
[0049]式(4)中:
[0050]q为动压;
[0051]为无量纲化常量,其中:g0=9.8m/s2为引力常量,R0为地球半径;
[0052]q
max
为飞行器能承受的最大动压;
[0053]过载约束:
[0054][0055]式(5)中:
[0056]n为过载;
[0057]n
max
为飞行器所能承受的最大过载;
[0058]热流约束:
[0059][0060]式(6)中:
[0061]Q为热流;
[0062]C1和R
d
均为与飞行器头部形状相关的常数;
[0063]Q
max
为飞行器所能承受的最大热流;
[0064]准平衡滑翔约束:
[0065]采用飞行路径角为常数形式的准平衡滑翔约束,对于无动力滑翔的情况,可写为:
[0066][0067]S10202:基于飞行器高度

速度剖面建立再入走廊模型,结合速度、最大动压、最大过载以及最大热流约束便可初步得到再入走廊如下:
[0068]动压约束再入走廊边界H
qmax
(V)如下:
[0069][0070]过载约束再入走廊边界如下:
[0071][0072]热流约束再入走廊边界如下:
[0073][0074]其中,C
q
为飞行器的热流系数;
[0075]准平衡滑翔约束再入走廊边界如下:
[0076]利用牛顿迭代求解式获得准平衡滑翔约束对应的再入走廊边界H
QEGC
(V);
[0077]S10203:基于飞行器高度

速度剖面的再入走廊上下边界表示如下:
[0078][0079]式(11)中:
[0080]H
up
为再入走廊上边界;
[0081]H
down
为再入走廊下边界;
[0082]再入运动学模型中攻角指令作为已知量以攻角

速度剖面形式取定,则飞行器再入制导中只将倾侧角作为唯一的控制量。基于飞行器再入走廊,每给定一个速度V可找到其对应的r,结合准平衡滑翔条件便得到对应σ。将再入走廊转化为对倾侧角大小的限制,即:
[0083]|σ
up...

【技术保护点】

【技术特征摘要】
1.一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述方法包括如下步骤:S1:建立无量纲化的动力学模型,并将过程约束转化为倾侧角约束;S2:设计攻角剖面和倾侧角剖面形式;S3:设定强化学习要素;S4:建立actor

critic架构的智能体;S5:提取智能体的online

actor网络参数并进行固定。2.根据权利要求1所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S1包括如下步骤:S101:建立无量纲化的动力学模型如下:式(1)中:r表示飞行器飞行时的地心距;V表示飞行器飞行时的速度;γ表示飞行器的飞行路径角;θ表示飞行器飞行时的经度;ψ表示飞行器飞行时的航向角;表示飞行器飞行时的纬度;σ表示飞行器飞行时的倾侧角;D表示飞行器的气动阻力;L表示飞行器的气动升力;且:式(2)中:α表示飞行器飞行时的攻角;C
L
(α,Ma)表示由攻角和马赫数决定的升力系数;C
D
(α,Ma)表示由攻角和马赫数决定的阻力系数;
q表示飞行器的动压;S
ref
表示飞行器的参考面积;S102:将过程约束转化为倾侧角约束的过程如下:S10201:确定过程约束如下:大气密度公式采用指数型公式:式(3)中:ρ为大气密度;ρ0=1.225kg/m3为海平面大气密度;h
s
=7110m为基准高度;h为飞行器高度;e为自然常数;动压约束:q=ρ(VV
c
)2/2≤q
max
ꢀꢀ
(4)式(4)中:q为动压;为无量纲化常量,其中:g0=9.8m/s2为引力常量,R0为地球半径;q
max
为飞行器能承受的最大动压;过载约束:式(5)中:n为过载;n
max
为飞行器所能承受的最大过载;热流约束:式(6)中:Q为热流;C1和R
d
均为与飞行器头部形状相关的常数;Q
max
为飞行器所能承受的最大热流;准平衡滑翔约束:采用飞行路径角为常数形式的准平衡滑翔约束,对于无动力滑翔的情况,可写为:S10202:基于飞行器高度

速度剖面建立再入走廊模型,结合速度、最大动压、最大过载以及最大热流约束便可初步得到再入走廊如下:动压约束再入走廊边界H
qmax
(V)如下:
过载约束再入走廊边界如下:热流约束再入走廊边界如下:其中,C
q
为飞行器的热流系数;准平衡滑翔约束再入走廊边界如下:利用牛顿迭代求解式获得准平衡滑翔约束对应的再入走廊边界H
QEGC
(V);S10203:基于飞行器高度

速度剖面的再入走廊上下边界表示如下:式(11)中:H
up
为再入走廊上边界;H
down
为再入走廊下边界;将再入走廊转化为对倾侧角大小的限制,即:|σ
up
|≤|σ|≤|σ
down
|
ꢀꢀ
(12)式(12)中:|σ
up
|为倾侧角的上边界,由再入走廊下边界决定;|σ
down
|为倾侧角的下边界,由再入走廊上边界决定。3.根据权利要求2所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S2包括如下步骤:令再入过程中的控制量为攻角和倾侧角,则攻角α的剖面形式为:式(13)中:α
max
表示经过约束得到的飞行器能承受的最大攻角;α2表示飞行器最大升阻比对应的攻角;V表示飞行器飞行时的速度;V1、V2表示分段处对应的飞行器的速度;...

【专利技术属性】
技术研发人员:韦常柱浦甲伦刘哲朱光楠张延坤
申请(专利权)人:哈尔滨逐宇航天科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1