基于深度策略性梯度强化学习的在线轨迹生成制导方法技术

技术编号：33855200 阅读：32 留言：0更新日期：2022-06-18 10:42

一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，属于轨迹生成技术领域。方法如下：建立无量纲化的动力学模型，并将过程约束转化为倾侧角约束；设计攻角剖面和倾侧角剖面形式；设定强化学习要素；建立actor

全部详细技术资料下载

【技术实现步骤摘要】
基于深度策略性梯度强化学习的在线轨迹生成制导方法

[0001]本专利技术涉及一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，属于轨迹生成

技术介绍

[0002]可重复使用运载器滑翔段具有广空域、宽速域的特点，再入滑翔过程中还要满足热流、过载、动压等过程约束和末端速度、高度、航程等末端约束。飞行器动力学模型复杂，气动干扰性比较强。传统制导方法很难应对滑翔过程中的强扰动条件，偏差较大。

技术实现思路

[0003]为解决
技术介绍
中存在的问题，本专利技术提供一种基于深度策略性梯度强化学习的在线轨迹生成制导方法。
[0004]实现上述目的，本专利技术采取下述技术方案：一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，所述方法包括如下步骤：
[0005]S1：建立无量纲化的动力学模型，并将过程约束转化为倾侧角约束；
[0006]S2：设计攻角剖面和倾侧角剖面形式；
[0007]S3：设定强化学习要素；
[0008]S4：建立actor
‑
critic架构的智能体；
[0009]S5：提取智能体的online
‑
actor网络参数并进行固定。
[0010]与现有技术相比，本专利技术的有益效果是：
[0011]本专利技术考虑飞行器终点的状态约束以及整个飞行过程的过程约束，能够有效的在可重复使用运载器的滑翔段大扰动条件下生成再入轨迹；解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不足，难以满足多个

【技术保护点】

【技术特征摘要】
1.一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述方法包括如下步骤：S1：建立无量纲化的动力学模型，并将过程约束转化为倾侧角约束；S2：设计攻角剖面和倾侧角剖面形式；S3：设定强化学习要素；S4：建立actor
‑
critic架构的智能体；S5：提取智能体的online
‑
actor网络参数并进行固定。2.根据权利要求1所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S1包括如下步骤：S101：建立无量纲化的动力学模型如下：式(1)中：r表示飞行器飞行时的地心距；V表示飞行器飞行时的速度；γ表示飞行器的飞行路径角；θ表示飞行器飞行时的经度；ψ表示飞行器飞行时的航向角；表示飞行器飞行时的纬度；σ表示飞行器飞行时的倾侧角；D表示飞行器的气动阻力；L表示飞行器的气动升力；且：式(2)中：α表示飞行器飞行时的攻角；C
L
(α,Ma)表示由攻角和马赫数决定的升力系数；C
D
(α,Ma)表示由攻角和马赫数决定的阻力系数；
q表示飞行器的动压；S
ref
表示飞行器的参考面积；S102：将过程约束转化为倾侧角约束的过程如下：S10201：确定过程约束如下：大气密度公式采用指数型公式：式(3)中：ρ为大气密度；ρ0＝1.225kg/m3为海平面大气密度；h
s
＝7110m为基准高度；h为飞行器高度；e为自然常数；动压约束：q＝ρ(VV
c
)2/2≤q
max
ꢀꢀ
(4)式(4)中：q为动压；为无量纲化常量，其中：g0＝9.8m/s2为引力常量，R0为地球半径；q
max
为飞行器能承受的最大动压；过载约束：式(5)中：n为过载；n
max
为飞行器所能承受的最大过载；热流约束：式(6)中：Q为热流；C1和R
d
均为与飞行器头部形状相关的常数；Q
max
为飞行器所能承受的最大热流；准平衡滑翔约束：采用飞行路径角为常数形式的准平衡滑翔约束，对于无动力滑翔的情况，可写为：S10202：基于飞行器高度
‑
速度剖面建立再入走廊模型，结合速度、最大动压、最大过载以及最大热流约束便可初步得到再入走廊如下：动压约束再入走廊边界H
qmax
(V)如下：
过载约束再入走廊边界如下：热流约束再入走廊边界如下：其中，C
q
为飞行器的热流系数；准平衡滑翔约束再入走廊边界如下：利用牛顿迭代求解式获得准平衡滑翔约束对应的再入走廊边界H
QEGC
(V)；S10203：基于飞行器高度
‑
速度剖面的再入走廊上下边界表示如下：式(11)中：H
up
为再入走廊上边界；H
down
为再入走廊下边界；将再入走廊转化为对倾侧角大小的限制，即：|σ
up
|≤|σ|≤|σ
down
|
ꢀꢀ
(12)式(12)中：|σ
up
|为倾侧角的上边界,由再入走廊下边界决定；|σ
down
|为倾侧角的下边界,由再入走廊上边界决定。3.根据权利要求2所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S2包括如下步骤：令再入过程中的控制量为攻角和倾侧角，则攻角α的剖面形式为：式(13)中：α
max
表示经过约束得到的飞行器能承受的最大攻角；α2表示飞行器最大升阻比对应的攻角；V表示飞行器飞行时的速度；V1、V2表示分段处对应的飞行器的速度；...

【专利技术属性】
技术研发人员：韦常柱，浦甲伦，刘哲，朱光楠，张延坤，
申请(专利权)人：哈尔滨逐宇航天科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人