基于双层强化学习的火箭回收制导方法技术

技术编号:37492146 阅读:15 留言:0更新日期:2023-05-07 09:30
本发明专利技术公开了一种基于双层强化学习的火箭回收制导方法,包括构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;其中,火箭回收制导模型基于双层强化学习进行训练,训练过程包括:探索奖励模块接收火箭回收轨迹,生成探索奖励;判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;策略网络模块根据探索奖励和模仿奖励进行更新,当满足迭代次数时结束。本发明专利技术采用双层学习框架,具有参数量少、计算能力要求低以及无需迭代等显著优势,且通过奖励鼓励策略广泛探索所有状态空间以提高鲁棒性。鲁棒性。鲁棒性。

【技术实现步骤摘要】
基于双层强化学习的火箭回收制导方法


[0001]本专利技术涉及火箭回收制导
,更具体的说是涉及一种基于双层强化学习的火箭回收制导方法。

技术介绍

[0002]目前,针对火箭着陆制导问题,主要采用基于间接法和直接法的轨迹优化方法,
[0003]间接法通过引入协变量,建立哈密尔顿函数,将轨迹优化问题转化为两点边值问题,最终求解一个非线性方程组;但该方法仅能满足最优解的一阶必要条件,无法满足解的最优性,且将轨迹优化问题转化为两点边值问题,收敛性也难以保证。
[0004]而直接法将轨迹问题转化为非线性规划问题,通过对指标和约束进行凸化,使其满足KKT条件,将复杂的着陆制导问题转化为易于求解的凸优化问题。但对于存在非线性很强、非凸因素很多的轨迹很难转化为凸优化问题,使得该方法的应用的仅局限在非线性较弱、非凸因素较少的领域。
[0005]同时,上述间接法和直接法的轨迹优化方法都涉及到迭代求解,考虑到目前箭载计算机的计算能力相对较弱,在优化问题复杂的情况下可能需要十几秒才能求出结果,无法满足航天器轨迹优化的实时性要求,且基于监督学习的方法需要构建大量的训练数据,从而使神经网络制导律限定在训练数据范围内,导致制导律的泛化性、鲁棒性较差。
[0006]因此,如何进一步研发设计火箭制导方法,以克服上述缺陷是本领域技术人员亟需解决的问题。

技术实现思路

[0007]有鉴于此,本专利技术提供了一种基于双层强化学习的火箭回收制导方法,旨在减少参数量、提高计算速度,以满足实时性要求;通过设计神经网络形式的制导策略,增强其泛化能力和鲁棒性。
[0008]本专利技术公开的基于双层强化学习的火箭回收制导方法,具体包括:
[0009]构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;
[0010]所述火箭回收制导模型基于双层强化学习进行训练,训练过程包括:
[0011]探索奖励模块接收所述火箭回收轨迹,生成探索奖励;
[0012]判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;
[0013]策略网络模块根据所述探索奖励和所述模仿奖励进行更新,当满足迭代次数时结束。
[0014]优选的,所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。
[0015]优选的,所述火箭回收成功奖励定义为,火箭降落在回收点,且速度小于阈值,奖励设为5;
[0016]所述火箭坠毁惩罚定义为,火箭降落在回收点,但速度大于阈值;或火箭降落在除回收点的其他位置,惩罚设为

5;
[0017]所述火箭接近奖励,定义为,火箭比上一时刻更接近回收点,奖励设为0.1。
[0018]优选的,所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池,进行充分混合,所述判别网络模块从所述轨迹池中进行采样。
[0019]优选的,所述判别网络模块包括轨迹判别网络和奖励输出网络,
[0020]所述轨迹判别网络,用于判断采样的轨迹是否为所述人类专家轨迹,
[0021]所述奖励输出网络,根据如下公式输出奖励:
[0022]r=logD
ω
s,a+0.5
[0023]式中,D
ω
(s,a)为轨迹判别网络的输出结果,s和a分别表示火箭回收制导模型输出的状态和动作。
[0024]优选的,所述轨迹判别网络的输出为属于(0,1)的浮点数。
[0025]优选的,所述轨迹判别网络中参数w,按如下公式进行更新:
[0026][0027]式中,ω
i+1
表示更新后的参数,ω
i
表示更新前的参数,表示对网络参数ω求梯度;和分别表示对生成网络模块轨迹的判断预期和对人类专家轨迹的判断预期。
[0028]优选的,所述策略网络模块根据所述探索奖励和所述模仿奖励,使用近端策略优化算法进行网络参数优化和更新,
[0029]优选的,所述火箭回收制导模型包括马尔可夫决策模块和所述策略网络模块,所述马尔可夫决策模块用于获取火箭的状态,所述策略网络模块用于根据所述状态生成动作,所述状态和所述动作组成所述火箭回收轨迹。
[0030]优选的,所述马尔可夫决策模块根据火箭位置、速度和质量,得到火箭的状态,表达式为:
[0031]s=[r
T
v
T
m][0032]式中,s为火箭的状态,r为火箭位置矢量在地心赤道旋转坐标系中的表示,v为火箭速度矢量在地心赤道旋转坐标系中的表示,m为火箭质量;
[0033]同时,所述马尔可夫决策模块根据状态转移函数生成下一时刻的状态S
t+1
,所述状态转移函数的表达式为:
[0034]s
t+1
=F(s
t
,a
t
)
[0035]式中,s
t+1
表示t+1时刻的状态,s
t
表示t时刻的状态,a
t
表示t时刻的动作,F(x)表示状态转移函数。
[0036]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于双层强化学习的火箭回收制导方法,可解决火箭回收过程中的制导问题。
[0037]通过双层强化学习框架,使其无需迭代计算,且具有参数量少、计算能力要求低等显著优势,能够在功耗和计算能力受到严格限制的箭载计算机上实现轨迹优化的实时性与高精度性;
[0038]同时,专利提出强化学习探索奖励模块,鼓励策略广泛探索所有状态空间以提高鲁棒性。
附图说明
[0039]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0040]图1为本专利技术提供的火箭回收制导模型结构示意图;
[0041]图2为本专利技术提供的火箭回收制导模型训练流程图。
具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]本专利技术实施例公开了一种基于双层强化学习的火箭回收制导方法,具体包括构建并训练火箭回收制导模型,并利用训练好的火箭回收制导模型生成火箭回收轨迹;
[0044]其中,本专利技术创新性的提出包括马尔可夫决策模块和策略网络模块的火箭回收制导模型,马尔可夫决策模型将可回收火箭着陆制导问题建立为马尔可夫决策过程,策略网络能够与马尔可夫决策模型进行交互以获取新一步信息,即根据当前从马尔可夫决策模型接收的状态s,生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双层强化学习的火箭回收制导方法,其特征在于,包括构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;所述火箭回收制导模型基于双层强化学习进行训练,训练过程包括:探索奖励模块接收所述火箭回收轨迹,生成探索奖励;判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;策略网络模块根据所述探索奖励和所述模仿奖励进行更新,当满足迭代次数时结束。2.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。3.根据权利要求2所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述火箭回收成功奖励定义为,火箭降落在回收点,且速度小于阈值,奖励设为5;所述火箭坠毁惩罚定义为,火箭降落在回收点,但速度大于阈值;或火箭降落在除回收点的其他位置,惩罚设为

5;所述火箭接近奖励定义为,火箭比上一时刻更接近回收点,奖励设为0.1。4.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池,进行充分混合,所述判别网络模块从所述轨迹池中进行采样。5.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述判别网络模块包括轨迹判别网络和奖励输出网络,所述轨迹判别网络,用于判断采样的轨迹是否为所述人类专家轨迹,所述奖励输出网络,根据如下公式输出奖励:r=log(D
ω
(s,a)+0.5)式中,D
ω
(s,a)为轨迹判别网络的输出结果,s和a分别表示火箭回收制导模型输出的状态和动作。6.根据权利要求5所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述轨迹判别网络输出属...

【专利技术属性】
技术研发人员:李文婷朱皓同李洪珏林岩
申请(专利权)人:北京航天自动控制研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1