基于双层强化学习的火箭回收制导方法技术

技术编号：37492146 阅读：15 留言：0更新日期：2023-05-07 09:30

本发明专利技术公开了一种基于双层强化学习的火箭回收制导方法，包括构建并训练火箭回收制导模型，并利用训练好的所述火箭回收制导模型生成火箭回收轨迹；其中，火箭回收制导模型基于双层强化学习进行训练，训练过程包括：探索奖励模块接收火箭回收轨迹，生成探索奖励；判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样，生成模仿奖励；策略网络模块根据探索奖励和模仿奖励进行更新，当满足迭代次数时结束。本发明专利技术采用双层学习框架，具有参数量少、计算能力要求低以及无需迭代等显著优势，且通过奖励鼓励策略广泛探索所有状态空间以提高鲁棒性。鲁棒性。鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于双层强化学习的火箭回收制导方法

[0001]本专利技术涉及火箭回收制导
，更具体的说是涉及一种基于双层强化学习的火箭回收制导方法。

技术介绍

[0002]目前，针对火箭着陆制导问题，主要采用基于间接法和直接法的轨迹优化方法，
[0003]间接法通过引入协变量，建立哈密尔顿函数，将轨迹优化问题转化为两点边值问题，最终求解一个非线性方程组；但该方法仅能满足最优解的一阶必要条件，无法满足解的最优性，且将轨迹优化问题转化为两点边值问题，收敛性也难以保证。
[0004]而直接法将轨迹问题转化为非线性规划问题，通过对指标和约束进行凸化，使其满足KKT条件，将复杂的着陆制导问题转化为易于求解的凸优化问题。但对于存在非线性很强、非凸因素很多的轨迹很难转化为凸优化问题，使得该方法的应用的仅局限在非线性较弱、非凸因素较少的领域。
[0005]同时，上述间接法和直接法的轨迹优化方法都涉及到迭代求解，考虑到目前箭载计算机的计算能力相对较弱，在优化问题复杂的情况下可能需要十几秒才能求出结果，无法满足航天器轨迹优化的实时性要求，且基于监督学习的方法需要构建大量的训练数据，从而使神经网络制导律限定在训练数据范围内，导致制导律的泛化性、鲁棒性较差。
[0006]因此，如何进一步研发设计火箭制导方法，以克服上述缺陷是本领域技术人员亟需解决的问题。

技术实现思路

[0007]有鉴于此，本专利技术提供了一种基于双层强化学习的火箭回收制导方法，旨在减少参数量、提高计算速度，以满足实时性要求；通过设计...

【技术保护点】

【技术特征摘要】
1.一种基于双层强化学习的火箭回收制导方法，其特征在于，包括构建并训练火箭回收制导模型，并利用训练好的所述火箭回收制导模型生成火箭回收轨迹；所述火箭回收制导模型基于双层强化学习进行训练，训练过程包括：探索奖励模块接收所述火箭回收轨迹，生成探索奖励；判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样，生成模仿奖励；策略网络模块根据所述探索奖励和所述模仿奖励进行更新，当满足迭代次数时结束。2.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法，其特征在于，所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。3.根据权利要求2所述的一种基于双层强化学习的火箭回收制导方法，其特征在于，所述火箭回收成功奖励定义为，火箭降落在回收点，且速度小于阈值，奖励设为5；所述火箭坠毁惩罚定义为，火箭降落在回收点，但速度大于阈值；或火箭降落在除回收点的其他位置，惩罚设为
‑
5；所述火箭接近奖励定义为，火箭比上一时刻更接近回收点，奖励设为0.1。4.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法，其特征在于，所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池，进行充分混合，所述判别网络模块从所述轨迹池中进行采样。5.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法，其特征在于，所述判别网络模块包括轨迹判别网络和奖励输出网络，所述轨迹判别网络，用于判断采样的轨迹是否为所述人类专家轨迹，所述奖励输出网络，根据如下公式输出奖励：r＝log(D
ω
(s,a)+0.5)式中，D
ω
(s,a)为轨迹判别网络的输出结果，s和a分别表示火箭回收制导模型输出的状态和动作。6.根据权利要求5所述的一种基于双层强化学习的火箭回收制导方法，其特征在于，所述轨迹判别网络输出属...

【专利技术属性】
技术研发人员：李文婷，朱皓同，李洪珏，林岩，
申请(专利权)人：北京航天自动控制研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人