System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于深度强化学习的非合作航天器主动跟踪方法。本专利技术属于航天航空领域。
技术介绍
1、当前,航天器的主动跟踪问题主要采用传统控制方法来解决,例如:pid控制、h∞控制、滑模控制等等。然而,传统控制方法解决航天器主动跟踪问题,往往依赖较为精准的控制对象模型,并需要通过复杂繁琐的数学推导设计出稳定的控制律并细致调整控制器的参数,以保证控制算法的有效性。实际上,非合作航天器的姿轨运动信息往往是不准确的,同时追逐航天器和目标航天器的相对运动动力学模型存在许多不确定的高强度外部扰动,这给当前航天器主动跟踪方法提出了非常大的挑战。近年来,深度强化学习算法的蓬勃发展,为解决非合作航天器的主动跟踪问题提供了一个新颖的视角。
2、深度强化学习算法主要是通过智能体与环境进行交互,并依据所获得的环境奖励来学习到最优控制策略。其优点是不需要对环境进行建模,仅需要保证智能体本身的动力学模型准确即可。智能体通过与环境迭代交互,不断地更新策略,从而获得更优的策略参数。其优点是在面对非线性、非静态、非确定性的环境时,仍能够在大量的在线/离线迭代优化智能体的控制策略,从而获得较好的控制效果。此外,深度强化学习算法可以在训练过程中加入不同的外部扰动,使得智能体能够学习到较为鲁棒的动作策略,并实时根据环境的变化做出相应调整。
技术实现思路
1、本专利技术的目的是为了解决现有基于深度强化学习的非合作航天器主动跟踪算法无法融合航天器动力学模型以及卫星轨道动力学,无法有效的在保证跟踪精度的基础上提
2、一种基于深度强化学习的非合作航天器主动跟踪方法具体过程为:
3、步骤1、基于目标航天器和追逐航天器的基础参数、目标航天器和追逐航天器的坐标系、目标航天器和追逐航天器所受万有引力,将目标航天器所受的万有引力转换为目标航天器的位置以及速度,将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度;
4、步骤2、设置状态空间和动作空间,构建基于transformer的演员网络和评论家网络,以及演员网络的损失函数和评论家网络的损失函数;
5、步骤3、构建奖励函数,获得训练好的演员网络、评论家网络;
6、步骤4、获得目标航天器与追逐航天器之间位置与期望位置的差距,以及目标航天器与追逐航天器之间的速度差,输入训练好的演员网络,训练好的演员网络输出当前时间步的动作。
7、本专利技术的有益效果为:
8、本专利技术提供了一种融合航天器动力学模型以及卫星轨道动力学,能够处理时序信息并且能提升算法鲁棒性的端到端基于深度强化学习的非合作航天器主动跟踪算法。
9、本专利技术拟提出一种基于深度强化学习的非合作航天器主动跟踪算法,将带有估计噪声的航天器位姿信息作为输入,结合目标航天器和追逐航天器的相对轨道运动动力学模型,通过深度确定性策略梯度方法,以端到端的方式学习到近似最优的主动跟踪策略。
10、本专利技术提出了基于无监督深度强化学习的主动视觉跟踪器,实现了对非合作航天器的精准鲁棒跟踪。该跟踪器实现了对二阶控制系统的最优控制,避免了传统控制理论中的复杂模型构建以及参数调整,且深度强化学习本身对含扰动的状态数据具有较好的鲁棒性,能够应对可能存在的传感器观测干扰;
11、本专利技术设计了一种新颖的基于transformer的演员网络和评论家网络,有效地从序列输入状态中提取出了高层语义信息和时序联系,隐式地表征了目标航天器和追逐航天器之间的耦合运动,大幅提升了主动跟踪算法的收敛性并优化跟踪效果;
12、本专利技术改进了演员网络和评论家网络的损失函数,使其能够根据输入序列状态更好、更快、更稳定地学习最优控制策略,提升了主动跟踪算法的跟踪效果。
本文档来自技高网...【技术保护点】
1.一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述方法具体过程为:
2.根据权利要求1所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述在步骤1中基于目标航天器和追逐航天器的基础参数、目标航天器和追逐航天器的坐标系、目标航天器和追逐航天器所受万有引力,将目标航天器所受的万有引力转换为目标航天器的位置以及速度,将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度;
3.根据权利要求2所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述t时刻的航天器信息转置矩阵A具体形式如下式所示:
4.根据权利要求3所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤2中设置状态空间和动作空间,构建基于Transformer的演员网络和评论家网络,以及演员网络的损失函数和评论家网络的损失函数;包括以下步骤:
5.根据权利要求4所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述所述步骤3中构建奖励函数,获得训练好的演员网络、评论家网络、目标演员网络、目
6.根据权利要求5所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤33中定义奖励函数;具体过程为:
7.根据权利要求6所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤34中设定经验回放池参数、评论家网络和演员网络的超参数;具体过程为:
8.根据权利要求7所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤35中动作选取策略;具体过程为:
9.根据权利要求8所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤37中利用评论家网络预测当前时间步的动作价值;
10.根据权利要求9所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤38中利用演员网络预测当前时间步的动作,同时利用评论家网络估计下一时间步的动作价值,最后根据时序差分误差,对评论家网络参数以及目标评论家网络参数进行更新;
...【技术特征摘要】
1.一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述方法具体过程为:
2.根据权利要求1所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述在步骤1中基于目标航天器和追逐航天器的基础参数、目标航天器和追逐航天器的坐标系、目标航天器和追逐航天器所受万有引力,将目标航天器所受的万有引力转换为目标航天器的位置以及速度,将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度;
3.根据权利要求2所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述t时刻的航天器信息转置矩阵a具体形式如下式所示:
4.根据权利要求3所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述步骤2中设置状态空间和动作空间,构建基于transformer的演员网络和评论家网络,以及演员网络的损失函数和评论家网络的损失函数;包括以下步骤:
5.根据权利要求4所述的一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述所述步骤3中构建奖...
【专利技术属性】
技术研发人员:周栋,孙光辉,邵士博,邵翔宇,吴立刚,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。