System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及卫星智能,具体涉及一种基于深度强化学习的观测星座优化方法。
技术介绍
1、观测星座是对地海空目标进行观测的一类卫星星座。观测星座的优化是指通过对卫星星座系统进行全面、综合的分析和优化,以提高观测效能、降低成本、扩展应用领域等为目标的一系列技术活动。在星座设计中,优化技术的应用可以大大提高星座的观测性能,是使卫星星座保持高的观测性能、降低运行成本的重要技术手段之一。因此,研究高效的观测星座优化方法具有重要意义。
2、观测星座优化的挑战之一在于,为满足多变的观测任务需求与复杂环境约束,需要快速调整观测路径。强化学习作为智能控制方法,通过与环境交互学习最优策略,提升卫星自主决策能力。在突发情况下,卫星能迅速调整计划,优先观测关键区域,为决策提供即时信息。通过对星座的优化不仅增强其适应性,还降低能耗,延长服役寿命。研究强化学习在观测星座优化中的应用,是推动空间技术智能化、提升观测效能的关键,对国家安全、环境保护等具有重要实践意义。
3、目前,传统的td3技术中的经验回放是智能体模型通过均匀分布抽样进行学习,但其高价值样本被普通样本进行稀释,使模型更新并不有效,效率低。而且其在动作输出时加入的噪声是稳定标准差的高斯噪声,对于噪声前后变化大的情况时,会导致智能体模型不稳定。
技术实现思路
1、针对现有技术中的上述不足,本专利技术提供的一种基于深度强化学习的观测星座优化方法解决了传统td3技术在噪声前后变化大的情况时会导致观测星座不稳定的问题。
3、提供了一种基于深度强化学习的观测星座优化方法,其包括以下步骤:
4、s1、确定待观测星座的星座构型并获取其卫星轨道参数;
5、s2、基于卫星轨道参数,利用强化学习算法构建星座优化策略;
6、s3、建立状态空间模型、动作空间模型并设计奖励函数;
7、s4、基于最优策略函数,利用改进后的td3算法对状态空间模型、动作空间模型和奖励函数进行处理,得到最终优化策略;
8、s5、通过待观测星座执行最终优化策略,完成对观测星座的优化。
9、进一步地,步骤s1包括以下步骤:
10、s1-1、确定待观测星座的星座构型;其中,星座构型包括通用星座构型和walker星座构型;
11、s1-2、判断待观测星座的星座构型是否为通用星座构型;若是则进入步骤s1-3;反之则判定待观测星座的星座构型为walker星座构型并进入步骤s1-4;
12、s1-3、将通用星座构型的每个卫星对应的6个第一轨道参数作为卫星轨道参数,并进入步骤s2;其中,6个第一轨道参数分别为卫星轨道半长轴、轨道偏心率、轨道面倾角、近地点幅角、升交点赤经、真近点角;
13、s1-4、确定walker星座构型的卫星总数ns以及各卫星的轨道根数、相位因子、轨道平面数、轨道半长轴、轨道面倾角;
14、s1-5、将walker星座构型的第一颗卫星作为种子卫星,并获取对应的升交点赤经、在初始时刻的真近点角;
15、s1-6、根据公式:
16、
17、获取剩余卫星的升交点赤经raanm,n和真近点角其中,raan1,1表示种子卫星的升交点赤经,p表示轨道平面数,π表示圆周率,m表示该卫星位于第m个轨道平面,n表示轨道平面上的第n个卫星,表示种子卫星在初始时刻的真近点角;
18、s1-7、将walker星座构型的卫星总数ns、相位因子、轨道平面数、轨道半长轴、轨道面倾角以及所有卫星的升交点赤经、在初始时刻的真近点角作为卫星轨道参数,并进入步骤s2。
19、进一步地,步骤s2包括以下步骤:
20、s2-1、将待观测星座作为智能体并确定待观测星座的优化任务,基于马尔可夫决策过程构建对应mdp模型,对应的公式为:
21、mdp=(s,a,p,r,γ)
22、其中,s表示状态集合,包括卫星轨道参数,a表示动作集合,p表示状态转移函数,r表示即时奖惩,γ表示折扣因子;
23、s2-2、计算mdp模型执行所有决策对应的累计奖励;
24、s2-3、计算最佳状态价值函数和最佳状态动作价值函数其中,a表示动作集合a中的动作;
25、s2-4、基于最佳状态价值函数和最佳状态动作价值函数确定星座优化策略。
26、进一步地,累计奖励的计算公式为:
27、
28、其中,gt、gt+1分别表示时刻t、时刻t+1对应的累计奖励,∑(·)表示求和函数,rt+1、rt+2、rt+3、rt+k+1分别表示时刻t、时刻t+1、时刻t+3、时刻t+k+1对应的即时奖惩;
29、最佳状态价值函数的计算公式为:
30、
31、其中,max(·)表示最大值函数,s'、s表示状态,表示状态s'对应的最佳状态价值函数,p(s'|s,a)表示在状态s时智能体执行动作a转移到状态s'的概率,r(s,a)表示在状态s时智能体执行动作a的即时奖惩;
32、最佳状态动作价值函数的计算公式为:
33、
34、其中,表示在状态s'时智能体执行动作a'的最佳状态动作价值函数。
35、进一步地,步骤s3包括以下步骤:
36、s3-1、判断待观测星座的星座构型是否为通用星座构型;若是则进入步骤s3-2;反之则并入步骤s3-4;
37、s3-2、将通用星座构型的卫星轨道半长轴a0设为8000km、卫星轨道设为圆轨道、偏心率设为0、近地点幅角设为0,将轨道面倾角、升交点赤经、真近点角和位置参数作为状态,即状态空间模型,对应的表达式为:
38、
39、其中,分别表示待观测星座的第一个卫星s1、第二个卫星s2的轨道面倾角分别表示待观测星座的第一个卫星s1、第二个卫星s2的升交点赤经分别表示待观测星座的第一个卫星s1、第二个卫星s2、第ns个卫星的真近点角slon、slat、salt分别表示待观测星座在gps84坐标系下的经度、纬度和高度值;
40、s3-3、建立通用星座构型的动作空间模型,即状态空间模型,并进入步骤s3-6;其中,通用星座构型的状态空间模型a对应的表达式为:
41、
42、其中,分别表示待观测星座的第一个卫星s1、第二个卫星s2在轨道面倾角的动作,分别表示待观测星座的第一个卫星s1、第二个卫星s2在升交点赤经的动作,分别表示观测星座的第一个卫星s1、第二个卫星s2、第ns个卫星在真近点角的动作;
43、s3-4、将walker星座构型的卫星轨道半长轴为定值,将轨道平面数、相位因子、轨道面倾角、升交点赤经、真近点角和位置参数作为状态,即状态空间模型,对应的表达式为:
44、
45、其中,sp、sf、sinc、分别表本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习的观测星座优化方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤S1包括以下步骤:
3.根据权利要求2所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤S2包括以下步骤:
4.根据权利要求3所述的基于深度强化学习的观测星座优化方法,其特征在于:所述累计奖励的计算公式为:
5.根据权利要求3所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤S3包括以下步骤:
6.根据权利要求5所述的基于深度强化学习的观测星座优化方法,其特征在于:所述改进后的TD3算法采用动态策略噪声机制,且包括Actor策略网络、Critic价值网络;其中,Actor策略网络包括target策略网络、online策略网络;Critic价值网络包括target价值网络、online价值网络;target价值网络包括target1价值网络、target2价值网络;online价值网络包括online1价值网络、online2价值网络。
8.根据权利要求7所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤S4-3的公式为:
9.根据权利要求7所述的基于深度强化学习的观测星座优化方法,其特征在于:所述经验池RB采用优先经验回放机制。
...【技术特征摘要】
1.一种基于深度强化学习的观测星座优化方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤s1包括以下步骤:
3.根据权利要求2所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤s2包括以下步骤:
4.根据权利要求3所述的基于深度强化学习的观测星座优化方法,其特征在于:所述累计奖励的计算公式为:
5.根据权利要求3所述的基于深度强化学习的观测星座优化方法,其特征在于:所述步骤s3包括以下步骤:
6.根据权利要求5所述的基于深度强化学习的观测星座优化方法,其特征在于:所述改进后的td3算法采用动态策略噪声机制,且包括actor策略网络、cri...
【专利技术属性】
技术研发人员:江秀强,郑鹏鑫,季袁冬,孙国皓,宁召柯,钟苏川,周创,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。