【技术实现步骤摘要】
卫星相对相位保持策略模型的建模方法、模型、获取方法
[0001]本专利技术涉及航空航天
,特别是涉及一种基于Dueling DQN的卫星相对相位保持策略模型的建模方法、模型、获取方法、设备、介质。
技术介绍
[0002]随着人类航天活动的不断开展,越来越多的遥感卫星为人们的日常生活提供帮助。
[0003]卫星星座在运行过程中通常都要求星座中的各卫星保持一定的相位,由于入轨及运行过程中各种摄动因素的影响,卫星的实际相位与标称相位之间会存在一定的误差,当该误差的量值使星座的性能降低时就应该对卫星的相位进行控制,消除卫星实际相位与标称相位的误差。
[0004]完全自主轨道保持可以有效降低卫星的运行成本,提高卫星应对突发事件的能力。如果能够实现MEO卫星的自主轨道保持,则可以极大地提高星座的工作能力,同时降低维护成本。具有完全自主轨道保持能力的卫星必须具有完全自主的导航与轨道控制。卫星的寿命将主要由其携带的燃料决定,有效的相位控制方法将使卫星的寿命延长。
[0005]现有的技术方法首先通过动力学模型分析了星座中的卫星在轨道运行过程中受到的地球形状和日月引力等各种摄动力的影响所导致的卫星相位变化,然后根据相位偏差与半长轴偏差的关系得出通过调整半长轴可以间接消除相位偏差的结论,然后设计相对相位保持的策略,进而对保持参数进行优化并且计算推进剂的消耗量。现有技术方法通过对卫星在轨道运行过程中受到的各种摄动力进行复杂的建模,然而由于空间受力的复杂性以及卫星本身参数的不确定性,导致无法对卫星进行精确建模,参 ...
【技术保护点】
【技术特征摘要】
1.一种基于Dueling DQN的卫星相对相位保持策略模型的建模方法,其特征在于,包括以下步骤:S1:初始化模型,获取多组卫星训练状态数据组,每组卫星训练状态数据组包括初始时刻第一卫星与第二卫星的状态、多个预期轨控时刻和预期轨控次数;第一卫星与第二卫星的状态包括第一卫星与第二卫星的相对相位差;S2:向模型中输入一组卫星训练状态数据组的初始时刻第一卫星与第二卫星的状态,得到初始时刻之后所有半长轴控制行为及所对应输出的Q值;S3:获取当前时刻第一卫星与第二卫星的状态,根据贪心策略获得第一卫星或第二卫星执行的半长轴控制行为;S4:执行半长轴控制行为,得到当前时刻往后推一到多个时刻的第一卫星与第二卫星的状态;根据当前时刻往后推一到多个时刻的第一卫星与第二卫星的状态、相对相位保持策略奖励函数得到累计奖励;所述相对相位保持策略奖励函数采用公式1:其中,r
t
为当前时刻第一卫星或第二卫星所执行的半长轴控制行为在t时刻往后推T个时刻所获得的累计奖励;δ为折扣值,0≤δ≤1;g
t+k
为当前时刻往后推k个时刻第一卫星或第二卫星进行半长轴控制行为所获得的奖励;g
t+k
的获得方法采用公式2:其中,g
t+k
为当前时刻往后推k个时刻第一卫星或第二卫星进行半长轴控制行为所获得的奖励,Δλ0为标称轨道的第一卫星与第二卫星的相对相位差,Δλ
s
为第一卫星与第二卫星的相对相位差保持阈值,Δλ
t+k+1
为当前时刻往后推k+1个时刻第一卫星与第二卫星的相对相位差,|Δλ
t+k+1
‑
Δλ0|为当前时刻往后推k个时刻对第一卫星或第二卫星进行半长轴控制后当前时刻往后推k+1个时刻第一卫星与第二卫星的相对相位差相对于标称轨道的变化;t1为当前时刻往后推k个时刻,t0为与t1时刻距离最近的预期轨控时刻;T为大于0的自然数,k为大于或等于0的自然数;t为当前时刻;S5:将当前时刻第一卫星与第二卫星的状态、第一卫星或第二卫星执行的半长轴控制行为、累计奖励和下一时刻第一卫星与第二卫星的状态作为一组卫星组合状态数据组存入经验池中;S6:从经验池中取出多组卫星组合状态数据组,根据目标卷积层权重参数、目标优势函数网络的参数、目标状态值函数网络的参数计算每个卫星组合状态数据组的目标值;S7:根据损失函数计算误差,并更新当前卷积层权重参数、当前优势函数网络的参数和当前状态值函数网络的参数;S8:根据值函数更新Q值;将下一时刻第一卫星与第二卫星的状态作为当前时刻第一卫星与第二卫星的状态;S9:重复执行步骤S3
‑
S8,执行步骤S3
‑
S8的次数等于该组卫星训练状态数据组的预期轨控次数;每重复执行指定迭代次数的步骤S3
‑
S8后,分别根据当前卷积层权重参数、当前优势函数网络的参数和当前状态值函数网络的参数更新目标卷积层权重参数、目标优势函
数网络的参数和目标状态值函数网络的参数;S10:重复执行步骤S2
‑
S9,直到输入完所有卫星训练状态数据组的数据。2.根据权利要求1所述的基于Dueling DQN的卫星相对相位保持策略模型的建模方法,其特征在于,步骤S3中,初次循环时,当前时刻第一卫星与第二卫星的状态为初始时刻第一卫星与第二卫星的状态。3.根据权利要求1所述的基于Dueling DQN的卫星相对相位保持策略模型的建模方法,其特征在于,步骤S3中,所述根据贪心策略获得第一卫星或第二卫星执行的半长轴控制行为的方法包括:第一卫星或第二卫星以第一指定概率随机选择半长轴控制行为、或以第二指定概率执行最大Q值所对应的半长轴控制行为;第一指定概率和第二指定概率之和等于1。4.根据权利要求1所述的基于Dueling DQN的卫星相对相位保持策略模型的建模方法,其特征在于,步骤S6中,所述根据目标卷积层权重参数、目标优势函数网络的参数、目标状态值函数网络的参数计算每个卫星组合状态数据组的目标值的方法采用公式4:其中,y
j
表示目标值,γ为折扣值,θ
′
为目标卷积层权重参数,θ为当前卷积层权重参数,α为当前优势函数网络的参数,α
′
为目标优势函...
【专利技术属性】
技术研发人员:吴琳琳,吴新林,何镇武,吴凌根,陈倩茹,王丽颖,张琳娜,
申请(专利权)人:北京航天驭星科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。