基于智能算法的分布式航天器重构方法及其装置制造方法及图纸

技术编号:39733089 阅读:10 留言:0更新日期:2023-12-17 23:35
本发明专利技术涉及分布式航天器技术领域,具体涉及一种基于智能算法的分布式航天器重构方法,包括:获取航天器的当前构型和目标构型,并对当前构型和目标构型定义成计算机可以识别的状态描述,通过策略网络选择动作,生成训练样本,存储在经验池中;根据

【技术实现步骤摘要】
基于智能算法的分布式航天器重构方法及其装置


[0001]本专利技术涉及分布式航天器
,具体涉及一种基于智能算法的分布式航天器重构方法及其装置


技术介绍

[0002]随着卫星的发射数量的与日俱增,失效航天器的数量也在不断增加,针对这一问题,各国研究人员在积极思考怎样提供在轨服务再重新利用卫星同时,也开始重视传统航天器的研发改革

传统航天器存在以下问题短板:第一,研制周期长,虽然在大量测试中保证了可靠性,但是无法在紧急任务中快速响应;第二,重复利用率低,大量卫星由于故障及成本因素,无法完成维修,废弃成为太空垃圾,造成了大量材料的浪费;分布式航天器就是在这样一种背景下提出的,它由一系列结构简单,功能各异的单元模块组成

为了实现更好的任务性与环境适应性,当多模块系统运行时,各模块单元分别通过连接与断开动作,自主实现构型变化,以满足环境与任务的需要

与普通航天器所不同的是它摆脱了固定构型的限制,并且能够自主完成构型的变化,因此针对未知环境下作业以及损坏航天器的维修和再利用方面有着显著的优势

目前空间机器人的研究重点主要在细胞构型的机械设计上

尽管地面的模块化细胞算法比较丰富,但目前仍没有较为高效的智能重构算法与空间细胞机器人相匹配

在地面算法中,无论是模块的移动方式还是操作环境,都与太空空间有着很大的不同,因此空间分布式航天器的重构规划算法的设计迫在眉睫


技术实现思路
r/>[0003]为了解决上述技术问题,本专利技术提供一种基于智能算法的分布式航天器重构方法及其装置,该方法采用神经网络对重构步骤进行预测规划

通过离线训练
+
在线拟合的思路,基于
SAC

PER
算法完成神经网络的训练,待神经网络训练好之后,将网络参数进行存储,在线仿真或者规划使用的时候根据将当前状态输入神经网络,即可得到预测规划结果

本专利技术可以应用于未来空间模块化航天器的在轨组装,根据不同的任务需求,完成不同功能类型航天器的组装

[0004]本专利技术目的是提供一种基于智能算法的分布式航天器重构方法,包括:
[0005]获取分布式航天器的当前构型和目标构型,并将当前构型和目标构型定义成计算机可以识别的状态描述;
[0006]构建5个神经网络,并将神经网络参数初始化;其中,5个神经网络包括一个策略网络

两个状态动作价值网络和两个目标状态动作价值网络;
[0007]基于策略网络选取动作,根据随机性策略方法,将当前构型的状态描述输入策略网络中,生成分布式航天器的当前构型到达下一构型时的所有动作选取概率,并采用动作遮蔽生成当前构型下分布式航天器可执行动作;
[0008]按照最大选取概率对应的可执行动作对分布式航天器进行搬运,生成下一构型,并生成训练样本,将训练样本存储在经验池中;依此类推,将下一构型作为当前构型,基于
策略网络,再次生成训练样本,且直至经验池填满;
[0009]基于
SAC
算法,利用经验池中的训练样本对所构建的5个神经网络进行训练,直至收敛,获取训练好的5个神经网络;其中,采用
PER
算法,在经验池中选取
TD
误差大的样本作为神经网络的训练集,并对训练时损失函数的权重计算;
[0010]根据训练好的策略网络,输入分布式航天器的当前构型状态描述,输出当前构型到达下一构型的动作选取概率,选取概率最大的动作,依次获取分布式航天器从当前构型到达目标构型的动作序列

[0011]优选的,所述状态描述包括构型状态空间相对位置

动作空间以及奖惩函数

[0012]更优选的,所述构型状态空间相对位置,包括:赋予组成构型的分布式模块以编号,将一号分布式模块的位置定义为空间原点位置,以单元分布式长度为单位长度,描述其余分布式相对位置,构成位置矩阵,来描述空间相对位置;
[0013]所述动作空间,包括:采用元组
(x,y,z)
来描述,其中
x
表示要去搬运的分布式模块编号,
y
表示要放在在那个基础分布式模块上,
z
表示要连接的接触分布式的连接面编号

[0014]更优选的,所述奖惩函数,包括:以目前构型和目标构型之间的位置差的负值为奖励函数一部分,并将负值除以原始的距离差,奖惩函数的另一部分为移动的步数,具体形式如下:
[0015][0016]R2=
‑1[0017]R

R1+R2[0019]其中
x
'i
,y
'i
,z
'i
为当前构型中每个分布式模块的位置;
x
i
,y
i
,z
i
为目标构型中每个分布式模块的位置;
R0为初始构型和目标构型的位置差的和的平方根;
R1描述构型差的奖惩函数;
R2为限制移动步数的奖惩函数

[0020]更优选的,训练样本包括当前构型状态

下一构型状态

到达下一构型状态的奖惩函数,以及唯一的可执行动作

[0021]优选的,在神经网络训练过程中,所述策略网络采用的损失函数是基于两个状态动作价值网络和两个目标状态动作价值网络而获取的;两个状态动作价值网络和两个目标状态动作价值网络均采用均方差损失函数

[0022]优选的,所述策略网络用于实现输入状态,输出策略的概率分布,进而根据概率分布去选择动作;策略网络的结构采用卷积层加两个全连接层的结构,最后加一个
softmax
层,策略网络输入构型描述矩阵,输出每一个动作的概率

[0023]优选的,所述两个动作状态价值网络:用来在训练过程中判别策略网络输出动作的价值,并用于选取动作状态价值较小的动作,从而减少不稳定性

[0024]两个目标动作状态价值网络:用于生成对前述两个动作状态价值网络的训练目标

[0025]优选的,所述训练好的神经网络之后,还包括验证阶段,将训练好的神经网络参数以及模型保存,封装动作选择函数,每次选择策略网络输出的概率最大的动作进行状态更
新,将目标构型和初始构型输入到系统,即可获得每一步的搬运动作即三元组,以及每一次搬运完成后的分布式航天器构型

[0026]本专利技术的目的是提供一种基于智能算法的分布式航天器重构装置,包括:
[0027]数据采集模块,用于获取分布式航天器的当前构型和目标构型,并将当前构型和目标构型定义成计算机可以识别的状态描述;
[0028]数据处理模块,用于构建5个神本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于智能算法的分布式航天器重构方法,其特征在于,包括:获取分布式航天器的当前构型和目标构型,并将当前构型和目标构型定义成计算机可以识别的状态描述;构建5个神经网络,并将神经网络参数初始化;其中,5个神经网络包括一个策略网络

两个状态动作价值网络和两个目标状态动作价值网络;基于策略网络选取动作,根据随机性策略方法,将当前构型的状态描述输入策略网络中,生成分布式航天器的当前构型到达下一构型时的所有动作选取概率,并采用动作遮蔽生成当前构型下分布式航天器可执行动作;按照最大选取概率对应的可执行动作对分布式航天器进行搬运,生成下一构型,并生成训练样本,将训练样本存储在经验池中;依此类推,将下一构型作为当前构型,基于策略网络,再次生成训练样本,且直至经验池填满;基于
SAC
算法,利用经验池中的训练样本对所构建的5个神经网络进行训练,直至收敛,获取训练好的5个神经网络;其中,采用
PER
算法,在经验池中选取
TD
误差大的样本作为神经网络的训练集,并对训练时损失函数的权重计算;根据训练好的策略网络,输入分布式航天器的当前构型状态描述,输出当前构型到达下一构型的动作选取概率,选取概率最大的动作,依次获取分布式航天器从当前构型到达目标构型的动作序列
。2.
根据权利要求1所述的基于智能算法的分布式航天器重构方法,其特征在于,所述状态描述包括构型状态空间相对位置

动作空间以及奖惩函数
。3.
根据权利要求2所述的基于智能算法的分布式航天器重构方法,其特征在于,所述构型状态空间相对位置,包括:赋予组成构型的分布式模块以编号,将一号分布式模块的位置定义为空间原点位置,以单元分布式长度为单位长度,描述其余分布式相对位置,构成位置矩阵,来描述空间相对位置;所述动作空间,包括:采用元组
(x,y,z)
来描述,其中
x
表示要去搬运的分布式模块编号,
y
表示要放在那个基础分布式模块上,
z
表示要连接的接触分布式的连接面编号
。4.
根据权利要求2所述的基于智能算法的分布式航天器重构方法,其特征在于,所述奖惩函数,包括:以目前构型和目标构型之间的位置差的负值为奖励函数一部分,并将负值除以原始的距离差,奖惩函数的另一部分为移动的步数,具体形式如下:
R2=

1R

R1+R2其中,
x
'i
,y
'i
,z
'i
为当前构型中每个分布式模块的位置;
x
i
,y
i
,z
i
为目标构型中每个分布式模块的位置;
R0为初始构型和目标构型的位置差的和的平方根;
R1描述构型差的奖惩函数;
R2为限制移动步数的奖惩函数
。5.
根据权利要求...

【专利技术属性】
技术研发人员:张夷斋刘天乐黄攀峰沈刚辉张帆马志强
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1