一种航天器人工智能模型训练方法与系统技术方案

技术编号：35478915 阅读：23 留言：0更新日期：2022-11-05 16:28

本发明专利技术提出了一种航天器人工智能模型训练方法与系统，基于现有自主研发的航天器仿真平台SpaceSim平台，开发了一款通用化的航天器攻防对抗、博弈的智能技术研发和应用的平台SpaceSimGYM；在对抗时间固定的近地圆轨道上，进行红方可见光侦察卫星观测设置；同时设置红方可见光侦察卫星动作；设计奖励回报函数以鼓励智能体完成轨道目标拦截，实时状态更新并设置终止条件：本发明专利技术本发明专利技术支持模拟多个智能体之间的对抗与合作过程，且能够支持多类型任务，实现了在连续推力下基于强化学习的与空间非合作目标的最优拦截策略，在支持使用可视化平台构建航天器对抗场景的同时，做到了场景的便捷性。便捷性。便捷性。

全部详细技术资料下载

【技术实现步骤摘要】
一种航天器人工智能模型训练方法与系统

[0001]本专利技术涉及航空航天
，具体地，涉及一种航天器人工智能模型训练方法与系统。

技术介绍

[0002]随着太空逐渐成为日益拥挤且对抗激烈的领域，为了适应日趋复杂化的太空作战，需要针对愈发复杂空间进攻手段进行有效对抗；
[0003]本专利技术基于现有自主研发的航天器仿真平台SpaceSim平台，开发了一款通用化的航天器攻防对抗、博弈的智能技术研发和应用的平台SpaceSimGYM，SpaceSimGYM强化学习平台基于SpaceSim开发，在SpaceSim的基础上完成了指令驱动组件架构的建立，并在SpaceSim中建立了支持SpaceSimGYM对仿真进行控制的相关接口函数，最后通过集成的单智能体强化学习算法DDPG与多智能体强化学习算法MADDPG实现了支持机器学习的仿真系统体系设计。

技术实现思路

[0004]本专利技术提出了一种航天器人工智能模型训练方法与系统；使用整合于SpaceSimGYM平台的DDPG算法，实现了在连续推力下基于强化学习的与空间非合作目标的最优拦截策略。
[0005]本专利技术通过以下技术方案实现：
[0006]一种航天器人工智能模型训练系统：
[0007]所述训练系统包括可视化人机界面、推演环境模块、对抗调度模块、多智能体对抗决策进程模块以及作战场景；
[0008]所述作战场景为推演环境模块提供卫星数据，推演环境模块通过调度接口将原始观测数据和场景数据传输至对抗调度模块；
>[0009]对抗调度模块接收对抗规则库的规则信息，并将原始观测数据传输至多智能体对抗决策进程模块中的观测与奖励模块，将场景数据传输至多智能体对抗决策进程模块中的多智能体对抗算法子模块；
[0010]多智能体对抗决策进程模块中的多智能体对抗算法子模块将动作信息传输至对抗调度模块，对抗调度模块再将动作信息通过调用接口传输回推演环境模块，最终在可视化人机界面进行显示。
[0011]进一步地，所述可视化人机界面用于卫星相关设置、场景相关设置、地面站相关设置和调度对抗调度模块来创建的场景JSON文件。
[0012]进一步地，所述推演环境模块用于卫星载荷控制与计算、卫星变轨计算和卫星轨道姿态控制。
[0013]进一步地，所述对抗调度模块包括Reset函数、Init函数和Step函数；
[0014]所述Reset函数用于场景恢复初始化；
[0015]所述Init函数用于场景文件修改和读取；
[0016]所述Step函数用于动作与指令的发送、场景环境的获取和场景的递推。
[0017]进一步地，所述训练系统支持用户对调用卫星数量和调用卫星种类自定义，能够对卫星的功能、属性与观测能力进行自定义，支持智能体行为回报规则自定义；
[0018]所述推演环境模块支持使用Python语言，并支持Tensorflow和Pytorch常用深度学习框架的集成调用。
[0019]一种航天器人工智能模型训练系统的机器学习的轨道拦截方法：
[0020]所述方法具体包括以下步骤：
[0021]步骤1，在对抗时间固定的近地圆轨道上，进行红方可见光侦察卫星观测设置；
[0022]步骤2，设置红方可见光侦察卫星动作；
[0023]步骤3，设计奖励回报函数以完成轨道目标拦截；
[0024]步骤4，实时状态更新：在各卫星执行动作后，根据轨道动力学等对场景中状态进行更新；
[0025]S'＝S+a；
[0026]步骤5，终止条件：当所有蓝方卫星均被拦截时，则任务结束。
[0027]进一步地，在步骤1中，
[0028]设红方智能体总共有n
red
个，蓝方智能体总共有n
blue
个，红方可见光侦察卫星的自身状态S
t
；
[0029]步骤1.1，当前时刻自身的8维物理状态S
physic
包括：卫星血量Health
RED
；卫星剩余燃料Fuel
RED
，卫星加注燃料总量Fuel
total
；VVLH轨道系下的绝对位置(p
x
,p
y
,p
z
)；VVLH轨道系下绝对速度(v
x
,v
y
,v
z
)；则有
[0030]S
physic
＝(Health
RED
,Fuel
RED
,p
x
,p
y
,p
z
,v
x
,v
y
,v
z
)
[0031]步骤1.2，确定n
blue
*6的维作战状态combat state：作战过程中双方位置精确且透明，则红方观测项中包含总计n
blue
个的所有敌方卫星，相对本红方可见光侦察卫星的相对位置和速度；
[0032]若敌方卫星已被击毁，则设置该卫星的观测距离极远，以此鼓励智能体不对该目标进行追踪，因此：
[0033][0034]其中：S
i
＝(Dist
i
,p
RELi,x
,p
RELi,y
,p
RELi,z
,v
RELi,x
,v
RELi,y
,v
RELi,z
)
[0035]步骤1.3，确定8*(n
red
‑
1)维的己方卫星的物理状态other state：所有己方其他卫星的物理状态：
[0036][0037]其中：S
i
＝(Health
REDi
,Fuel
REDi
,p
xi
,p
yi
,p
zi
,v
xi
,v
yi
,v
zi
)；
[0038]步骤1.4，其他己方卫星发送过来的通讯状态communication state；拦截场景下暂时为None。
[0039]进一步地，在步骤2中，
[0040]红方可见光侦察卫星在整个作战时长内持续推进，直至完成对目标的拦截；
[0041]故卫星的控制量仅为推进方向；根据轨道机动理论，完成抵进任务不能降低相对
速度，故对动作空间进行限制，设置推进方向角范围为δ
p
∈[
‑
90
°
,90
°
]；
[0042]推进方向角为离散值，每3度一个区间，总共A＝60个可选推进方向角；推进方向的中心为卫星在相对坐标系下的负速度方向；
[0043]a
t
＝(δ
p本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种航天器人工智能模型训练系统，其特征在于：所述训练系统包括可视化人机界面、推演环境模块、对抗调度模块、多智能体对抗决策进程模块以及作战场景；所述作战场景为推演环境模块提供卫星数据，推演环境模块通过调度接口将原始观测数据和场景数据传输至对抗调度模块；对抗调度模块接收对抗规则库的规则信息，并将原始观测数据传输至多智能体对抗决策进程模块中的观测与奖励模块，将场景数据传输至多智能体对抗决策进程模块中的多智能体对抗算法子模块；多智能体对抗决策进程模块中的多智能体对抗算法子模块将动作信息传输至对抗调度模块，对抗调度模块再将动作信息通过调用接口传输回推演环境模块，最终在可视化人机界面进行显示。2.根据权利要求1所述系统，其特征在于：所述可视化人机界面用于卫星相关设置、场景相关设置、地面站相关设置和调度对抗调度模块来创建的场景JSON文件。3.根据权利要求2所述系统，其特征在于：所述推演环境模块用于卫星载荷控制与计算、卫星变轨计算和卫星轨道姿态控制。4.根据权利要求3所述系统，其特征在于：所述对抗调度模块包括Reset函数、Init函数和Step函数；所述Reset函数用于场景恢复初始化；所述Init函数用于场景文件修改和读取；所述Step函数用于动作与指令的发送、场景环境的获取和场景的递推。5.根据权利要求4所述系统，其特征在于：所述训练系统支持用户对调用卫星数量和调用卫星种类自定义，能够对卫星的功能、属性与观测能力进行自定义，支持智能体行为回报规则自定义；所述推演环境模块支持使用Python语言，并支持Tensorflow和Pytorch常用深度学习框架的集成调用。6.一种根据权利要求1指5所述的航天器人工智能模型训练系统的机器学习的轨道拦截方法，其特征在于：所述方法具体包括以下步骤：步骤1，在对抗时间固定的近地圆轨道上，进行红方可见光侦察卫星观测设置；步骤2，设置红方可见光侦察卫星动作；步骤3，设计奖励回报函数以完成轨道目标拦截；步骤4，实时状态更新：在各卫星执行动作后，根据轨道动力学等对场景中状态进行更新；S'＝S+a；步骤5，终止条件：当所有蓝方卫星均被拦截时，则任务结束。7.根据权利要求6所述方法，其特征在于：在步骤1中，设红方智能体总共有n
red
个，蓝方智能体总共有n
blue
个，红方可见光侦察卫星的自身状态S
t
；
步骤1.1，当前时刻自身的8维物理状态S
physic
包括：卫星血量Health
RED
；卫星剩余燃料Fuel
RED
，卫星加注燃料总量Fuel
total
；VVLH轨道系下的绝对位置(p
x
,p
y
,p
z
)；VVLH轨道系下绝对速度(v
x
,v
y
,v
z
)；则有S
physic
＝(Health
RED
,Fuel
RED
,p
x
,p
y
,p
z
,v
x
,v
y
,v
z
)步骤1.2，确定n

【专利技术属性】
技术研发人员：魏承，李天佐，李岱，刘天喜，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人