一种基于强化学习的监测望远镜阵列控制方法技术

技术编号:35478283 阅读:49 留言:0更新日期:2022-11-05 16:27
本发明专利技术涉及空间碎片检测领域。一种基于强化学习的监测望远镜阵列控制方法,对空间碎片及望远镜监测阵列系统建模,对空间碎片的目标轨道数据的精度测量分析,构建基于深度强化学习的智能调度策略,本发明专利技术实现空间碎片检测网数字宇宙的搭建,采用蒙特卡洛采样方法生成模拟真实世界分布的空间碎片数据;在此基础上,建立空间轨道数据的精度测量分析方法,研究监测设备参数对空间碎片测量精度的影响;最终,采用强化学习技术,建立空间碎片监测网智能控制方法,实现对空间碎片态势的快速感知。实现对空间碎片态势的快速感知。

【技术实现步骤摘要】
一种基于强化学习的监测望远镜阵列控制方法


[0001]本专利技术涉及空间碎片检测领域。

技术介绍

[0002]人类太空活动所产生的各种无功能人造天体统称为空间碎片。据统计,自开始探索太空以来,各种任务形成的可跟踪空间碎片数量已超过39000个。目前仍在轨的碎片数量超过16000个,这些空间碎片给各类航天活动带来了巨大威胁。为了保障航天活动的安全,空间碎片监测不可或缺。
[0003]经过多年建设,我国针对空间碎片监测已建立了包括光电成像系统、雷达探测系统及激光遥测系统在内的大科学空间观测装置体系。该体系通过长期运行,积累了大量空间碎片监测数据,实现了常规目标编目。但是,近几年世界各国官方及民间航天任务规模及频次发展迅猛,空间碎片数目急剧增加,同时空间碎片监测需求也在不断提升。以现有设备为基础,发挥观测装置体系的最大效能,成为空间碎片监测研究的热点。由于空间碎片并不发光,因此在当前装置体系下,监测系统或者主动地向空间碎片发射电磁波并接收回波(雷达探测系统或激光遥测系统),或者被动地接收空间碎片的反射光(光电成像系统),最终通过处理空间碎片的回波或反射光以获取信息。受监测条件和设备性能等因素影响,前述各种信息获取方式都有一定局限性,需要多种手段联合以全方位刻画空间碎片特性。此外,空间碎片定轨和编目任务也需要获取同一空间碎片目标多个弧段的监测数据,因而多台不同地理位置的设备联测是空间碎片监测领域发展的大势所趋。综上,对空间碎片而言,通过联合各类设备进而实现空间碎片监测网络是空间碎片监测研究的必然发展方向。从实用角度考虑,空间碎片监测网络要既能常规监测已有空间碎片以维护目录,同时也要能及时发现新目标或根据需求监测重点目标。当空间碎片数目较少且仅关注体积较大或亮度较高的目标时,传统的自动时序任务调度算法就能实现空间碎片监测网络的任务调度。但是,迅速增长的空间碎片数目和对航天任务安全性不断提升的要求,使得空间碎片网的监测能力有了新的提升方向:空间碎片监测开始向海量小微目标监测和关键目标快速监测方向发展。当监测目标为尺度更小、轨道更高的空间碎片时,需要监测的目标数量将大大增加;同时,不同设备监测能力的差异将更加显著(以光电成像系统为例,小尺寸目标仅能被大口径设备或处于较好台址的设备监测到,位于其他台址的小口径设备将无法获取这些目标的有效数据)。
[0004]由于传统调度方法并不考虑监测设备的实际观测能力和观测条件等因素,而只将网络内的监测设备视为具有一定理论可见度的静态单元;同时,传统调度方法不考虑不同类别空间碎片数据的冗余性。因此,在这两个因素的共同作用下,一方面可能导致经过调度的设备无法获取目标有效数据,降低了空间碎片监测网络的能力;另一方面,监测网络可能获得大量非必要的冗余数据,浪费了网络的监测资源。因此,迫切需要在空间碎片数据冗余性和碎片监测设备数据获取能力研究基础上,实现空间碎片监测网络的新型调度方法。

技术实现思路

[0005]本专利技术所要解决的技术问题是:可能出现的检测设备无法获取目标有效数据和监测网络存在大量非必要的冗余数据的问题。
[0006]本专利技术所采用的技术方案是:一种基于强化学习的监测望远镜阵列控制方法,对空间碎片及望远镜监测阵列系统建模,对空间碎片的目标轨道数据的精度测量分析,构建基于深度强化学习的智能调度策略,具体按如下的步骤进行
[0007]步骤一、基于蒙特卡洛方法的空间碎片的目标轨道监测模拟数据生成空间碎片监测数字宇宙,在现有空间碎片TLE轨道报数据的基础上,用python语言中的spg4库返回模拟环境中空间碎片的运行轨迹,将监测空间碎片的监测设备作为仿真望远镜,通过python语言中的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数,利用python语言中的spg4库返回对模拟环境中空间碎片的运行轨迹,通过python语言中的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数构建数字宇宙,即数字宇宙用python语言中的spg4库和ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜对应的空间碎片的运行轨迹和仿真望远镜的参数;
[0008]步骤二、不同空间碎片在不同监测设备的监测精度,通过仿真望远镜执行监测目标空间碎片在目标检测时间返回的空间碎片的运行轨迹与最新空间碎片TLE轨道报数据进行误差对比,记录同一空间碎片在不同监测设备下的监测精度,并将监测设备的口径c、视场F参数作为输入,监测精度作为标签,通过python语言中的sklearn库中的回归算法拟合监测设备参数与空间碎片测量精度的对应关系;
[0009]步骤三、结合步骤一中构建的数字宇宙和步骤二中所述的不同空间碎片在不同监测设备的监测精度,构建基于深度强化学习的智能调度策略,将步骤一中的数字宇宙作为训练环境,将已探索的空间碎片的数量N作为探索效果,单个可监测空间目标监测时间间隔为M
i
,将所有可监测空间目标的监测时间间隔作为系统的监测效果;以模拟望远镜当前的监测效果、探索效果作为强化学习的状态空间;以不同模拟望远镜实现监测或探索任务的排列组合作为强化学习的动作空间;根据监测或探索任务的侧重不同,将监测效果和探索效果乘以不同的系数作为强化学习的奖励R,即其中α,β代表本次任务探索和监测的比重;采用多层感知器作为强化学习的策略网络拟合状态

动作对的行为值Q值进行策略评估,多层感知器由三个全连接层组成,状态空间的维度作为输入,动作空间的维度作为输出;在一定的时间间隔内,用另一个同样的策略网络对当前策略进行改进,由该网络进行动作选择;经过不断迭代学习,完成了基于强化学习的空间碎片监测阵列控制方法,根据当前整个空间监测阵列的探索和监测效果,自主选择在随后时间段中执行监测还是探索任务;通过提前设定监测和探索奖励系数,选择倾向执行监测任务,在单位时间内满足对已知空间目标的监测要求的同时探索到更多空间碎片。
[0010]步骤一中,所述所述用python语言中的的spg4库返回模拟环境中空间碎片的运行轨迹是指,利用python语言中的的spg4库建立空间碎片在天球坐标系的位置、亮度、星地距离与时间的对应关系,将这种对应关系作为空间碎片的分布情况模型,返回目标空间碎片在目标检测时间对应的位置、亮度、星地距离。
[0011]步骤一中,所述通过python语言中的的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数是指,通过对实际使用的仿真望远镜指向目标空间碎片的方位角θ、高度角Ф、口径c、视场F参数,建立天球坐标系中仿真望远镜的方位角az、高度角alt、尺度scale、星地距离h与时间的对应关系;当同时满足az与θ的偏差在仿真望远镜视场F内、alt与Ф的偏差在仿真望远镜视场F内、亮度值bright和仿真望远镜口径c的乘积小于设定的阈值threshold时,即同时满足|az

θ|<F、|alt

φ|<F、scale
÷
h
×
c<threshold时,该目标空间碎片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的监测望远镜阵列控制方法,其特征在于:对空间碎片及望远镜监测阵列系统建模,对空间碎片的目标轨道数据的精度测量分析,构建基于深度强化学习的智能调度策略,具体按如下的步骤进行步骤一、基于蒙特卡洛方法的空间碎片的目标轨道监测模拟数据生成空间碎片监测数字宇宙,在现有空间碎片TLE轨道报数据的基础上,用python语言中的spg4库返回模拟环境中空间碎片的运行轨迹,将监测空间碎片的监测设备作为仿真望远镜,通过python语言中的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数,利用python语言中的spg4库返回对模拟环境中空间碎片的运行轨迹,通过python语言中的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数构建数字宇宙,即数字宇宙用python语言中的spg4库和ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜对应的空间碎片的运行轨迹和仿真望远镜的参数;步骤二、不同空间碎片在不同监测设备的监测精度,通过仿真望远镜执行监测目标空间碎片在目标检测时间返回的空间碎片的运行轨迹与最新空间碎片TLE轨道报数据进行误差对比,记录同一空间碎片在不同监测设备下的监测精度,并将监测设备的口径c、视场F参数作为输入,监测精度作为标签,通过python语言中的sklearn库中的回归算法拟合监测设备参数与空间碎片测量精度的对应关系;步骤三、结合步骤一中构建的数字宇宙和步骤二中所述的不同空间碎片在不同监测设备的监测精度,构建基于深度强化学习的智能调度策略,将步骤一中的数字宇宙作为训练环境,将已探索的空间碎片的数量N作为探索效果,单个可监测空间目标监测时间间隔为M
i
,将所有可监测空间目标的监测时间间隔作为系统的监测效果;以模拟望远镜当前的监测效果、探索效果作为强化学习的状态空间;以不同模拟望远镜实现监测或探索任务的排列组合作为强化学习的动作空间;根据监测或探索任务的侧重不同,将监测效果和探索效果乘以不同的系数作为强化学习的奖励R,即其中α,β代表本次任务探索和监测的比重;采用多层感知器作为强化学习的策略网络拟合状态

动作对的行为值Q值进行策略评估,多层感知器由三个全连接层组成,状态空间的维度作为输入,动作空间的维度作为输出;在一定的时间间隔内,用另一个同样的策略网络对当前策略进行改进,由该网络进行动作选择;经过不断迭代学习,完成了基于强化学习的空间碎片监测阵列控制方法,根据当前整个空间监测阵列的探索和监测效果,自主选择在随后时间段中执行监测还是探索任务;通过提前...

【专利技术属性】
技术研发人员:贾鹏贾奇伟汪梦真
申请(专利权)人:星源数动山西转型综合改革示范区科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1