当前位置: 首页 > 专利查询>星源数动山西转型综合改革示范区科技有限责任公司专利>正文

一种基于强化学习的监测望远镜阵列控制方法技术

技术编号：35478283 阅读：52 留言：0更新日期：2022-11-05 16:27

本发明专利技术涉及空间碎片检测领域。一种基于强化学习的监测望远镜阵列控制方法，对空间碎片及望远镜监测阵列系统建模，对空间碎片的目标轨道数据的精度测量分析，构建基于深度强化学习的智能调度策略，本发明专利技术实现空间碎片检测网数字宇宙的搭建，采用蒙特卡洛采样方法生成模拟真实世界分布的空间碎片数据；在此基础上，建立空间轨道数据的精度测量分析方法，研究监测设备参数对空间碎片测量精度的影响；最终，采用强化学习技术，建立空间碎片监测网智能控制方法，实现对空间碎片态势的快速感知。实现对空间碎片态势的快速感知。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的监测望远镜阵列控制方法

[0001]本专利技术涉及空间碎片检测领域。

技术介绍

[0002]人类太空活动所产生的各种无功能人造天体统称为空间碎片。据统计，自开始探索太空以来，各种任务形成的可跟踪空间碎片数量已超过39000个。目前仍在轨的碎片数量超过16000个，这些空间碎片给各类航天活动带来了巨大威胁。为了保障航天活动的安全，空间碎片监测不可或缺。
[0003]经过多年建设，我国针对空间碎片监测已建立了包括光电成像系统、雷达探测系统及激光遥测系统在内的大科学空间观测装置体系。该体系通过长期运行，积累了大量空间碎片监测数据，实现了常规目标编目。但是，近几年世界各国官方及民间航天任务规模及频次发展迅猛，空间碎片数目急剧增加，同时空间碎片监测需求也在不断提升。以现有设备为基础，发挥观测装置体系的最大效能，成为空间碎片监测研究的热点。由于空间碎片并不发光，因此在当前装置体系下，监测系统或者主动地向空间碎片发射电磁波并接收回波(雷达探测系统或激光遥测系统)，或者被动地接收空间碎片的反射光(光电成像系统)，最终通过处理空间碎片的回波或反射光以获取信息。受监测条件和设备性能等因素影响，前述各种信息获取方式都有一定局限性，需要多种手段联合以全方位刻画空间碎片特性。此外，空间碎片定轨和编目任务也需要获取同一空间碎片目标多个弧段的监测数据，因而多台不同地理位置的设备联测是空间碎片监测领域发展的大势所趋。综上，对空间碎片而言，通过联合各类设备进而实现空间碎片监测网络是空间碎片监测研究的必然发展方向。从实用角度考...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的监测望远镜阵列控制方法，其特征在于：对空间碎片及望远镜监测阵列系统建模，对空间碎片的目标轨道数据的精度测量分析，构建基于深度强化学习的智能调度策略，具体按如下的步骤进行步骤一、基于蒙特卡洛方法的空间碎片的目标轨道监测模拟数据生成空间碎片监测数字宇宙，在现有空间碎片TLE轨道报数据的基础上，用python语言中的spg4库返回模拟环境中空间碎片的运行轨迹，将监测空间碎片的监测设备作为仿真望远镜，通过python语言中的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数，利用python语言中的spg4库返回对模拟环境中空间碎片的运行轨迹，通过python语言中的ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜的参数构建数字宇宙，即数字宇宙用python语言中的spg4库和ephem库返回目标空间碎片在目标检测时间使用的仿真望远镜对应的空间碎片的运行轨迹和仿真望远镜的参数；步骤二、不同空间碎片在不同监测设备的监测精度，通过仿真望远镜执行监测目标空间碎片在目标检测时间返回的空间碎片的运行轨迹与最新空间碎片TLE轨道报数据进行误差对比，记录同一空间碎片在不同监测设备下的监测精度，并将监测设备的口径c、视场F参数作为输入，监测精度作为标签，通过python语言中的sklearn库中的回归算法拟合监测设备参数与空间碎片测量精度的对应关系；步骤三、结合步骤一中构建的数字宇宙和步骤二中所述的不同空间碎片在不同监测设备的监测精度，构建基于深度强化学习的智能调度策略，将步骤一中的数字宇宙作为训练环境，将已探索的空间碎片的数量N作为探索效果，单个可监测空间目标监测时间间隔为M
i
，将所有可监测空间目标的监测时间间隔作为系统的监测效果；以模拟望远镜当前的监测效果、探索效果作为强化学习的状态空间；以不同模拟望远镜实现监测或探索任务的排列组合作为强化学习的动作空间；根据监测或探索任务的侧重不同，将监测效果和探索效果乘以不同的系数作为强化学习的奖励R，即其中α，β代表本次任务探索和监测的比重；采用多层感知器作为强化学习的策略网络拟合状态
‑
动作对的行为值Q值进行策略评估，多层感知器由三个全连接层组成，状态空间的维度作为输入，动作空间的维度作为输出；在一定的时间间隔内，用另一个同样的策略网络对当前策略进行改进，由该网络进行动作选择；经过不断迭代学习，完成了基于强化学习的空间碎片监测阵列控制方法，根据当前整个空间监测阵列的探索和监测效果，自主选择在随后时间段中执行监测还是探索任务；通过提前...

【专利技术属性】
技术研发人员：贾鹏，贾奇伟，汪梦真，
申请(专利权)人：星源数动山西转型综合改革示范区科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人