【技术实现步骤摘要】
面向应急任务的多星分布式协同重调度方法
本专利技术属于卫星任务规划调度领域,尤其涉及一种面向应急任务的多星分布式协同重调度方法。
技术介绍
对地观测卫星(Earthobservationsatellite,EOS)作为空间图像采集的主要平台,其主要任务是根据用户需求获取地球表面的观测信息,由于其具有覆盖范围广、成像时间长、不受国境限制等优势,对地观测卫星在经济发展、灾害救援和应急监测等任务中发挥着越来越重要的作用。近年来,随着卫星技术的发展,新一代卫星已经具有一定的计算和处理能力,这使得卫星管控减少人为干预、进行自主决策成为可能。当前针对自主卫星的研究,已经有数颗正在服役的自主卫星:美国国家航空航天局(NASA)的EarthObserving-1(EO-1)是一颗自主卫星,能够自主发现地球表面的科学事件,包括火山爆发、洪水灾害等,其自主管理能力可以每年节省超过一百万美元的管控费用,同时发现价值超过一百八十万美元的科学事件。其他较为知名的自主卫星还包括美国空军的TacSat、德国航空航天中心(DLR)的FireBIRD、以及法国国家空间研究中心(CNES)的PLEIADES等。我国针对自主卫星的研究仍处于起步阶段。在2008年汶川地震救援等非作战军事行动中,我国的对地观测卫星系统虽然发挥了重要作用,但由于快速响应能力的欠缺,不能快速有效的获得灾情状况,错失了很多关键信息,如何提高卫星对不确定性突发事件的响应速度,及时获取突发事件的情报信息,为后续决策提供有力的信息保障,成为卫星调度领域一个亟待解决的问题。 >针对考虑应急任务等难以预测的不确定性的问题,由于事件的不可预测性,通常采用在线调度(或反应式调度)方法,在事件发生时在线修改离线调度结果来提高收益。在机器调度领域,许多在线调度方法没有考虑算法的运行时间,这些文献中作者使用非常复杂的方法,如混合整数规划和遗传算法等。但对于考虑应急任务的卫星在线重调度问题,计算时间不可忽略。何永明分析了进行卫星任务重调度的难度:任务的可见时间窗口通常很短,如果不及时完成重调度,可能会浪费部分观测机会;此外,卫星与地面之间的通信窗口有限,如果有应急任务到达,计算通常在卫星上完成,但是,卫星的星载计算机性能通常仅为地面典型计算机性能的十分之一。采用模因算法和遗传算法等方法需要数百秒至数小时才能完成重调度,其他精确求解的在线重调度方法运行时间更长,难以满足此类问题的时间约束。因此,对于卫星在线重调度等问题,挑战在于平衡求解质量和在线运行时间。Wang等人考虑了任务的在线随机到达并提出了一种简单但快速的启发式调度算法,他们进一步提出了一种任务合并方法,该方法将应急任务与调度方案中的任务合并。Wu等人提出了一种蚁群优化算法,用于求解类似的问题。Li等人在考虑多类不确定性事件时,使用模糊神经网络来决定何时触发重调度过程并使用ACO方法进行重调度。李超、Li等人和刘嵩提出了类似的方法决定是否触发重调度,并使用简单的在线启发式方法进行重调度。何永明提出一种基于算法选择的星上重调度方法,该方法包含一种应急插入方法、一种贪婪重调度方法以及一种动态规划方法,系统在重调度时选择效果最好的作为重调度结果。Chien等人使用启发式方法来提高星载计算机对不确定事件的响应能力,但无法保证求解质量。Beaumet等人提出了一种在线反应随机贪婪算法。Qiu等人和Liao等人使用滚动周期将问题分解为几个静态子问题。Chu等人提出了一个精确的分支定界方法,但该方法采用一种Anytime策略,以便在达到重调度的运行时间限制时提供及时的解决方案。Damiani等人的动态规划方法也使用了Anytime的思想。但是现有方法中对于对时效性要求很高的在线重调度问题,由于其采用的方法通常是贪婪且简单的,或者是Anytime形式,为了及时响应而牺牲一定的求解质量。在线求解方法中,通常采用修复离线方案的方法进行重调度,因为可以节省一定的计算时间,同时可以保持解的稳定性。进行完全重调度可能会实现更好的求解质量,但也需要更多的计算时间。在线重调度的另一个难点在于多颗卫星之间以及卫星和地面之间的通信限制下多星的协同调度问题。使用集中式的协同方法,由于卫星和地面之间的通信窗口限制,在考虑应急任务的随机到达问题中,会丧失大量的观测机会;另一种分布式协同,当前比较常见的方法包括多Agent的合同网架构、利用信息素图的方式进行协同等,但这些方法过度依赖频繁的星间通信,所消耗的成本较高。而Skobelev等人采用的贪婪的搜索策略由于各卫星在决策时缺乏全局信息,生成的解之间容易存在冲突和重复观测,难以提高收益。本文的研究目标是提出一种分布式协同机制,使得多星在不进行星间通信的情况下,也能生成优势互补且互不冲突的调度方案。
技术实现思路
本专利技术要解决的技术问题是针对卫星在线重调度过程中怎样既能节省计算时间又能避免重复观测,并在时效性要求较高的在线重调度过程中,求得与地面离线调度方案解质量接近的解,提高观测收益,提出了一种面向应急任务的多星分布式协同重调度方法。为解决该问题,本专利技术所采取的技术方案是:一种面向应急任务的多星分布式协同重调度方法,包括以下步骤:步骤1:在地面生成多个离线可行解;步骤2:将所述离线可行解发送给解训练器,所述解训练器根据离线可行解进行训练得到各卫星在面对应急任务插入的各种不同状态时选择怎样执行动作的最优调度策略;步骤3:将所述离线可行解和最优调度策略上传给卫星;步骤4:当卫星接收到应急任务时,判断应急任务是否可以插入多个离线可行解,计算应急任务插入后的可行解的收益;步骤5:根据各可行解的收益使用评估器评估当前卫星的状态,将该状态与最优调度策略所对应的状态进行匹配;步骤6:根据所匹配的状态从最优调度策略中选择一个最优动作;步骤7:使所述最优动作更新当前执行的可行解,完成重调度。进一步地,所述解训练器根据离线可行解进行训练得到最优调度策略的方法是:步骤2.1:建立基于多Agent马尔可夫决策过程的最优协同方法的线性规划模型:目标函数为:约束条件为:式(1)为目标函数,表示最大化全部动作的收益之和;其中,为决策变量,代表第i颗卫星在第h次决策,状态为s时,执行动作a的概率,Ri(s,a):表示第i颗卫星的收益矩阵,当第i颗卫星在状态为s时,执行动作a的收益,收益的值等于可行解的收益值,Ai:第i颗卫星的动作空间,第i颗卫星的动作空间用一个2×n的矩阵表示,其中,矩阵的行编号1或2表示是否执行应急任务;矩阵的列编号表示是否选择某一个可行解,可选的动作数量为2n;Si:第i颗卫星的状态空间,第i颗卫星的状态空间使用一个n×(n+1)的矩阵表示,矩阵的行编号表示当前执行的解;矩阵的列编号中,前n列表示当前应急任务插入第n个解时收益最高,最后一列(n+1)表示应急任务无法插入到任何一个解中;约束(2)和(3)是维持状态转移概率的约束,其中Ti本文档来自技高网...
【技术保护点】
1.一种面向应急任务的多星分布式协同重调度方法,其特征在于:包括以下步骤:/n步骤1:在地面生成多个离线可行解;/n步骤2:将所述离线可行解发送给解训练器,所述解训练器根据离线可行解进行训练,得到各卫星在面对应急任务插入的各种不同状态时选择怎样执行动作的最优调度策略;/n步骤3:将所述离线可行解和最优调度策略上传给卫星;/n步骤4:当卫星接收到应急任务时,判断应急任务是否可以插入多个离线可行解,计算应急任务插入后的可行解的收益;/n步骤5:根据各可行解的收益使用评估器评估当前卫星的状态,将该状态与最优调度策略所对应的状态进行匹配;/n步骤6:根据所匹配的状态从最优调度策略中选择一个最优动作;/n步骤7:使所述最优动作更新当前执行的可行解,完成重调度。/n
【技术特征摘要】
1.一种面向应急任务的多星分布式协同重调度方法,其特征在于:包括以下步骤:
步骤1:在地面生成多个离线可行解;
步骤2:将所述离线可行解发送给解训练器,所述解训练器根据离线可行解进行训练,得到各卫星在面对应急任务插入的各种不同状态时选择怎样执行动作的最优调度策略;
步骤3:将所述离线可行解和最优调度策略上传给卫星;
步骤4:当卫星接收到应急任务时,判断应急任务是否可以插入多个离线可行解,计算应急任务插入后的可行解的收益;
步骤5:根据各可行解的收益使用评估器评估当前卫星的状态,将该状态与最优调度策略所对应的状态进行匹配;
步骤6:根据所匹配的状态从最优调度策略中选择一个最优动作;
步骤7:使所述最优动作更新当前执行的可行解,完成重调度。
2.根据权利要求1所述的方法,其特征在于:所述解训练器根据离线可行解进行训练得到最优调度策略的方法是:
步骤2.1:建立基于多Agent马尔可夫决策过程的最优协同方法的线性规划模型:
目标函数为:
约束条件为:
式(1)为目标函数,表示最大化全部动作的收益之和;其中,为决策变量,代表第i颗卫星在第h次决策,状态为s时,执行动作a的概率,Ri(s,a):表示第i颗卫星的收益矩阵,当第i颗卫星在状态为s时,执行动作a的收益,收益的值等于可行解的收益值,Ai:第i颗卫星的动作空间,第i颗卫星的动作空间用一个2×n的矩阵表示,其中,矩阵的行编号1或2表示是否执行应急任务;矩阵的列编号表示是否选择某一个可行解,可选的动作数量为2n;Si:第i颗卫星的状态空间,第i颗卫星的状态空间使用一个n×(n+1)的矩阵表示,矩阵的行编号表示当前执行的解;矩阵的列编号中,前n列表示当前的应急任务插入第n个解时收益最高,最后一列(n+1)表示应急任务无法插入到任何一个解中;
约束(2)和(3)是维持状态转移概率的约束,其中Ti(s,a,s'):表示第i颗卫星的状态转移矩阵,代表第i颗卫星在状态为s,执行动作a时,状态转移到s'的概率,T1,i(s)代表初始状态概率,Si表示第i颗卫星的状态集;
约束(4)和约束(5)确保卫星不会进行重复观测,其中约束(4)限制的是对于应急任务的观测次数,而约束(5)限制的是对于每个普通任务的观测次数,M表示对于一个任务所允许的最大观测次数,H表示规划周期,h∈H,每到达一个应急任务进行一次决策;T为任务集合,Pi(t,a)为中间变量,定义如下:
约束(6)表示在应急任务无法插入时,卫星不会选择观测应急任务;约束(7)表示的是决策变量的取值范围。
步骤2.2:对所述线性规划模型进行求解,得到卫星在面对应急任务到达时的不同状态时,选择执行各种动作的概率
3.根据权利要求1所述的方法,其特征在于:步骤5中所述评估器评估应急任务到达时卫星的状态方法是:
步骤5.1:在应急任务到达时,比较应急任务插入各可行解后的...
【专利技术属性】
技术研发人员:何磊,刘晓路,沈大勇,王涛,陈宇宁,张忠山,吕济民,陈盈果,张永强,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。