面向广域高性能计算环境的任务与数据协同调度方法技术

技术编号：25948191 阅读：64 留言：0更新日期：2020-10-17 03:40

本发明专利技术提出一种面向广域高性能计算环境的任务与数据协同调度方法，首先根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型。其次，根据最优方案选择机制，基于任务完成时间预估值和全局资源使用状态选择出最优的中心级协同调度方案。然后，在调度过程中基于数据访问频度实现数据冗余布局。最后，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。该方法可以在跨域的多个中心和任务队列间协同调度计算任务及其对应的数据，高效合理地进行任务分配和数据布局，兼顾系统时间性能和全局资源利用率，从而实现高效计算。

全部详细技术资料下载

【技术实现步骤摘要】
面向广域高性能计算环境的任务与数据协同调度方法
本专利技术公开了一种面向广域高性能计算环境的任务与数据协同调度方法，涉及广域高性能计算面临的挑战，属于计算机

技术介绍
在高性能计算环境中,对于天气预报和地质观察等诸多并行应用,其计算数据来自分布在世界各地的遥感卫星或观测点,导致了数据存储在地理分布的计算中心(包括超算中心、数据中心等)并广域共享的情况。与此同时，随着科学和工程问题的日益复杂，并行应用对存储和计算资源的需求量逐渐增大。为了解决上述挑战，当前的趋势是在由多个计算中心组成的广域计算环境中执行应用程序，即国家高性能计算环境。然而存储和计算资源的地理分散往往导致较低的系统性能，广域调度是提升系统性能的一种有效手段。当前在面向广域计算的调度方法的研究领域中，许多学者进行了大量的研究，总结有如下三类：任务调度方法、数据调度方法和任务与数据协同调度方法。跨域调度技术因其能高效合理地进行任务分配和数据管理，被广泛应用于广域计算中，包括高性能计算、云计算、边缘计算等多个领域。在早期阶段，任务调度方法是提高系统性能的经典方法。而随着计算应用对存储资源的需求不断提高，数据调度逐渐成为提高系统性能的重要途径。此外，近年来计算任务和数据的协同调度技术引起了极大兴趣。任务调度方法的目的在于优化系统资源利用率、任务的平均等待时间、系统总体完成时间等性能。Wang等人提出了一种面向多种资源的任务间公平共享策略，在任务调度过程中迭代地动态调整任务资源分配，从而达到最大的公平共享性。Kremer-Herman等人...

【技术保护点】
1.面向广域高性能计算环境的任务与数据协同调度方法，其特征在于，基于全局资源状态、计算任务需求和数据布局情况等条件构建任务完成时间模型，在此基础上，结合最优方案选择机制、数据冗余布局机制和任务窃取机制，实现高效合理的任务分配与数据布局，以支撑应用的高效计算；在调度过程中综合全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况和计算中心队列负载信息等各方面因素，兼顾系统时间性能和全局资源利用率，形成任务与数据协同调度策略。所述任务与数据协同调度策略为两级调度策略，第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据，第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差。/n

【技术特征摘要】
1.面向广域高性能计算环境的任务与数据协同调度方法，其特征在于，基于全局资源状态、计算任务需求和数据布局情况等条件构建任务完成时间模型，在此基础上，结合最优方案选择机制、数据冗余布局机制和任务窃取机制，实现高效合理的任务分配与数据布局，以支撑应用的高效计算；在调度过程中综合全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况和计算中心队列负载信息等各方面因素，兼顾系统时间性能和全局资源利用率，形成任务与数据协同调度策略。所述任务与数据协同调度策略为两级调度策略，第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据，第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差。

2.面向广域高性能计算环境的任务与数据协同调度方法，其特征在于，包括以下步骤：
步骤1，根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型；
步骤2，基于任务完成时间模型和全局资源使用状态，根据最优方案选择机制决策出中心级的计算任务和数据协同调度方案；
步骤3，基于各计算中心对数据的访问频度实现数据冗余布局；
步骤4，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。

3.根据权利要求2所述的方法，其特征在于，步骤1包括以下步骤：
步骤1.1，根据计算任务k需求数据的布局情况选择可用的源计算中心集合Ik，然后根据任务k的资源需求，结合各计算中心的资源使用情况及应用分布情况选择可用的调度目标计算中心集合Jk；
步骤1.2，基于全局资源状态及任务资源需求，预估可行的调度情况下，任务执行过程中的主要开销，包括：从源计算中心i(i∈ik)到目标计算中心J(J∈Jk)的数据迁移时间任务k在计算中心j的计算时间以及任务k在计算中心j的队列等待时间其中，数据迁移时间估计值由数据量和迁移任务理论占用带宽求得，任务计算时间估计值通过节点计算能力和基于应用日志和数据量预估的计算量求得，队列等待时间由计算中心维护的队列最大完成时间和任务提交时间求得，通过队列中各项任务的预估计算时间和计算开始时间可得出所有任务的完成时间，取其中最大值为队列最大完成时间，此值随着系统运行动态变化；
步骤1.3，基于上述任务执行过程开销，构...

【专利技术属性】
技术研发人员：肖利民，宋尧，秦广军，霍志胜，张晨浩，周汉杰，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人