面向广域高性能计算环境的任务与数据协同调度方法技术

技术编号:25948191 阅读:64 留言:0更新日期:2020-10-17 03:40
本发明专利技术提出一种面向广域高性能计算环境的任务与数据协同调度方法,首先根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型。其次,根据最优方案选择机制,基于任务完成时间预估值和全局资源使用状态选择出最优的中心级协同调度方案。然后,在调度过程中基于数据访问频度实现数据冗余布局。最后,基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。该方法可以在跨域的多个中心和任务队列间协同调度计算任务及其对应的数据,高效合理地进行任务分配和数据布局,兼顾系统时间性能和全局资源利用率,从而实现高效计算。

【技术实现步骤摘要】
面向广域高性能计算环境的任务与数据协同调度方法
本专利技术公开了一种面向广域高性能计算环境的任务与数据协同调度方法,涉及广域高性能计算面临的挑战,属于计算机

技术介绍
在高性能计算环境中,对于天气预报和地质观察等诸多并行应用,其计算数据来自分布在世界各地的遥感卫星或观测点,导致了数据存储在地理分布的计算中心(包括超算中心、数据中心等)并广域共享的情况。与此同时,随着科学和工程问题的日益复杂,并行应用对存储和计算资源的需求量逐渐增大。为了解决上述挑战,当前的趋势是在由多个计算中心组成的广域计算环境中执行应用程序,即国家高性能计算环境。然而存储和计算资源的地理分散往往导致较低的系统性能,广域调度是提升系统性能的一种有效手段。当前在面向广域计算的调度方法的研究领域中,许多学者进行了大量的研究,总结有如下三类:任务调度方法、数据调度方法和任务与数据协同调度方法。跨域调度技术因其能高效合理地进行任务分配和数据管理,被广泛应用于广域计算中,包括高性能计算、云计算、边缘计算等多个领域。在早期阶段,任务调度方法是提高系统性能的经典方法。而随着计算应用对存储资源的需求不断提高,数据调度逐渐成为提高系统性能的重要途径。此外,近年来计算任务和数据的协同调度技术引起了极大兴趣。任务调度方法的目的在于优化系统资源利用率、任务的平均等待时间、系统总体完成时间等性能。Wang等人提出了一种面向多种资源的任务间公平共享策略,在任务调度过程中迭代地动态调整任务资源分配,从而达到最大的公平共享性。Kremer-Herman等人提出了一种面向“主从”模式应用的轻量级模型,用以估算计算任务达到最佳执行时间的有效资源数量,防止由用户错误估计导致的计算任务间资源争用或计算中心资源空闲等情况。Gaussier等人提出了一种用于高性能计算平台的在线启发式自动调优调度方法,根据不同的反馈模式为作业队列选择重排序策略,从而减小计算任务的平均等待时间。Carastan-Santos等人通过机器学习方法,基于现有的任务日志构建了非线性调度函数,并配合回填算法执行任务调度,极大地改善了综合工作负载中的平均任务放缓。Niu等人设计了一个可预估系统性能提升和公平性损失的调度模型,以实现系统在计算效率和公平性之间的权衡。Chen研究了异构分布式系统中的故障恢复问题,提出了一个两阶段调度算法,该算法以最小化最大完工时间为目标,生成基于期望执行时间和通信时间的调度策略,从而优化调度过程。Xu等人针对并行处理框架中的“掉队者”问题,设计了一种基于负载条件的调度策略选择机制,根据调度需求和负载情况在智能克隆算法与投机性执行算法之间进行权衡。数据调度指的是对通过数据布局、数据副本、高效数据迁移等方式,对广域分布的数据进行管理,从而提升广域计算效率。Kosar等人面对在广域分布式计算环境中高效可靠地访问大规模数据源和调度目的地带来的挑战,设计了Stork存储系统以配合Condor-G作业调度系统,在网格计算中实现数据放置、数据传输管理和数据副本,从而提升任务执行效率。Yuan等人基于矩阵的k-means聚类方法和运行时动态数据分配算法为科学工作流提出了一种数据放置策略,以提升数据处理性能。David等人在网格计算中设计了一种数据副本策略,以提升热点数据的访问性能以及数据的可靠性。Chowdhury等人针对计算系统中数据传输成本带来的影响,提出了一种全局数据传输管理架构,并在其中应用了一套数据传输调度策略,以实现计算中心间的高效数据传输。随着资源管理技术的发展,计算任务和数据的协同调度技术近年来在广域计算中被广泛应用。在面向数据密集型科学工作流的调度方法中,协同调度技术引起了充分的重视。Szabo等人提出了一种基于成本模型和自定义进化算子的多目标优化算法,以减少科学工作流的总体完成时间和全局数据传输量。Bryk等人利用数据缓存和文件局部性等特征最小化了系统中的全局数据传输量,并实现了成本约束和期限约束下的工作流集成,以提升工作流执行效率。Mon等人基于任务与数据之间的关联性提出了一种任务聚类方法,提升了计算任务的粒度并降低了任务的执行成本。与此同时,由于在广域计算环境中,数据传输成本往往在任务完成时间中占有很大比重,越来越多的广域调度方法将网络资源和数据布局信息纳入考虑范围,以提升调度方案的准确性和任务执行效率。Wang等人提出了一种分布式任务调度体系结构,并在其中应用了基于数据感知的工作窃取技术,以优化系统负载均衡和数据局部性。Edinger等人在分布式计算系统中应用了一种基于Tasklet系统的内容感知调度的故障避免策略,依据各计算节点的资源状态、使用成本、可靠性以及节点间网络资源情况等多种因素生成任务调度策略。Li等人提出了一种边缘计算中对数据布局和任务调度的混合优化方法,首先根据各服务节点对数据的访问频度、数据在各节点的放置和迁移成本进行数据的布局,然后依据任务优先级、任务与服务节点的关联性进行任务调度,从而优化系统性能。Kang等人提出了一种由多个互相连接的云环境构成的多云体系结构,并在其中应用了一种基于可分负载理论和节点可用性预测技术的动态调度算法,该算法将任务切分成多个不同大小的子任务,基于预测技术预估计算节点完成现有任务的时间,并结合数据传输成本、任务的资源需求等多种因素进行任务调度,提升系统中的全局资源利用率并降低系统任务的总体完成时间。传统的广域调度方法存在的问题主要为:大多数任务调度方法不考虑数据迁移的情况,然而数据迁移成本在任务完成时间中占有很大比重,这导致了全局数据迁移量大、任务完成时间和等待时间长等结果。此外,现有的数据调度方法大多关注于数据的高效访问和迁移,在数据和计算任务的关联性方面考虑的很少,导致了数据布局和计算任务分布的不完全匹配性,这导致了较低的全局资源利用率和较长的任务完成时间。而现有的协同调度方法只偏重于通过数据布局或任务调度中的一个方面优化调度过程,对调度因素相对单一的考虑导致了不均衡的全局资源利用,使系统仍有相对较高的任务完成时间和等待时间。
技术实现思路
本专利技术的主要目的是提供一种面向广域高性能计算环境的任务与数据协同调度方法,针对广域计算环境中应用的高效计算需求,建立一种任务与数据协同调度方法,基于全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型,在此基础上,结合最优方案选择机制、数据冗余布局机制和任务窃取机制,实现高效合理的任务分配与数据布局,以支撑应用的高效计算。与传统方法相比,本专利技术提出的数据与任务协同调度方法的创新在于:在调度过程中综合考虑了全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况、计算中心队列负载信息等多方面因素,兼顾系统时间性能和全局资源利用率,能更精确、有效地选择出更优的任务与数据协同调度决策。此外,本专利技术提出的方法采用了一种两级调度策略,第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据,第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差。基于上述特征,本专利技术提出本文档来自技高网
...

【技术保护点】
1.面向广域高性能计算环境的任务与数据协同调度方法,其特征在于,基于全局资源状态、计算任务需求和数据布局情况等条件构建任务完成时间模型,在此基础上,结合最优方案选择机制、数据冗余布局机制和任务窃取机制,实现高效合理的任务分配与数据布局,以支撑应用的高效计算;在调度过程中综合全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况和计算中心队列负载信息等各方面因素,兼顾系统时间性能和全局资源利用率,形成任务与数据协同调度策略。所述任务与数据协同调度策略为两级调度策略,第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据,第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差。/n

【技术特征摘要】
1.面向广域高性能计算环境的任务与数据协同调度方法,其特征在于,基于全局资源状态、计算任务需求和数据布局情况等条件构建任务完成时间模型,在此基础上,结合最优方案选择机制、数据冗余布局机制和任务窃取机制,实现高效合理的任务分配与数据布局,以支撑应用的高效计算;在调度过程中综合全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况和计算中心队列负载信息等各方面因素,兼顾系统时间性能和全局资源利用率,形成任务与数据协同调度策略。所述任务与数据协同调度策略为两级调度策略,第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据,第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差。


2.面向广域高性能计算环境的任务与数据协同调度方法,其特征在于,包括以下步骤:
步骤1,根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型;
步骤2,基于任务完成时间模型和全局资源使用状态,根据最优方案选择机制决策出中心级的计算任务和数据协同调度方案;
步骤3,基于各计算中心对数据的访问频度实现数据冗余布局;
步骤4,基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。


3.根据权利要求2所述的方法,其特征在于,步骤1包括以下步骤:
步骤1.1,根据计算任务k需求数据的布局情况选择可用的源计算中心集合Ik,然后根据任务k的资源需求,结合各计算中心的资源使用情况及应用分布情况选择可用的调度目标计算中心集合Jk;
步骤1.2,基于全局资源状态及任务资源需求,预估可行的调度情况下,任务执行过程中的主要开销,包括:从源计算中心i(i∈ik)到目标计算中心J(J∈Jk)的数据迁移时间任务k在计算中心j的计算时间以及任务k在计算中心j的队列等待时间其中,数据迁移时间估计值由数据量和迁移任务理论占用带宽求得,任务计算时间估计值通过节点计算能力和基于应用日志和数据量预估的计算量求得,队列等待时间由计算中心维护的队列最大完成时间和任务提交时间求得,通过队列中各项任务的预估计算时间和计算开始时间可得出所有任务的完成时间,取其中最大值为队列最大完成时间,此值随着系统运行动态变化;
步骤1.3,基于上述任务执行过程开销,构...

【专利技术属性】
技术研发人员:肖利民宋尧秦广军霍志胜张晨浩周汉杰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1