一种调度策略动态加载的计算任务管理系统、方法和装置制造方法及图纸

技术编号:36575878 阅读:17 留言:0更新日期:2023-02-04 17:34
本发明专利技术公开了一种调度策略动态加载的计算任务管理系统、方法和装置,涉及计算机技术领域,系统包括客户端,被配置为向管理节点提交计算任务的请求信息;管理节点,被配置为响应计算任务的请求信息,判断计算任务类别,根据计算任务的类别加载相应的调度策略,根据调度策略和所述计算任务的需求信息,为计算任务选择合适的计算节点;动态调整不同类别的计算任务的可用节点和各计算任务的优先级;计算节点,被配置为接收管理节点根据调度策略派发的计算任务,启动作业运行引擎完成计算任务。本发明专利技术针对不同的应用场景,任意插拔不同的调度策略,将现有的数据中心和智算中心合二为一,大大降低中心成本,提高资源整体利用率和系统吞吐量。吞吐量。吞吐量。

【技术实现步骤摘要】
一种调度策略动态加载的计算任务管理系统、方法和装置


[0001]本专利技术涉及计算机
,特别涉及一种调度策略动态加载的计算任务管理系统、方法和装置。

技术介绍

[0002]随着移动互联网、大数据、人工智能的不断发展,对于集群计算任务管理系统提出了新的挑战。
[0003]由于大数据任务(数据密集任务)和人工智能训练任务的特点不同,现有技术通常采用不同的调度系统,大数据往往使用Yarn+Spark作为资源管理和作业调度系统,人工智能训练任务则使用Kubernets作为资源管理和作业调度系统,从而形成数据中心和智算中心,但是两个中心的底层资源无法打通,由于各自的任务量分布不均衡,任务量少时,系统资源就会有闲置,整体资源不能得到有效利用。
[0004]若将大数据任务和人工智能训练任务放在一个中心,由于人工智能训练任务需要用GPU卡,因此,如果大数据任务较多时,会挤占人工智能训练任务所用的CPU和内存资源,导致部分GPU卡闲置,不能充分使用GPU。

技术实现思路

[0005]鉴于现有技术中的上述缺陷或不足,本专利技术提供了一种调度策略动态加载的计算任务管理系统、方法和装置,可针对不同的应用场景,任意插拔不同的调度策略,来适应大数据任务和人工智能训练任务,将现有的数据中心和智算中心合二为一,大大降低中心成本,提高资源整体利用率和系统吞吐量。
[0006]本专利技术的第一方面,提供了一种调度策略动态加载的计算任务管理系统,包括:客户端,被配置为向管理节点提交计算任务的请求信息,所述请求信息包括计算任务的类别标识和不同类别的计算任务的需求信息;管理节点,被配置为响应所述计算任务的请求信息,判断计算任务类别,根据所述计算任务的类别加载相应的调度策略,根据所述调度策略和所述计算任务的需求信息,为计算任务选择合适的计算节点;动态调整不同类别的计算任务的可用节点和各计算任务的优先级;计算节点,被配置为接收管理节点根据调度策略派发的计算任务,启动作业运行引擎完成所述计算任务。
[0007]进一步的,大数据任务的需求信息包括:添加大数据任务所需要的数据集、所依赖的其它计算任务的输出结果、以及该输出结果的文件名;人工智能训练任务的需求信息包括:需要添加的人工智能训练任务用到的GPU的数量、类型和显存大小;GPU独占任务的需求信息包括:需要添加的独占使用GPU的数量、类型和显存大小。
[0008]进一步的,所述管理节点被进一步配置为:
对大数据任务加载数据感知调度策略,所述数据感知调度策略根据需求信息为大数据任务寻找一个或一组可以访问该数据集的计算节点,确保该大数据任务所依赖的其它计算任务已经结束且输出结果可以访问,并且大数据任务的输出文件有足够的空间满足任务的运行;对人工智能训练任务加载人工智能调度策略,所述人工智能调度策略根据需求信息中的GPU个数、类型和显存大小,为人工智能训练任务寻找一个或一组符合条件的计算节点,并且多个人工智能训练任务可以共享同一个GPU;对GPU独占任务加载人工智能独占调度策略,所述人工智能独占调度策略根据需求信息中的独占使用的GPU个数、类型和显存大小,为GPU独占任务寻找一个或一组符合条件的计算节点,并且所述符合条件的计算节点的GPU上没有其它作业运行。
[0009]进一步的,所述管理节点被进一步配置为:优先为人工智能训练任务分配带有CPU和GPU的计算节点,确保系统中的每个GPU都有人工智能训练任务运行,当系统中没有排队的人工智能训练任务时,再将带有CPU和GPU的计算节点分配给排队的大数据任务。
[0010]进一步的,所述计算节点被配置为:对于大数据任务,作业运行引擎在启动作业之前,创建输出目录用于存放作业输出文件;对于GPU独占任务,作业运行引擎在启动作业之前,将作业需要使用的GPU设为独占模式。
[0011]本专利技术的第二方面,提供了一种调度策略动态加载的计算任务管理方法,用于管理节点,包括:接收客户端提交的计算任务的请求信息,所述请求信息包括计算任务的类别标识和不同类别的计算任务的需求信息;响应所述计算任务的请求信息,判断计算任务类别,根据所述计算任务的类别加载相应的调度策略,根据所述调度策略和所述计算任务的需求信息,为计算任务选择合适的计算节点;动态调整不同类别的计算任务的可用节点和各计算任务的优先级;根据调度策略向计算节点派发计算任务。
[0012]进一步的,大数据任务的需求信息包括:添加大数据任务所需要的数据集、所依赖的其它计算任务的输出结果、以及该输出结果的文件名;人工智能训练任务的需求信息包括:需要添加的人工智能训练任务用到的GPU的数量、类型和显存大小;GPU独占任务的需求信息包括:需要添加的独占使用GPU的数量、类型和显存大小。
[0013]进一步的,所述响应所述计算任务的请求信息,判断计算任务类别,根据所述计算任务的类别加载相应的调度策略,根据所述调度策略和所述计算任务的需求信息,为计算任务选择合适的计算节点的步骤,包括:对大数据任务加载数据感知调度策略,所述数据感知调度策略根据需求信息为大数据任务寻找一个或一组可以访问该数据集的计算节点,确保该大数据任务所依赖的其它计算任务已经结束且输出结果可以访问,并且大数据任务的输出文件有足够的空间满足任
务的运行;对人工智能训练任务加载人工智能调度策略,所述人工智能调度策略根据需求信息中的GPU个数、类型和显存大小,为人工智能训练任务寻找一个或一组符合条件的计算节点,并且多个人工智能训练任务可以共享同一个GPU;对GPU独占任务加载人工智能独占调度策略,所述人工智能独占调度策略根据需求信息中的独占使用的GPU个数、类型和显存大小,为GPU独占任务寻找一个或一组符合条件的计算节点,并且所述符合条件的计算节点的GPU上没有其它作业运行。
[0014]进一步的,所述动态调整不同类别的计算任务的可用节点和各计算任务的优先级的步骤,包括:优先为人工智能训练任务分配带有CPU和GPU的计算节点,确保系统中的每个GPU都有人工智能训练任务运行,当系统中没有排队的人工智能训练任务时,再将带有CPU和GPU的计算节点分配给排队的大数据任务。
[0015]本专利技术的第三方面,提供了一种调度策略动态加载的计算任务管理装置,用于管理节点,包括:接收模块,被配置为接收客户端提交的计算任务的请求信息,所述请求信息包括计算任务的类别标识和不同类别的计算任务的需求信息;调度模块,被配置为响应所述计算任务的请求信息,判断计算任务类别,对大数据任务加载数据感知调度策略,所述数据感知调度策略根据需求信息为大数据任务寻找一个或一组可以访问该数据集的计算节点,确保该大数据任务所依赖的其它计算任务已经结束且输出结果可以访问,并且大数据任务的输出文件有足够的空间满足任务的运行;对人工智能训练任务加载人工智能调度策略,所述人工智能调度策略根据需求信息中的GPU个数、类型和显存大小,为人工智能训练任务寻找一个或一组符合条件的计算节点,并且多个人工智能训练任务可以共享同一个GPU;对GPU独占任务加载人工智能独占调度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种调度策略动态加载的计算任务管理系统,其特征在于,包括:客户端,被配置为向管理节点提交计算任务的请求信息,所述请求信息包括计算任务的类别标识和不同类别的计算任务的需求信息;管理节点,被配置为响应所述计算任务的请求信息,判断计算任务类别,根据所述计算任务的类别加载相应的调度策略,根据所述调度策略和所述计算任务的需求信息,为计算任务选择合适的计算节点;动态调整不同类别的计算任务的可用节点和各计算任务的优先级;计算节点,被配置为接收管理节点根据调度策略派发的计算任务,启动作业运行引擎完成所述计算任务。2.根据权利要求1所述的一种调度策略动态加载的计算任务管理系统,其特征在于:大数据任务的需求信息包括:添加大数据任务所需要的数据集、所依赖的其它计算任务的输出结果、以及该输出结果的文件名;人工智能训练任务的需求信息包括:需要添加的人工智能训练任务用到的GPU的数量、类型和显存大小;GPU独占任务的需求信息包括:需要添加的独占使用GPU的数量、类型和显存大小。3.根据权利要求2所述的一种调度策略动态加载的计算任务管理系统,其特征在于,所述管理节点被进一步配置为:对大数据任务加载数据感知调度策略,所述数据感知调度策略根据需求信息为大数据任务寻找一个或一组可以访问该数据集的计算节点,确保该大数据任务所依赖的其它计算任务已经结束且输出结果可以访问,并且大数据任务的输出文件有足够的空间满足任务的运行;对人工智能训练任务加载人工智能调度策略,所述人工智能调度策略根据需求信息中的GPU个数、类型和显存大小,为人工智能训练任务寻找一个或一组符合条件的计算节点,并且多个人工智能训练任务可以共享同一个GPU;对GPU独占任务加载人工智能独占调度策略,所述人工智能独占调度策略根据需求信息中的独占使用的GPU个数、类型和显存大小,为GPU独占任务寻找一个或一组符合条件的计算节点,并且所述符合条件的计算节点的GPU上没有其它作业运行。4.根据权利要求3所述的一种调度策略动态加载的计算任务管理系统,其特征在于,所述管理节点被进一步配置为:优先为人工智能训练任务分配带有CPU和GPU的计算节点,确保系统中的每个GPU都有人工智能训练任务运行,当系统中没有排队的人工智能训练任务时,再将带有CPU和GPU的计算节点分配给排队的大数据任务。5.根据权利要求4所述的一种调度策略动态加载的计算任务管理系统,其特征在于,所述计算节点被配置为:对于大数据任务,作业运行引擎在启动作业之前,创建输出目录用于存放作业输出文件;对于GPU独占任务,作业运行引擎在启动作业之前,将作业需要使用的GPU设为独占模式。6.一种调度策略动态加载的计算任务管理方法,用于管理节点,其特征在于,包括:
接收客户端提交的计算任务的请求信息,所述请求信息包括计算任务的类别标识和不同类别的计算任务的需求信息;响应所述计算任务的请求信息,判断计算任务类别,根据所述计算任务的类别加载相应的调度策略,根据所述调度策略和所述计算任务的需求信息,为计算任务选择合适的计算节点;动态调整不同类别的计算任务的可用节点和各计算任务的优先级;根据调度策略向计算节点派发计算任务。7.根据权利要求6所述的一种调度策略动态加载的计算任务管理方法,其特征在于:大数据任务的需求信息包括:...

【专利技术属性】
技术研发人员:苏斌徐达
申请(专利权)人:北京华恒盛世科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1