System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及云计算,尤其涉及一种作业调度方法及相关装置。
技术介绍
1、随着云计算技术的发展,云计算服务日趋成熟。大模型训练平台、视频渲染农场、超算任务平台等平台提供商,其底层需要调用云服务提供商的iaas(infrastructure as aservice,基础设施即服务)云主机、物理机资源,其上层向最终客户提供paas(platform asa service,平台即服务)/saas(software as a service,软件运营服务)类平台服务,提供给上层平台作业使用。
2、目前在作业类场景中,平台提供商的作业调度方法主要以考虑资源可用性和资源费用为主,来选取最优资源,资源不足则进行资源新增,未考虑平台整体资源利用率的科学性和资源分布情况,也没有追踪资源开通后实际运行的情况是否跟资源开通规格相匹配。
技术实现思路
1、鉴于上述问题,本申请提供了一种作业调度方法及相关装置,根据作业实际运行情况来匹配资源,将全局资源利用率保持在一个科学的范围。具体方案如下:
2、本申请第一方面提供一种作业调度方法,包括:
3、响应于前端业务平台提交的作业开通请求,获取所述作业开通请求中的资源需求;
4、获取可用资源节点的资源信息;
5、根据所述可用资源节点的资源信息,从所述可用资源节点中筛选满足所述资源需求的候选资源节点;
6、获取所述候选资源节点的历史资源利用率指标值和历史需求匹配指标值,所述历史需求匹配指标值表示所
7、对所述历史资源利用率指标值和所述历史需求匹配指标值进行加权求和,计算所述候选资源节点的综合指标分值;
8、将所述综合指标分值最高的所述候选资源节点确定为目标资源节点,并生成第一调度方案。
9、在一种可能的实现中,获取所述候选资源节点的历史资源利用率指标值,包括:
10、获取所述候选资源节点在预设历史周期内的cpu利用率、gpu利用率和内存利用率;
11、对所述候选资源节点在预设历史周期内的cpu利用率、gpu利用率和内存利用率进行加权求和,得到所述历史资源利用率指标值。
12、在一种可能的实现中,获取所述候选资源节点的历史需求匹配指标值,包括:
13、获取所述候选资源节点在预设历史周期内所有作业申请的cpu总量、所有作业申请的gpu总量和所有作业申请的内存总量;
14、获取所述候选资源节点在预设历史周期内cpu的95峰值、gpu的95峰值和内存的95峰值;
15、分别计算所述候选资源节点在预设历史周期内所有作业申请的cpu总量和cpu的95峰值的第一差值、所有作业申请的gpu总量和gpu的95峰值的第二差值以及所有作业申请的内存总量和内存的95峰值的第三差值;
16、对所述候选资源节点对应的所述第一差值、所述第二差值和所述第三差值进行加权求和,得到所述历史需求匹配指标值。
17、在一种可能的实现中,若所述可用资源节点中不存在满足所述资源需求的候选资源节点,所述作业调度方法还包括:
18、确定所述综合指标分值的平均值最高的资源池为目标资源池;
19、确定满足所述资源需求的资源类型和资源规格,并根据所述目标资源池、所述资源类型和所述资源规格生成第二调度方案;
20、向资源平台发送资源开通指令,所述资源开通指令携带所述目标资源池、所述资源类型和所述资源规格;
21、在资源开通完成后,将开通的资源节点与所述第二调度方案绑定。
22、在一种可能的实现中,所述作业调度方法还包括:
23、当资源节点中运行的最后一个作业完成后,对所述资源节点执行资源释放操作。
24、本申请第二方面提供一种作业调度装置,包括:
25、资源需求获取单元,用于响应于前端业务平台提交的作业开通请求,获取所述作业开通请求中的资源需求;
26、资源信息获取单元,用于获取可用资源节点的资源信息;
27、资源节点筛选单元,用于根据所述可用资源节点的资源信息,从所述可用资源节点中筛选满足所述资源需求的候选资源节点;
28、指标获取单元,用于获取所述候选资源节点的历史资源利用率指标值和历史需求匹配指标值,所述历史需求匹配指标值表示所述候选资源节点在预设历史周期内所有作业申请的资源与资源利用峰值之间的差异;
29、指标计算单元,用于对所述历史资源利用率指标值和所述历史需求匹配指标值进行加权求和,计算所述候选资源节点的综合指标分值;
30、调度方案生成单元,用于将所述综合指标分值最高的所述候选资源节点确定为目标资源节点,并生成第一调度方案。
31、本申请第三方面提供一种作业调度系统,包括:作业调度器、资源控制器、指标采集器、第一api网关、消息队列和数据库;
32、所述第一api网关用于接收前端业务平台提交的作业开通请求,将所述作业开通请求的请求索引发送到所述消息队列,并将所述作业开通请求存储到所述数据库;
33、所述作业调度器用于从所述消息队列和所述数据库中提取所述作业开通请求,从所述资源控制器中获取可用资源节点的资源信息,根据所述可用资源节点的资源信息,从所述可用资源节点中筛选满足所述资源需求的候选资源节点,从所述指标采集器中获取所述候选资源节点的综合指标分值,将所述综合指标分值最高的所述候选资源节点确定为目标资源节点,并生成第一调度方案,其中,所述综合指标分值根据所述候选资源节点的历史资源利用率指标值和历史需求匹配指标值计算得到,所述历史需求匹配指标值表示所述候选资源节点在预设历史周期内所有作业申请的资源与资源利用峰值之间的差异。
34、在一种可能的实现中,所述作业调度系统还包括:第二api网关;
35、所述作业调度器还用于在所述可用资源节点中不存在满足所述资源需求的候选资源节点的情况下,从所述指标采集器中获取每个资源池中各个资源节点的所述综合指标分值,确定所述综合指标分值的平均值最高的资源池为目标资源池,确定满足所述资源需求的资源类型和资源规格,并根据所述目标资源池、所述资源类型和所述资源规格生成第二调度方案,向所述资源控制器发送资源开通请求;
36、所述资源控制器根据所述资源开通请求中的所述目标资源池、所述资源类型和所述资源规格,调用所述第二api网关向资源平台发送资源开通指令,所述资源开通指令携带所述目标资源池、所述资源类型和所述资源规格,在资源开通完成后,将开通的资源节点与所述第二调度方案绑定。
37、本申请第四方面提供一种计算机程序产品,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现上述第一方面或第一方面任一实现方式的作业调度方法。
38、本申请第五方面提供一种计算机存储介质,所述存本文档来自技高网...
【技术保护点】
1.一种作业调度方法,其特征在于,包括:
2.根据权利要求1所述的作业调度方法,其特征在于,获取所述候选资源节点的历史资源利用率指标值,包括:
3.根据权利要求1所述的作业调度方法,其特征在于,获取所述候选资源节点的历史需求匹配指标值,包括:
4.根据权利要求1所述的作业调度方法,其特征在于,若所述可用资源节点中不存在满足所述资源需求的候选资源节点,所述作业调度方法还包括:
5.根据权利要求1所述的作业调度方法,其特征在于,所述作业调度方法还包括:
6.一种作业调度装置,其特征在于,包括:
7.一种作业调度系统,其特征在于,包括:作业调度器、资源控制器、指标采集器、第一API网关、消息队列和数据库;
8.根据权利要求7所述的作业调度系统,其特征在于,所述作业调度系统还包括:第二API网关;
9.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现如权利要求1至5中任意一项所述的作业调度方法。
10.一种计算机存储介
...【技术特征摘要】
1.一种作业调度方法,其特征在于,包括:
2.根据权利要求1所述的作业调度方法,其特征在于,获取所述候选资源节点的历史资源利用率指标值,包括:
3.根据权利要求1所述的作业调度方法,其特征在于,获取所述候选资源节点的历史需求匹配指标值,包括:
4.根据权利要求1所述的作业调度方法,其特征在于,若所述可用资源节点中不存在满足所述资源需求的候选资源节点,所述作业调度方法还包括:
5.根据权利要求1所述的作业调度方法,其特征在于,所述作业调度方法还包括:
6.一种作业调度装置,其特征在于,包括:
7.一种作业调...
【专利技术属性】
技术研发人员:赵志月,纪煜明,
申请(专利权)人:广州亚信技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。