System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种在离线混部中动态限制离线任务资源的方法及装置制造方法及图纸_技高网

一种在离线混部中动态限制离线任务资源的方法及装置制造方法及图纸

技术编号:42530822 阅读:10 留言:0更新日期:2024-08-27 19:38
本发明专利技术提供一种在离线混部中动态限制离线任务资源的方法及装置,该方法包括:步骤1.持续监听cgroup内核接口,实时捕捉资源更新事件,当集群静态资源发生变化时,将静态资源变化情况通过消息队列发送到离线引擎模块;步骤2.离线引擎模块动态调整离线任务的资源配额,并针对集群中的离线Pod创建相应的处理规则,将离线任务移动至集中管理的指定目录下,为每个离线任务单独设定CPU和内存资源上限,以形成硬性资源限制。本发明专利技术具有可靠性、稳定性以及资源利用效率高等有点。

【技术实现步骤摘要】

本专利技术涉及云计算领域,尤其涉及一种在离线混部中动态限制离线任务资源的方法及装置


技术介绍

1、近年来,随着云原生技术的广泛应用,集群资源的有效管理和高效利用成为了云计算领域的核心课题之一。在混合部署(混部)场景中,尤其是将在线业务和离线业务在同一集群中整合运行,资源利用率得到了显著提升。然而,混部所带来的共峰问题成为亟待解决的关键挑战。在线业务因其时延敏感和突发性资源需求特点,要求保障其服务质量(qos),而离线业务虽然对时延不敏感,但可能因资源消耗大而影响在线业务性能。

2、现有技术中,如申请号为cn202310872087.0的中国专利申请,通过kubernetes集群资源超分技术尝试改进节点资源利用率,通过动态计算可超分资源并合理分配给应用,有效提高了集群资源的使用效率,但在防止离线任务过度消耗资源以保障在线业务qos方面并未设置明确的总量控制机制。另外,如申请号为cn202310369688.x的中国专利申请,针对深度学习负载的混部调度方法,虽然能够基于共享吞吐量数据和任务队列生成调度方案,确保在线负载延迟限制不受影响且兼顾离线负载执行效率,但也未能就离线任务总体资源占有率做出直接限制。再者,申请号cn20221122230.6的中国专利申请,记载了混部负载的干扰量化方法,虽可通过计算干扰熵值精确量化在线和离线负载之间资源竞争程度,但这仍未提供一套系统性的解决方案来限定离线任务对资源的总体使用上限,以避免对在线业务造成不可接受的服务质量下降。最后,申请号cn202310357883.0的中国专利申请,针对云环境下的服务混部容器调度方法,提出了基于亲和性和反亲和性感知的容器调度算法,实现了在性能、能耗和资源利用率多维度的优化调度,但同样未专门针对离线任务资源利用率设定全局阈值,以确保在提升资源使用效率的同时,不会牺牲在线业务的性能稳定性。

3、综上所述,当前的混部技术在提升集群资源利用率方面取得了一定进展,但在实际应用中,特别是在处理离线业务资源需求与在线业务服务质量保障之间的平衡时,尚未见到在技术层面普遍实施对离线任务总资源利用率的有效限制措施,这无疑增加了在线业务受到离线任务资源争抢风险,降低了混部环境下业务运行的整体可靠性。因此,设计并实现一种既能充分利用集群资源又能严格控制离线任务资源占用比例,从而切实保护在线业务服务质量的技术方案具有重要价值和现实意义。


技术实现思路

1、本专利技术要解决的技术问题就在于:针对现有技术存在的技术问题,本专利技术提供一种可靠性、稳定性高的在离线混部中动态限制离线任务资源的方法及装置,能够在充分利用集群资源的同时控制离线任务资源占用比例,以实现资源利用率有效提高。

2、为解决上述技术问题,本专利技术提出的技术方案为:

3、一种在离线混部中动态限制离线任务资源的方法,包括以下步骤:

4、步骤s01.持续监听cgroup内核接口,实时捕捉资源更新事件,当集群静态资源发生变化时,将静态资源变化情况通过消息队列发送到离线引擎模块;

5、步骤s02.所述离线引擎模块动态调整离线任务的资源配额,并针对集群中的离线pod创建相应的处理规则,将离线任务移动至集中管理的指定目录下,为每个离线任务单独设定cpu和内存资源上限,以形成硬性资源限制。

6、进一步的,步骤s01中,所述实时捕捉资源更新事件,是对agent节点上报至消息队列中的消息进行筛选,以得到离线任务资源变动信息,并提取指定字段。

7、进一步的,步骤s02中,所述动态调整离线任务的资源配额,是实时监控集群的整体资源使用情况,当检测到有新的离线任务创建或已有离线任务结束时,触发资源调整机制,所述离线任务的资源配额包括:

8、cpu使用率阈值,用于限制离线任务占用cpu资源占比的最大值;

9、网络水位线配置,用于限制离线任务所能使用的网络带宽;

10、内存回收机制,用于设定不同级别的内存使用限制。

11、进一步的,步骤s02中,所述针对集群中的离线pod创建相应的处理规则包括:

12、步骤s201.当资源更新时,则获取与资源更新相关的详细信息,并判断当前资源更新是否属于离线任务,如果是离线任务,则执行步骤s02;

13、步骤s202.检查所述offline目录下是否存在与当前离线任务对应的pod目录,如果不存在对应的pod目录,则在offline目录下创建子目录;如果存在对应的pod目录,则比较该pod目录下的内容与所述cgroup内核接口的值是否一致,如果不一致,执行步骤s203;

14、步骤s203.将所述cgroup内核接口的值复制到对应pod的offline目录下,以实现统一管理和更新。

15、进一步的,还包括构建离线任务专用管理目录,用于存放所有离线任务的资源配额信息。

16、进一步的,所述静态资源变化包括更改内核接口值,新建容器目录,删除容器目录,新起进程。

17、一种在离线混部中动态限制离线任务资源的装置,包括

18、资源使用监控模块,用于持续监听cgroup内核接口,实时捕捉资源更新事件,当集群静态资源发生变化时,将静态资源变化情况通过消息队列发送到离线引擎模块,所述静态资源是在程序运行过程中被配置并相对固定的资源限制;

19、资源配额调整模块,所述离线引擎模块动态调整离线任务的资源配额,并针对集群中的离线pod创建相应的处理规则,将离线任务移动至集中管理的指定目录下,为每个离线任务单独设定cpu和内存资源上限,以形成硬性资源限制。

20、进一步的,所述资源使用监控模块包括离线任务变动信息获取单元,用于对agent节点上报至消息队列中的消息进行筛选,以得到离线任务资源变动信息,并提取指定字段。

21、一种计算机装置,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行上述方法。

22、一种存储有计算机程序的计算机可读存储介质,所述计算机程序执行上述方法。

23、与现有技术相比,本专利技术的优点在于:

24、本专利技术通过持续监听cgroup内核接口,实时监测集群资源的静态变化,当出现容器目录的创建、删除等事件时,通过消息队列将事件传递给离线引擎模块,离线引擎模块接收到资源变化消息后,动态调整离线任务所使用的资源配额,同时,将离线任务集中管理在指定的目录下并为每个离线任务单独设定cpu和内存上限。本专利技术实现了在离线混部环境下对离线任务资源的精细化、动态化管理,通过cgroup技术和消息队列机制,实现了资源的高效利用和合理分配,既能保障离线任务在集群资源充足时充分利用闲置资源,也能在资源紧张时确保在线服务不受影响。

本文档来自技高网...

【技术保护点】

1.一种在离线混部中动态限制离线任务资源的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的在离线混部中动态限制离线任务资源的方法,其特征在于,步骤S01中,所述实时捕捉资源更新事件,是对Agent节点上报至消息队列中的消息进行筛选,以得到离线任务资源变动信息,并提取指定字段。

3.根据权利要求1所述的在离线混部中动态限制离线任务资源的方法,其特征在于,步骤S02中,所述动态调整离线任务的资源配额,是实时监控集群的整体资源使用情况,当检测到有新的离线任务创建或已有离线任务结束时,触发资源调整机制,所述离线任务的资源配额包括:

4.根据权利要求1所述的在离线混部中动态限制离线任务资源的方法,其特征在于,步骤S02中,所述针对集群中的离线Pod创建相应的处理规则包括:

5.根据权利要求1~4中任意一项所述的在离线混部中动态限制离线任务资源的方法,其特征在于,还包括构建离线任务专用管理目录,用于存放所有离线任务的资源配额信息。

6.根据权利要求1~4中任意一项所述的在离线混部中动态限制离线任务资源的方法,其特征在于,所述静态资源变化包括更改内核接口值,新建容器目录,删除容器目录,新起进程。

7.一种在离线混部中动态限制离线任务资源的装置,其特征在于,包括

8.根据权利要求7所述的在离线混部中动态限制离线任务资源的装置,其特征在于,所述资源使用监控模块包括离线任务变动信息获取单元,用于对Agent节点上报至消息队列中的消息进行筛选,以得到离线任务资源变动信息,并提取指定字段。

9.一种计算机装置,包括处理器以及存储器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于执行所述计算机程序以执行如权利要求1~6中任意一项所述方法。

10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序执行时实现如权利要求1~6中任意一项所述的方法。

...

【技术特征摘要】

1.一种在离线混部中动态限制离线任务资源的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的在离线混部中动态限制离线任务资源的方法,其特征在于,步骤s01中,所述实时捕捉资源更新事件,是对agent节点上报至消息队列中的消息进行筛选,以得到离线任务资源变动信息,并提取指定字段。

3.根据权利要求1所述的在离线混部中动态限制离线任务资源的方法,其特征在于,步骤s02中,所述动态调整离线任务的资源配额,是实时监控集群的整体资源使用情况,当检测到有新的离线任务创建或已有离线任务结束时,触发资源调整机制,所述离线任务的资源配额包括:

4.根据权利要求1所述的在离线混部中动态限制离线任务资源的方法,其特征在于,步骤s02中,所述针对集群中的离线pod创建相应的处理规则包括:

5.根据权利要求1~4中任意一项所述的在离线混部中动态限制离线任务资源的方法,其特征在于,还包括构建离线任务专用管...

【专利技术属性】
技术研发人员:潘希龙龙虎
申请(专利权)人:麒麟软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1