System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种弹性伸缩支持大数据集群NodeManager资源调度的方法及装置制造方法及图纸_技高网

一种弹性伸缩支持大数据集群NodeManager资源调度的方法及装置制造方法及图纸

技术编号:43708874 阅读:11 留言:0更新日期:2024-12-18 21:20
本发明专利技术公开一种弹性伸缩支持大数据集群NodeManager资源调度的方法及装置,其中方法包括:S01、主机负载评估与资源管理,主机的负载是否超额;S02、NodeManager资源优化策略,进行资源的动态优化;S03、NodeManager资源的自动化管理,根据S01中获取的数据,确定是否需要调整NodeManager的资源分配;S04、NodeManager资源饱和的识别与处理,通过持续监控集群状态,及时发现资源饱和的NodeManager机器。本发明专利技术一种弹性伸缩支持大数据集群NodeManager资源调度的方法及装置,通过提高单台物理机的NodeManager资源利用率、控制超额配置的CPU和内存NodeManager资源上限、发现并响应已饱和的机器,驱逐运行的任务等技术手段使得大数据集群NodeManager资源调度可以支持自动弹性伸缩。

【技术实现步骤摘要】

本专利技术涉及数据资源调度领域,尤其是一种弹性伸缩支持大数据集群nodemanager资源调度的方法及装置。


技术介绍

1、随着业务的快速发展,hadoop大数据集群规模越来越大,大数据集群对cpu和内存等nodemanager资源的需求也不断增加。这会给大数据集群的可扩展性、nodemanager资源利用率、成本效益和应对突发需求能力带来了挑战,会面临以下一些问题:

2、(1)、扩展性差:传统方式在面对内存和cpunodemanager资源需求的迅速增加时,通常需要采购大量新的物理硬件来满足需求。然而,这种方法会导致系统的可伸缩性和响应能力下降。购买和部署新硬件需要花费时间,并且可能会面临nodemanager资源利用不均衡的问题。

3、(2)、nodemanager资源利用率低:许多应用程序的nodemanager资源使用情况经常出现较大的波动。在高峰期,nodemanager资源需求可能很高,但在低峰期或空闲时间,这些nodemanager资源可能得不到充分利用。这种不稳定的nodemanager资源利用率导致了nodemanager资源的浪费,增加了成本。

4、(3)、nodemanager资源成本高:为了应对高峰负载,必须配置足够的物理nodemanager资源,包括硬件设备、电力供应和冷却设备等基础设施。增加这些nodemanager资源的投入成本可能很高,尤其是在需要满足突发负载的情况下。

5、(4)、nodemanager资源碎片化:由于业务的动态调整和任务的变化,可能会出现大量无法高效利用的nodemanager资源碎片。这些碎片化的nodemanager资源无法组合使用,导致了nodemanager资源利用率的降低。碎片化的nodemanager资源可能会散布在集群中,造成nodemanager资源的浪费。

6、(5)、无法满足突发负载:在业务高峰期或特殊场景下,可能会出现突发的nodemanager资源需求高峰。如果没有灵活的nodemanager资源调度和管理机制,集群将无法及时满足这些突发负载的需求,导致性能下降或任务延迟。


技术实现思路

1、为解决现有技术存在的问题,本专利技术提供一种弹性伸缩支持大数据集群nodemanager资源调度的方法及装置,通过提高单台物理机的nodemanager资源利用率、控制超额配置的cpu和内存nodemanager资源上限、发现并响应已饱和的机器,驱逐运行的任务等技术手段使得大数据集群nodemanager资源调度可以支持自动弹性伸缩。

2、为实现上述目的,本专利技术采用下述技术方案:

3、在本专利技术一实施例中,提出了一种弹性伸缩支持大数据集群nodemanager资源调度的方法,该方法包括:

4、s01、主机负载评估与资源管理,在单台主机上,主机的cpu和内存使用率指标、nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率,两个指标评价主机的负载是否超额;

5、进一步地,所述nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率的计算方式为:nodemanager在启动前,配置可使用的内存大小和cpu核心数的阈值,作为计算资源,计算进程用的最大内存和cpu核心数不会超过配置的阈值;container是nodemanager启动计算任务的基本进程单位,用于任务的计算处理。

6、进一步地,所述s01包括:

7、s011、获取当前机器的cpu和内存使用率以及nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率;

8、s012、判断当前机器的cpu和内存使用率是否低于预设置的第一阈值(threshold1),如果低于第一阈值,表示机器的剩余nodemanager资源较多,会判断为需要提高nodemanager资源配置;

9、进一步地,所述s012中的第一阈值为:可使用的内存大小和cpu核心数的阈值。

10、s013、如当前机器的cpu和内存使用率高于预设置的第一阈值(threshold1),则机器已经饱和,观察nodemanager占机器总使用量的比率;

11、s014、如nodemanager占机器总使用量的比率高于预设置的第二阈值(threshold2),表示在nodemanager资源饱和的机器内,nodemanager任务的nodemanager资源占有量已经超出预期,会判断为需要降低nodemanager资源配置,以抑制后续任务的提交,并记录超过阈值的具体nodemanager资源为memory或cpu,在container驱逐中发挥作用;

12、进一步地,所述s014中的第二阈值为:nodemanager资源饱和的阈值,该阈值用于判断nodemanager的资源使用是否超出了预期的限制,当nodemanager的资源使用率达到或超过这个阈值时,系统会认为nodemanager资源饱和,可能需要采取行动,第二阈值threshold2通常是人工设置的。

13、s015、如nodemanager占机器总使用量的比率低于预设置的第二阈值(threshold2),nodemanager任务的nodemanager资源占有量仍在预期范围内,判断为需要保持当前nodemanager资源配置,并持续观察机器nodemanager资源的后续变化情况。

14、s02、nodemanager资源优化策略,为了实现nodemanager资源的高效利用,进行资源的动态优化;

15、进一步地,所述s02包括:

16、s021、资源量获取,获取yarn集群中每个nodemanager当前的资源量;

17、s022、资源变化量计算,计算nodemanager资源的变化率,并将其乘以当前资源量,以预测本次期望的资源变化量,这个变化量可以是正的,也可以是负的,表示资源的增加或减少。将变化量加到当前资源量上,得到期望调整后的资源量;

18、进一步地,所述s022中的nodemanager资源的变化率为:是yarn集群中nodemanager的资源使用情况随时间的变化比率,该指标衡量资源使用效率,以及预测资源需求的变化趋势。

19、进一步地,所述nodemanager资源的变化率的计算步骤包括:

20、s0221、收集数据,收集nodemanager在不同时间点的资源使用数据,这些数据可能包括cpu使用率、内存使用量、磁盘使用量等;

21、s0222、确定时间范围,选择合适的时间范围,时间范围决于使用者分析的时间尺度;

22、s0223、计算资源使用量的变化:对于每个时间点,计算资源使用量的变化;

23、s0224、计算变化本文档来自技高网...

【技术保护点】

1.一种弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,该方法包括:

2.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述NodeManager启动Container内存与CPU之和占NodeManager计算资源阈值的使用率的计算方式为:NodeManager在启动前,配置可使用的内存大小和CPU核心数的阈值,作为计算资源,计算进程用的最大内存和CPU核心数不会超过配置的阈值;Container是NodeManager启动计算任务的基本进程单位,用于任务的计算处理。

3.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S01包括:

4.根据权利要求3所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S012中的第一阈值为:可使用的内存大小和CPU核心数的阈值。

5.根据权利要求3所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S014中的第二阈值为:NodeManager资源饱和的阈值,该阈值用于判断NodeManager的资源使用是否超出了预期的限制,当NodeManager的资源使用率达到或超过这个阈值时,系统会认为NodeManager资源饱和,可能需要采取行动,第二阈值是人工设置的。

6.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S02包括:

7.根据权利要求6所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S022中的NodeManager资源的变化率为:是Yarn集群中NodeManager的资源使用情况随时间的变化比率,该指标衡量资源使用效率,以及预测资源需求的变化趋势。

8.根据权利要求6所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述NodeManager资源的变化率的计算步骤包括:

9.根据权利要求6所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S023包括:

10.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S03中资源分配包括:

11.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S03中回收资源包括:

12.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S04包括:

13.根据权利要求12所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S043驱逐过程遵循的规则包括:

14.一种弹性伸缩支持大数据集群NodeManager资源调度的装置,其特征在于,该装置包括:

15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-13任一项所述方法。

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1-13任一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,该方法包括:

2.根据权利要求1所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率的计算方式为:nodemanager在启动前,配置可使用的内存大小和cpu核心数的阈值,作为计算资源,计算进程用的最大内存和cpu核心数不会超过配置的阈值;container是nodemanager启动计算任务的基本进程单位,用于任务的计算处理。

3.根据权利要求1所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s01包括:

4.根据权利要求3所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s012中的第一阈值为:可使用的内存大小和cpu核心数的阈值。

5.根据权利要求3所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s014中的第二阈值为:nodemanager资源饱和的阈值,该阈值用于判断nodemanager的资源使用是否超出了预期的限制,当nodemanager的资源使用率达到或超过这个阈值时,系统会认为nodemanager资源饱和,可能需要采取行动,第二阈值是人工设置的。

6.根据权利要求1所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s02包括:

7.根据权利要求6所述的弹性伸缩支持大数据集群nodemanager资源调度的...

【专利技术属性】
技术研发人员:张强
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1