System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据资源调度领域,尤其是一种弹性伸缩支持大数据集群nodemanager资源调度的方法及装置。
技术介绍
1、随着业务的快速发展,hadoop大数据集群规模越来越大,大数据集群对cpu和内存等nodemanager资源的需求也不断增加。这会给大数据集群的可扩展性、nodemanager资源利用率、成本效益和应对突发需求能力带来了挑战,会面临以下一些问题:
2、(1)、扩展性差:传统方式在面对内存和cpunodemanager资源需求的迅速增加时,通常需要采购大量新的物理硬件来满足需求。然而,这种方法会导致系统的可伸缩性和响应能力下降。购买和部署新硬件需要花费时间,并且可能会面临nodemanager资源利用不均衡的问题。
3、(2)、nodemanager资源利用率低:许多应用程序的nodemanager资源使用情况经常出现较大的波动。在高峰期,nodemanager资源需求可能很高,但在低峰期或空闲时间,这些nodemanager资源可能得不到充分利用。这种不稳定的nodemanager资源利用率导致了nodemanager资源的浪费,增加了成本。
4、(3)、nodemanager资源成本高:为了应对高峰负载,必须配置足够的物理nodemanager资源,包括硬件设备、电力供应和冷却设备等基础设施。增加这些nodemanager资源的投入成本可能很高,尤其是在需要满足突发负载的情况下。
5、(4)、nodemanager资源碎片化:由于业务的动态调整和任务的变化,
6、(5)、无法满足突发负载:在业务高峰期或特殊场景下,可能会出现突发的nodemanager资源需求高峰。如果没有灵活的nodemanager资源调度和管理机制,集群将无法及时满足这些突发负载的需求,导致性能下降或任务延迟。
技术实现思路
1、为解决现有技术存在的问题,本专利技术提供一种弹性伸缩支持大数据集群nodemanager资源调度的方法及装置,通过提高单台物理机的nodemanager资源利用率、控制超额配置的cpu和内存nodemanager资源上限、发现并响应已饱和的机器,驱逐运行的任务等技术手段使得大数据集群nodemanager资源调度可以支持自动弹性伸缩。
2、为实现上述目的,本专利技术采用下述技术方案:
3、在本专利技术一实施例中,提出了一种弹性伸缩支持大数据集群nodemanager资源调度的方法,该方法包括:
4、s01、主机负载评估与资源管理,在单台主机上,主机的cpu和内存使用率指标、nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率,两个指标评价主机的负载是否超额;
5、进一步地,所述nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率的计算方式为:nodemanager在启动前,配置可使用的内存大小和cpu核心数的阈值,作为计算资源,计算进程用的最大内存和cpu核心数不会超过配置的阈值;container是nodemanager启动计算任务的基本进程单位,用于任务的计算处理。
6、进一步地,所述s01包括:
7、s011、获取当前机器的cpu和内存使用率以及nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率;
8、s012、判断当前机器的cpu和内存使用率是否低于预设置的第一阈值(threshold1),如果低于第一阈值,表示机器的剩余nodemanager资源较多,会判断为需要提高nodemanager资源配置;
9、进一步地,所述s012中的第一阈值为:可使用的内存大小和cpu核心数的阈值。
10、s013、如当前机器的cpu和内存使用率高于预设置的第一阈值(threshold1),则机器已经饱和,观察nodemanager占机器总使用量的比率;
11、s014、如nodemanager占机器总使用量的比率高于预设置的第二阈值(threshold2),表示在nodemanager资源饱和的机器内,nodemanager任务的nodemanager资源占有量已经超出预期,会判断为需要降低nodemanager资源配置,以抑制后续任务的提交,并记录超过阈值的具体nodemanager资源为memory或cpu,在container驱逐中发挥作用;
12、进一步地,所述s014中的第二阈值为:nodemanager资源饱和的阈值,该阈值用于判断nodemanager的资源使用是否超出了预期的限制,当nodemanager的资源使用率达到或超过这个阈值时,系统会认为nodemanager资源饱和,可能需要采取行动,第二阈值threshold2通常是人工设置的。
13、s015、如nodemanager占机器总使用量的比率低于预设置的第二阈值(threshold2),nodemanager任务的nodemanager资源占有量仍在预期范围内,判断为需要保持当前nodemanager资源配置,并持续观察机器nodemanager资源的后续变化情况。
14、s02、nodemanager资源优化策略,为了实现nodemanager资源的高效利用,进行资源的动态优化;
15、进一步地,所述s02包括:
16、s021、资源量获取,获取yarn集群中每个nodemanager当前的资源量;
17、s022、资源变化量计算,计算nodemanager资源的变化率,并将其乘以当前资源量,以预测本次期望的资源变化量,这个变化量可以是正的,也可以是负的,表示资源的增加或减少。将变化量加到当前资源量上,得到期望调整后的资源量;
18、进一步地,所述s022中的nodemanager资源的变化率为:是yarn集群中nodemanager的资源使用情况随时间的变化比率,该指标衡量资源使用效率,以及预测资源需求的变化趋势。
19、进一步地,所述nodemanager资源的变化率的计算步骤包括:
20、s0221、收集数据,收集nodemanager在不同时间点的资源使用数据,这些数据可能包括cpu使用率、内存使用量、磁盘使用量等;
21、s0222、确定时间范围,选择合适的时间范围,时间范围决于使用者分析的时间尺度;
22、s0223、计算资源使用量的变化:对于每个时间点,计算资源使用量的变化;
23、s0224、计算变化本文档来自技高网...
【技术保护点】
1.一种弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,该方法包括:
2.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述NodeManager启动Container内存与CPU之和占NodeManager计算资源阈值的使用率的计算方式为:NodeManager在启动前,配置可使用的内存大小和CPU核心数的阈值,作为计算资源,计算进程用的最大内存和CPU核心数不会超过配置的阈值;Container是NodeManager启动计算任务的基本进程单位,用于任务的计算处理。
3.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S01包括:
4.根据权利要求3所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S012中的第一阈值为:可使用的内存大小和CPU核心数的阈值。
5.根据权利要求3所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S014中的第二阈值为
6.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S02包括:
7.根据权利要求6所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S022中的NodeManager资源的变化率为:是Yarn集群中NodeManager的资源使用情况随时间的变化比率,该指标衡量资源使用效率,以及预测资源需求的变化趋势。
8.根据权利要求6所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述NodeManager资源的变化率的计算步骤包括:
9.根据权利要求6所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S023包括:
10.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S03中资源分配包括:
11.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S03中回收资源包括:
12.根据权利要求1所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S04包括:
13.根据权利要求12所述的弹性伸缩支持大数据集群NodeManager资源调度的方法,其特征在于,所述S043驱逐过程遵循的规则包括:
14.一种弹性伸缩支持大数据集群NodeManager资源调度的装置,其特征在于,该装置包括:
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-13任一项所述方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1-13任一项所述方法的计算机程序。
...【技术特征摘要】
1.一种弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,该方法包括:
2.根据权利要求1所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述nodemanager启动container内存与cpu之和占nodemanager计算资源阈值的使用率的计算方式为:nodemanager在启动前,配置可使用的内存大小和cpu核心数的阈值,作为计算资源,计算进程用的最大内存和cpu核心数不会超过配置的阈值;container是nodemanager启动计算任务的基本进程单位,用于任务的计算处理。
3.根据权利要求1所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s01包括:
4.根据权利要求3所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s012中的第一阈值为:可使用的内存大小和cpu核心数的阈值。
5.根据权利要求3所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s014中的第二阈值为:nodemanager资源饱和的阈值,该阈值用于判断nodemanager的资源使用是否超出了预期的限制,当nodemanager的资源使用率达到或超过这个阈值时,系统会认为nodemanager资源饱和,可能需要采取行动,第二阈值是人工设置的。
6.根据权利要求1所述的弹性伸缩支持大数据集群nodemanager资源调度的方法,其特征在于,所述s02包括:
7.根据权利要求6所述的弹性伸缩支持大数据集群nodemanager资源调度的...
【专利技术属性】
技术研发人员:张强,
申请(专利权)人:中盈优创资讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。