一种基于监控效用数据的应用资源规格自动优化方法技术

技术编号:37455972 阅读:19 留言:0更新日期:2023-05-06 09:28
本发明专利技术公开了一种基于监控效用数据的应用资源规格自动优化方法,在应用资源部署以后,基于一段时间多维度的监控数据为应用资源设置合理的规格,保证应用稳定运行的同时,使单节点容纳更多的应用部署,降低应用的运行成本,提高计算资源的使用率。其技术方案为:第一步:从节点上采集应用节点的负载数据;第二步:将各节点接入外部的实时监控系统,通过实时监控系统获取业务监控指标;第三步:根据需求设置变更配置的参数;第四步:基于变更配置的参数计算推荐规格和偏移度,选择手动或者自动在业务低峰期分批将变更后的新配置进行生效。业务低峰期分批将变更后的新配置进行生效。业务低峰期分批将变更后的新配置进行生效。

【技术实现步骤摘要】
一种基于监控效用数据的应用资源规格自动优化方法


[0001]本专利技术涉及资源优化技术,具体涉及一种基于监控效用数据的应用资源规格自动优化方法。

技术介绍

[0002]主流技术下,应用资源规格通常是通过开发者的经验来寻找相对合理的规格,在有压测条件的情况下会通过压测报告来确定。应用开发在上生产之前,可以配合压测团队一起对应用进行压测。通过压测报告的性能数据以及资源使用情况,结合项目计划要承载的流量大小,来确定应用规格,后续仅当明显有应用资源不足导致的异常后会进行升配。
[0003]具体如图2所示,开发在应用上线之前,通过压测数据或者根据经验来确定一个较高的资源规格,上线以后通常只会在资源不足的情况下对资源规格进行升配。
[0004]传统主流方案下,开发在应用上线之前,会对应用的重要程度和资源消耗情况进行评估。如果重要程度不高的应用,会选择一种常见的低配置,如1C2G,2C4G等。而如果是重要的核心应用,在缺少压测资源的情况下,通常会由开发根据经验指定高配置来部署。在可以压测的情况下,则通过压测数据综合计划承载的流量大小来确定资源规格。应用上线以后通常只会在资源不足的情况下对资源规格进行升配,如果是K8S上部署的,则可以额外配置HPA(水平扩展),在应用负载较高时进行节点扩容,增加副本数,以保障业务的稳定性。HPA总体来说更偏向于是一个运维的保障。
[0005]可见,在传统方案下,因为是开发基于人工经验填写,通常情况下上线会参考容器的历史利用率情况、应用压测数据来确定,再根据生产上的运行情况的调整。专家模式无法规模化运作,随着应用数的增多,很难再精细化去配置每个应用的节点规格,而且往往会为了保证应用服务的可靠性稳定性,为应用预留大量冗余资源成为生产上的常态。在调整配置的时候,如果缺乏数据依据,贸然调整得过低也会给系统留下隐患。
[0006]根据云厂商统计数据表明,目前数据中心资源利用率仅为10%左右,存在着巨大的优化空间。这么低的资源利用率意味着计算资源存在着大量的浪费。如果能够做到提升资源利用率,降本增效,就可以给企业节省大量的机器成本。企业的规模越大,提升资源利用率所带来的降费效果就越显著。
[0007]目前依托于容器技术的普及,应用节点的弹性和部署能力得到了很大的提升,应用可以随时随地的调整自身的副本数和CPU内存规格,但是随之而来的就是解决如何合理设置CPU内存规格的问题,如果无法合理的设置CPU规则和内存大小,总体的资源使用率依旧难以提升。
[0008]传统的资源规格确认方式有以下几个弊端:
[0009](1)压测方式的沟通和技术成本高,并且需要有专业压测团队的支撑,且周期长,通常需要一周以上,随着应用数量增多,效率会愈发低下,难以规模化运作。
[0010](2)为了保证业务的稳定性,评估出来的资源规格往往会比实际使用高出很多,造成生产环境的资源平均负载率很低。但是降低配置又存在着一定风险,维护人员缺乏动力
去自发调整。
[0011]通常如图1所示,应用系统的延迟和应用资源的使用率成反比。业务系统对资源竞争导致的服务质量下降是难以容忍的。在降本增效越来越受到企业重视的今天,数据中心在整体上资源利用率水平低,运营成本居高不下,资源利用率的提升势在必行。而提升资源利用率、降低运营成本却可能影响到在线业务服务质量,带来潜在的风险。
[0012]理想情况下,我们能通过调整资源规格大小来平衡资源的使用率与应用系统的性能的关系,在将应用系统的平均延迟在合理区间的前提下,尽可能地提高资源使用率,也就是图1中所示的期望区间范围。
[0013]而采用何种手段,来动态地评估资源的使用情况并推荐规格,最终得到理想的规格来进行替换,是目前业界解决的课题。

技术实现思路

[0014]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0015]本专利技术的目的在于解决上述问题,提供了一种基于监控效用数据的应用资源规格自动优化方法,在应用资源部署以后,基于一段时间多维度的监控数据为应用资源设置合理的规格,保证应用稳定运行的同时,使单节点容纳更多的应用部署,降低应用的运行成本,提高计算资源的使用率。
[0016]本专利技术的技术方案为:本专利技术揭示了一种基于监控效用数据的应用资源规格自动优化方法,方法包括:
[0017]第一步:从节点上采集应用节点的负载数据;
[0018]第二步:将各节点接入外部的实时监控系统,通过实时监控系统获取业务监控指标;
[0019]第三步:根据需求设置变更配置的参数;
[0020]第四步:基于变更配置的参数计算推荐规格和偏移度,选择手动或者自动在业务低峰期分批将变更后的新配置进行生效。
[0021]根据本专利技术的基于监控效用数据的应用资源规格自动优化方法的一实施例,负载数据包括节点/POD规格和性能效用指标,其中节点/POD规格包括节点数、CPU核数、内存规格,性能效用指标包括CPU使用量、CPU使用率、内存使用量、内存使用率。
[0022]根据本专利技术的基于监控效用数据的应用资源规格自动优化方法的一实施例,在第一步中,在节点上安装采集组件进行采集,采集组件采集到的负载数据存储到Prometheus中,其中,采集组件包括node

exporter组件和cAdvisor组件,虚拟机的负载数据由node

exporter组件采集,docker容器的数据由Advisor组件采集,k8s的数据由node

exporter组件和cAdvisor组件采集。
[0023]根据本专利技术的基于监控效用数据的应用资源规格自动优化方法的一实施例,第二步中的业务监控指标包括应用业务请求TPS和业务请求响应延迟的数据,实时监控系统包括美团的cat系统或者阿里的arms系统。
[0024]根据本专利技术的基于监控效用数据的应用资源规格自动优化方法的一实施例,第三步中的变更配置的参数包括:安全冗余度、轮询周期、变更阈值、变更观察期,核心指标波动阈值。
[0025]根据本专利技术的基于监控效用数据的应用资源规格自动优化方法的一实施例,第四步中的推荐规格和偏移度的具体处理进一步包括:
[0026]首先,通过秒级的监控数据周期性地计算各种效用基数,再基于计算出的效用基数计算出推荐规格和偏移度;
[0027]然后,在计算出上述的效用基数后再计算推荐规格;
[0028]之后,在推荐规格的基础上进行偏移值和偏移度的计算。
[0029]根据本专利技术的基于监控效用数据的应用资源规格自动优化方法的一实施例,第四步中的变更后的新配置的生效处理进一步包括:
[0030]在每个轮询周期开始时,根据计算出的最新的偏移度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于监控效用数据的应用资源规格自动优化方法,其特征在于,方法包括:第一步:从节点上采集应用节点的负载数据;第二步:将各节点接入外部的实时监控系统,通过实时监控系统获取业务监控指标;第三步:根据需求设置变更配置的参数;第四步:基于变更配置的参数计算推荐规格和偏移度,选择手动或者自动在业务低峰期分批将变更后的新配置进行生效。2.根据权利要求1所述的基于监控效用数据的应用资源规格自动优化方法,其特征在于,负载数据包括节点/POD规格和性能效用指标,其中节点/POD规格包括节点数、CPU核数、内存规格,性能效用指标包括CPU使用量、CPU使用率、内存使用量、内存使用率。3.根据权利要求2所述的基于监控效用数据的应用资源规格自动优化方法,其特征在于,在第一步中,在节点上安装采集组件进行采集,采集组件采集到的负载数据存储到Prometheus中,其中,采集组件包括node

exporter组件和cAdvisor组件,虚拟机的负载数据由node

exporter组件采集,docker容器的数据由Advisor组件采集,k8s的数据由node

exporter组件和cAdvisor组件采集。4.根据权利要求1所述的基于监控效用数据的应用资源规格自动优化方法,其特征在于,第二步中的业务监控指标包括应用业务请求TPS和业务请求响应延迟的数据,实时监控系统包括美团的cat...

【专利技术属性】
技术研发人员:周晔梁星元刘航黑烨
申请(专利权)人:上海汇付支付有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1