一种监控系统及方法技术方案

技术编号:27482176 阅读:15 留言:0更新日期:2021-03-02 17:54
本发明专利技术涉及一种监控系统及方法,所述监控方法包括:通过监控接口获取来自于多个层级服务的基于服务的监控指标数据,其中各个层级服务的监控指标数据至少包括层级服务标识和监控内容;响应于一个层级服务的所述监控指标数据满足报警规则,生成报警数据;所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及根据报警数据对应的层级服务,按照服务调用关系建立报警链路。本发明专利技术在报警时即自动确定了故障服务,且故障点的定位准确、快速,减少了对处理人员的依赖,并且能够快速量化监控服务。控服务。控服务。

【技术实现步骤摘要】
一种监控系统及方法


[0001]本专利技术涉及计算机
,特别地涉及一种监控系统及方法。

技术介绍

[0002]目前大部分公司或企业存在不同层级服务的监控系统,例如运维监控系 统,服务监控系统,H5监控系统等。然而,现有的不同层级服务的监控系统 存在诸多问题。一方面,发生事故时,不同层级的监控系统都会报警,工作人 员很难从众多的监控报警信息中及时、快速地定位故障;并且,由于监控的指 标项非常多,收集的日志包括过多的冗余信息,需要工作人员有非常高的业务 水准才能从众多的数据中发现影响业务的关键问题。如果工作人员的业务水准 不高,很难快速、及时地发现关键问题。在另一方面,目前不同层级的监控系 统处于割裂工作状态,而没有针对于多维度的业务服务的整体监控系统。

技术实现思路

[0003]针对现有技术中存在的技术问题,本专利技术提出了一种监控系统及方法,能 够快速定位故障。
[0004]基于上述技术问题,根据本专利技术的一个方面,本专利技术提供了一种监控方法, 其中包括以下步骤:通接监控接口获取来自于层级服务的基于服务的监控指标 数据,各个层级服务的所述监控指标数据至少包括层级服务标识和监控内容; 响应于一个层级服务的所述监控指标数据满足报警规则,生成报警数据,所述 报警数据至少包括故障级别、层级服务标识和监控指标数据;以及根据报警数 据对应的层级服务,按照服务调用关系建立报警链路。
[0005]基于上述技术问题,根据本专利技术的另一个方面,本专利技术还提供了一种监控 系统,所述系统包括监控接口、数据处理模块和报警链路模块,其中,所述监 控接口经配置以连接层级监控模块,所述层级监控模块获取对应层级服务的监 控数据,并按照监控指标分析所述监控数据以得到对应监控指标数据,所述监 控指标数据至少包括层级服务标识和监控内容;所述数据处理模块经配置以通 过所述监控接口从多个层级监控模块获取指定监控指标数据,按照报警规则分 析所述监控指标数据,在满足报警规则时生成报警数据,其中所述报警数据至 少包括故障级别、层级服务标识和监控指标数据;所述报警链路模块经配置以 根据报警数据对应层级服务,按照服务调用关系建立报警链路。
[0006]本专利技术基于服务得到监控指标数据,将现有的单点报警模式变成面向服务 /业务的流报警模式,在报警时即自动确定了故障服务,且故障点的定位准确、 快速,减少了对处理人员的依赖,并且能够根据报警数据、报警链路或事件链 路等可以快速量化监控服务。
附图说明
[0007]下面,将结合附图对本专利技术的优选实施方式进行进一步详细的说明,其中:
[0008]图1是根据本专利技术的一个实施例的监控方法流程图;
[0009]图2是根据本专利技术的一个实施例的企业服务层级监控模块分布示意图;
[0010]图3是根据本专利技术的一个实施例的报警数据内容示意图;
[0011]图4是根据本专利技术的一个实施例的报警链路示意图;
[0012]图5是根据本专利技术的一个实施例的对服务进行标记的流程图;
[0013]图6是根据本专利技术的一个实施例的标记示意图;
[0014]图7A-7C是根据本专利技术的一个实施例的报警流程示意图;
[0015]图8是根据本专利技术的一个实施例中在工作群中贴出的报警信息示意图;
[0016]图9是根据本专利技术一个实施例的监控系统原理框图;
[0017]图10是根据本专利技术一个实施例的报警标记模块原理框图;
[0018]图11是根据本专利技术一个实施例的报警模块原理框图;以及
[0019]图12是根据本专利技术一个实施例的监控系统原理框图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术 实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本专利技术保护的范围。
[0021]在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定 实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体 上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得 具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当 理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性 的改变。
[0022]图1为根据本专利技术一个实施例的监控方法流程图,其中所述方法包括:
[0023]步骤S11,通过监控接口从层级监控模块分别获取基于服务的监控数据, 所述监控数据至少包括层级服务标识和监控内容。在一个企业中,其提供的服 务,也可以称为业务,按照服务/业务流向,可分为客户端、接入层、服务层。 其中,服务层又包括服务入口和内部服务,根据这些层次,分别设置监控模块, 在本专利技术中称为层级监控模块。如图2所示,为一个实施例的企业服务层级监 控模块分布示意图。在一个实施例中,客户端监控模块M1设置在该服务的客 户端中,其中,安装有客户端的终端可以是iOS终端,也可以是Android终端, 另外,客户端也可以是H5页面。接入层监控模块M2可设置在接入层设备中, 例如SLB(负载均衡器,Server Load Balancer)、VTM(Virtual Traffic Manager, 虚拟流量管理器)、KONG(基于Nginx的API Gateway)等等。服务层监控模 块包括入口监控模块M3和内部服务监控模块M4。其基于Nginx(Web服务 器/反向代理服务器、电子邮件代理服务器等服务器)和PHP及GO语言的服 务模块进行监控。这些层级监控模块基于服务采集各级模块相应的数据。例如, 针对于某个企业的阅读服务,在应用客户端可采集到客户端监控数据,在服务 端通过编写代码的框架,定义好上报的格式,在需要上报的地方打点则可以完 成自动上报。采集完数据后,按照监控指标分析所述监控数据以得到对应监控 指标数据。根据不同的服务、监控目的可以灵活设置多种监控指标,例如:入 口流量、网关(例如KONG、VTM)非200比例、业务层(nginx、go、sidecar) 非200、域名不可访问和sidecar限流熔断、平均延迟
时间等等。根据设置的指 标对监控数据进行统计、合并或计算操作等从而得到对应的监控指标数据。例 如:监控指标为“非200比例”,对网关KONG的监控数据统计、计算,得到 该比例为8%,则“非200比例”这一监控指标数据包括层级服务标识:KONG, 内容(或值)为8%,另外还可以包括计算使用的监控指标数据的存储链接。 在一个实施例中,所述监控指标可分为服务通用指标和层级服务特定指标。例 如,将非200错误比例和平均延迟时间设置为通用指标,各个层级服务包括符 合各自特点的监控指标。层级监控模块将监控数据、监控指标数据以指标样本 的形式存储到时间序列库中。指标样本包括样本名称及一个或多个用于描述样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监控方法,包括:通过监控接口获取来自于多个层级服务的基于服务的监控指标数据,其中各个层级服务的监控指标数据至少包括层级服务标识和监控内容;响应于一个层级服务的所述监控指标数据满足报警规则,生成报警数据;所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及根据报警数据对应的层级服务,按照服务调用关系建立报警链路。2.根据权利要求1所述的方法,其中进一步包括:在报警数据中记录所述报警数据的层级服务的调用服务链路。3.根据权利要求1所述的方法,其中进一步包括:在生成报警数据的同时记录相应的报警事件。4.根据权利要求3所述的方法,其中进一步包括:统计一个服务的报警事件数量及各个报警事件故障级别;根据报警数量、故障级别确定服务报警级别;以及根据服务报警级别确定所述服务的报警标记。5.根据权利要求4所述的方法,其中进一步包括:根据服务之间的关联关系,为与所述服务相关联的第二服务确定相同的报警标记。6.根据权利要求3所述的方法,其中进一步包括:在预定时间内没有收到相同的新增报警数据时,记录相应的报警消除事件。7.根据权利要求3所述的方法,其中进一步包括:将监控指标数据、报警数据和报警消除数据以指标样本的形式存储在时间序列数据库中。8.根据权利要求7所述的方法,其中,所述指标样本包括样本名称及一个或多个用于描述样本特征的标签。9.根据权利要求7或8所述的方法,其中进一步包括:响应于时间设置,从时间序列数据库中获取相应服务指定时间段的事件数据,根据事件发生的时间生成事件链路。10.根据权利要求9所述的方法,其中进一步包括:响应于事件/报警查询指令,从时间序列数据库中获取事件/报警数据的特征标签内容。11.根据权利要求1所述的方法,其中进一步包括:分析报警数据,响应于报警数据满足报警条件,根据报警策略报警。12.根据权利要求11所述的方法,其中,满足以下条件时满足报警条件:所述报警数据的故障级别为灾难级别;或者,所述报警数据的级别低于灾难级别,且得到预定级数的报警链路。13.根据权利要求11所述的方法,根据报警策略报警的步骤进一步包括:根据故障级别及其影响的服务,选择所述服务的相关人员作为报警对象进行报警;以及在报警后的预置时间内仍有新增报警数据生成时,升级报警对象。14.根据权利要求13所述的方法,其中进一步包括:通过通讯终端向相关工作人员发出紧急通知;或者通过即时通讯应用建立工作组。15.根据权利要求1所述的方法,其中,所述监控指标包括服务通用指标和层级服务特定指标。
16.根据权利要求1所述的方法,其中,在层级服务的层级监控模块具有报警功能时,还包括接收层级监控模块的层级报警数据;和/或接收其他报警源的报警数据。17.一种监控系统,包括:监控接口,经配置以连接层级监控模块,所述层级监控模块基于...

【专利技术属性】
技术研发人员:尤凌飞张涛王海龙
申请(专利权)人:上海趣蕴网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1