System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种分布式系统业务效果感知和评价方法及系统技术方案_技高网

一种分布式系统业务效果感知和评价方法及系统技术方案

技术编号:42593759 阅读:10 留言:0更新日期:2024-09-03 18:07
本发明专利技术涉及一种分布式系统业务效果感知和评价方法及系统。该方法包括:选取分布式系统的运维对象的KPI指标;采用层次分析法对分布式系统的运维对象进行分级分类;提取运维对象的实体及关系,将分级分类的结果转化为知识图谱,并融入具有时序特性的KPI指标得到时序图谱;对KPI指标进行异常检测并基于时序图谱进行业务效果评估。本发明专利技术定义了运维对象体系及其时序关联图谱;异常检测方面采用无监督的机器学习方法;在计算异常发生的扣分权重时加入图计算能力,通过人工定性和算法定量相结合的方式使定义流程变得科学通用;在得出业务效果KPI的感知结果后能从业务人员关注的各个指标维度对结果进行解释;并支持大规模分布式系统的在线评估。

【技术实现步骤摘要】

本专利技术属于时间序列数据异常检测和智能运维领域,具体涉及一种分布式系统综合业务效果评估方法及系统。


技术介绍

1、随着社会各行各业的数字化和大数据、云计算技术的不断发展,分布式系统越来越多,对运维能力的要求越来越高。当前,传统的手工运维或半自动化运维已经无法满足不断膨胀的业务规模、数据规模。智能运维能力的重要性愈发凸显,智能运维可以大幅减轻运维人员的压力,降低运维风险。

2、目前在大多数系统维护工作中,运维人员仍集中于监控系统底层指标,多从服务器、进程等单一的维度分析系统状态,对系统自身宏观的运行质量的感知评价能力偏弱,缺乏从运维对象的角度进行多层级、多维度、多视角综合感知分布式系统业务效果的能力,这大大限制了系统维护工作进一步深入上层业务。

3、具体来说,现有技术中的主要问题有三个:1)忽略了运维对象之间的关联性和影响在节点上的传播;2)异常发生时的扣分权重靠专家人工定义,不客观、不准确、不通用;3)对系统运维质量的评价能力不全面,缺乏宏观视角,不能很好地指导运维工作。

4、因此,需要提高分布式系统业务效果的感知评价能力,指导运维人员开展有针对性的维护工作。


技术实现思路

1、针对以上问题,本专利技术提出了一种智能化、细粒度的分布式系统业务效果感知和评价方法及系统

2、本专利技术采用的技术方案如下:

3、一种基于时序图谱的分布式系统业务效果评估方法,包括以下步骤:

4、选取分布式系统的运维对象的kpi指标

5、采用层次分析法对分布式系统的运维对象进行分级分类;

6、提取运维对象的实体及关系,将分级分类的结果转化为知识图谱;

7、在知识图谱中融入具有时序特性的kpi指标,得到时序图谱;

8、对分布式系统的kpi指标进行异常检测,并基于时序图谱进行业务效果评估。

9、进一步地,所述kpi指标包括通用指标和具体业务中的重要业务指标;所述通用指标包括cpu使用率、内存使用率、交换区使用率、平均负载、响应时间。

10、进一步地,所述采用层次分析法对分布式系统的运维对象进行分级分类,包括:

11、将运维对象分为多个层级,针对各层级的kpi指标异常时的影响大小进行定性分析,分为严重、中等和一般三级,分别对应三个量化区间,之后在各自的量化区间内对各个kpi指标进行相对影响程度的排序,给各个kpi指标赋予初始权重;

12、采用一致性检验算法构造判断矩阵,利用判断矩阵进行矛盾检测,确保kpi指标的初始权重的合理性。

13、进一步地,所述对分布式系统的kpi指标进行异常检测,包括:

14、对输入的时序数据按照时间分成多段子序列,对所有的子序列采用聚类方法获取多个形状片段簇,针对每一个形状片段簇,对所有时间点的指标值取均值得到一个平均曲线,作为代表该形状片段簇的典型形状片段;

15、对于每个子序列,计算其与所有典型形状片段的相似度,取相似度最高的典型形状片段作为子序列的映射目标,从而将时序数据映射为一个由典型形状片段构成的序列,即形状片段演化图;

16、利用构建的形状片段演化图学习时序数据的表示,得到形状片段演化图中每个顶点的表示向量;

17、将形状片段演化图中顶点的表示向量应用于指标异常检测。

18、进一步地,所述基于时序图谱进行业务效果评估,包括:

19、结合运维对象的时序图谱中实体之间的调用关系构建故障传播图;

20、基于kpi指标的初始权重、异常事件的持续时间、以及运维对象的时序图谱中实体之间的关联关系和相关属性,采用dwnoderank算法在故障传播图上计算局部指标异常时对全局的影响,得出第i个指标异常时在时序图谱全局的影响度x(i);

21、结合异常发生开始到当前计算时间点为止的异常持续时间t,将其进行归一化得到t’;

22、根据x(i)和t’对异常指标进行加权扣分,得到业务效果的kpi指标的感知结果,并根据异常指标的异常形状片段的波形结合当前的领域、业务背景进行物理意义映射,得到可解释性评价信息。

23、一种基于时序图谱的分布式系统业务效果评估系统,其包括:

24、时序图谱构建模块,用于选取分布式系统的运维对象的kpi指标,采用层次分析法对分布式系统的运维对象进行分级分类,提取运维对象的实体及关系,将分级分类的结果转化为知识图谱,在知识图谱中融入具有时序特性的kpi指标,得到时序图谱;

25、业务效果评估模块,用于对分布式系统的kpi指标进行异常检测,并基于时序图谱进行业务效果评估。

26、本专利技术具备以下优点和有益效果:

27、1)定义了分布式系统智能运维场景下,运维人员关注的运维对象体系及其时序关联图谱;

28、2)异常检测方面采用无监督的机器学习方法,并在表示学习的过程中重视对可解释性的考虑;

29、3)在计算异常发生的扣分权重时,加入图计算能力,将现有技术中采用的完全人工定义的方式,变成本专利技术的人工定性和算法定量相结合的方式,使定义流程变得科学通用;

30、4)在得出系统业务效果kpi的感知结果后能从业务人员关注的各个指标维度对结果进行解释;

31、5)异常检测和图计算模块均具有优秀的性能,支持大规模分布式系统的在线评估。

本文档来自技高网...

【技术保护点】

1.一种基于时序图谱的分布式系统业务效果评估方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述KPI指标包括通用指标和具体业务中的重要业务指标;所述通用指标包括CPU使用率、内存使用率、交换区使用率、平均负载、响应时间。

3.根据权利要求1所述的方法,其特征在于,所述采用层次分析法对分布式系统的运维对象进行分级分类,包括:

4.根据权利要求3所述的方法,其特征在于,所述对分布式系统的KPI指标进行异常检测,包括:

5.根据权利要求3或4所述的方法,其特征在于,所述基于时序图谱进行业务效果评估,包括:

6.根据权利要求5所述的方法,其特征在于,所述X(i)的计算公式是:

7.根据权利要求6所述的方法,其特征在于,所述根据X(i)和T’对异常指标进行加权扣分,采用的评分公式为:f=100-∑Ji*X(i)-T’,其中f表示评价分数,若f<0,则令f=0;Ji表示第i个指标是否异常。

8.一种基于时序图谱的分布式系统业务效果评估系统,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于时序图谱的分布式系统业务效果评估方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述kpi指标包括通用指标和具体业务中的重要业务指标;所述通用指标包括cpu使用率、内存使用率、交换区使用率、平均负载、响应时间。

3.根据权利要求1所述的方法,其特征在于,所述采用层次分析法对分布式系统的运维对象进行分级分类,包括:

4.根据权利要求3所述的方法,其特征在于,所述对分布式系统的kpi指标进行异常检测,包括:

5.根据权利要求3或4所述的方法,其特征在于,所述基于时序图谱进行业务效果评估,包括:

6.根据权利要求5所述的方法,其特征在于,所述x(i)的计算公式是:

【专利技术属性】
技术研发人员:傅兴玉周波王勇崔晨阳杨嵘刘庆云蒋卓君
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1