发明专利技术涉及一种基于统计分析的云数据中心异常根因定位方法。监测云数据中心节点的多维度资源度量,使用向量自回归模型预测节点的资源使用情况,通过比较度量预测值与监测值来检测云服务的度量异常,根据数据中心节点之间复杂依赖关系的知识建立依赖图,对组件异常程度进行排序以减少报警风暴。
A Statistical Analysis-based Method for Locating the Causes of Service Abnormalities in Cloud Data Center
The invention relates to a method for locating anomaly causes in cloud data centers based on statistical analysis. Monitoring multi-dimensional resource measurement of cloud data center nodes, using vector autoregressive model to predict resource utilization of nodes, detecting measurement anomalies of cloud services by comparing measurement prediction values and monitoring values, establishing dependency graphs according to the knowledge of complex dependencies among data center nodes, and sorting component anomalies to reduce alarm storms.
【技术实现步骤摘要】
一种基于统计分析的云数据中心服务异常根因定位方法
本专利技术涉及一种基于统计分析的云数据中心服务异常根因定位方法,属于软件
技术介绍
云数据中心时常会出现大规模服务降级和服务中断,从而严重影响服务可靠性与性能。服务性能衰减通常会表现为系统层的度量异常,以反映服务内部或底层基础设施中存在的问题,例如DDoS攻击、服务升级以及工作负载激增带来的异常资源使用。虚拟化技术将应用服务整合到少量的服务器中以降低操作成本(如,能源消耗)并最大化资源使用。然而,基于虚拟化的资源共享会造成相同主机上共享资源的服务之间竞争有限的系统资源(如,计算、带宽或内存),从而造成性能衰减。因此,不断检测系统异常(如异常的资源行为)以防止服务降级,并通过快速控制意外服务中断来提高服务可靠性,成为云服务监测的主要目标。然而,云服务规模巨大、体系结构复杂性,以及工作负载呈现多样性和动态性,使得在线异常检测具有挑战性。首先,异常检测方法需要在不明确正常状态或异常定义的情况下,能够自动适应云服务行为的变化。此外,能够应对多个层次的云服务抽象,从而分析处理多个服务度量。当前的异常检测方法通常基于假设分布预先定义度量的阈值(M.Peiris,J.H.Hill,J.Thelin,S.Bykov,G.Kliot,andC.Konig,“PAD:PerformanceAnomalyDetectioninMulti-serverDistributedSystems,”in7thIEEEInternationalConferenceonCloudComputing.IEEE,2014,pp.769–776.),然而,阈值对工作负载的变化非常敏感,并且很难扩展到数百个度量。某些方法基于统计学方法自动设定阈值(P.Xiong,C.Pu,X.Zhu,andR.Griffith,“vPerfGuard:anAutomatedModel-drivenFrameworkforApplicationPerformanceDiagnosisinConsolidatedCloudEnvironments,”inProceedingsofthe4thACM/SPECInternationalConferenceonPerformanceEngineering.ACM,2013,pp.271–282.),然而其分别考虑单个资源度量,忽略了度量之间依赖关系。某些方法建模资源使用率和工作负载之间的关联关系(T.Wang,J.Wei,W.Zhang,H.Zhong,andT.Huang,“WorkloadawareAnomalyDetectionforWebApplications,”JournalofSystemsandSoftware,vol.89,pp.19–32,2014.),然而其依赖于QoS和资源度量之间的相关性。基于多变量统计的机器学习方法建立多个指标之间的关联(T.Huang,Y.Zhu,Y.Wu,S.Bressan,andG.Dobbie,“AnomalyDetectionandIdentificationSchemeforVMLiveMigrationinCloudInfrastructure,”FutureGenerationComputerSystems,vol.56,pp.736–745,2016.),但是当QoS和工作负载度量无法获取时,该方法就难以适用。云计算运营商投入大量精力监测资源,发现异常的资源使用模式。然而,虚拟化云数据中心的复杂性对异常检测技术提出了要求:(1)非侵入,云服务提供者通常不知道租户的源码;(2)无监督学习,能够处理未分类为正常或异常的无标注数据;(3)在线自适应不断变化的系统行为,而不需要离线训练和人工干预。
技术实现思路
本专利技术的原理:提出了一种基于统计分析的云数据中心服务异常根因定位方法,监测云数据中心节点的多维度资源度量,使用向量自回归模型预测节点的资源使用情况,通过比较度量预测值与监测值来检测云服务的度量异常,根据数据中心节点之间复杂依赖关系的知识建立依赖图,对组件异常程度进行排序以减少报警风暴。本专利技术技术解决方案:一种基于统计分析的云数据中心服务异常根因定位方法,如图1所示,实现步骤如下:1.节点资源预测本专利技术提出一种自适应向量自回归方法刻画基于滑动窗口的数据中心节点的序列化监测数据的资源使用模式,建模度量之间的关联关系,从历史数据中估计正常资源使用,用作预测近期的资源使用作为基准。假设为在时间t监测得到的(1×n)向量,是度量m在时间t的监测数据,n是监测度量数量,向量可以表示为历史监测数据的线性组合:,(1)其中,p表示滞后监测数据的数量,即需要考虑的此前监测周期数量,表示在t时刻之前的第j个监测周期的监测数据。公式(1)由n个方程组成,每个监测度量表示该度量以及其他度量滞后值的线性组合。参数表示的常数向量,和构成系数矩阵,表示的白噪声向量。需要确定模型中包含滞后监测数据数量p,该参数会影响模型的复杂性。由于滞后值会随时间改变,本专利技术使用长度为k的时间序列窗口,将历史资源使用进行分段,构建了基准训练模型,以在线方式更新模型。假设为保存最近的正常行为数据的时间窗口,即在t时刻,产生时间窗口w,包含时间间隔的最近k个监测数据:。本专利技术定义最大滞后监测数据以限制探测空间,在范围中搜索p,从而最小化信息准则(IC),基于最小二乘法,通过参数调整和以最小化预测误差:(2)其中,n表示度量数量,表示训练数据集的大小,表示残差的协方差矩阵估计。给定训练集X,的最优值为:(3)当p在区间内时,误差项集合为多元正态零均值满秩协方差矩阵,表示根据最近观察的正常行为定义为:(4)2.节点异常资源检测计算多维空间中预期残差的统计距离,作为识别异常数据点的依据,当检测到异常则发出警报。在每个时间点,本专利技术使用基准Pw来检测异常时间点,预期下个时间周期的资源使用:,(5)计算预测误差为监测与预测之间的差值:(6)检测异常资源使用的问题可以抽象为多元基于距离的离群点检测,使用预测误差到训练集中残差的统计距离以表示异常程度:(7)其中,为E的均值,为E的协方差矩阵。为了异常值计算具有鲁棒性,本专利技术使用协方差最小行列式估计协方差矩阵而不是最大似然估计。而且,由于监测度量具有不同的取值范围,使用min-max规范化E和到相同的取值范围,为相对于E的稀疏性。当,表示观察值与预测值产生了较大偏差,则认为出现了异常。其中,表示训练残差距离的集合,参数L为训练残差集合E距离的z分数分布的99%分位数。3.自适应模型演化本专利技术由一系列长度为k的滑动窗口构建而成,每个窗口包含最新的监测数据以估计时变参数,如最优滞后数量。然后,使用该模型进行预测,基于残差值将监测数据实例分为正常和异常。为了正确学习序列化正常行为,本专利技术通过在各时间点用预测值替换异常监测数据,以保持监测的时间连续性,这些点的残差是训练残差的期望值。滑动窗口每移动一步,本专利技术以训练测试交叉周期重复整个过程。该策略具有两个技术优势:(1)在线学习最近少量监测数据集合,而不是整个测量监测数据集合;(2)短期预测使模型能够更好跟踪趋势和微小变化数据,从而能够快速检测出现性能下降的时间。假设本文档来自技高网...
【技术保护点】
1.一种基于统计分析的云数据中心服务异常根因定位方法,方法特征在于实现步骤如下:第一步,定时搜集各节点的多度量监测数据,
【技术特征摘要】
1.一种基于统计分析的云数据中心服务异常根因定位方法,方法特征在于实现步骤如下:第一步,定时搜集各节点的多度量监测数据,为在时间t监测得到的(1×n)向量,是度量m在时间t的监测数据,n是监测度量数量;第二步,根据历史监测数据,使用线性组合建模并预测度量值,其中,p表示滞后监测数据的数量,参数θ0表示(n×1)的常数向量,和构成(n×n)系数矩阵,表示的白噪声向量,使用n个方程组成求解参数值;第三步,计算预测误差为监测与预测之间的差值:,其中,为预测值,为监测值,这样检测异常资源使用的问题可以抽象为多...
【专利技术属性】
技术研发人员:周博,吴昊,王钟沛,张晓洲,刘延新,
申请(专利权)人:江苏润和软件股份有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。