一种通过加权熵判断分布式集群可靠度的方法和系统技术方案

技术编号:17047481 阅读:51 留言:0更新日期:2018-01-17 17:38
本发明专利技术涉及一种通过加权熵判断分布式集群可靠度的方法和系统,属于分布式集群可靠性领域,通过预先为不同严重性的日志事件分别进行赋权,然后利用滑动窗口统计该时段内集群各节点的不同类型系统日志数量,进而计算各节点的错误率,并根据该错误率计算集群的可靠性加权熵,最后根据波动大小判断集群稳定性。通过该方法量化了系统可靠性,不但可以通过简单部署就能对整个集群的可靠性进行量化判定,而且还可对集群的稳定程度进行实时监控,及时了解集群的环境变化,当集群的可靠性出现较大波动时可及时采取相应措施处理。

A method and system for judging the reliability of distributed cluster by weighting entropy

The invention relates to a weighted entropy judgment method and system of reliable distributed cluster, distributed cluster belongs to the reliability, through pre for different severity of log events were weighted, and then use the sliding window statistics in this period is not the same type of cluster nodes in the system log number, and then calculate each node error rate. According to the reliability calculation of the error rate of entropy weighted cluster, the final judgment of the stability of cluster size according to the fluctuation. Through this method to quantify the reliability of the system, can not only through simple deployment can quantify the reliability of the whole cluster determination, but also the stability of cluster real-time monitoring, timely understanding of the cluster when the cluster environment changes, the reliability was fluctuated seriously can take appropriate measures to deal with timely.

【技术实现步骤摘要】
一种通过加权熵判断分布式集群可靠度的方法和系统
本专利技术涉及分布式集群可靠性领域,特别涉及一种通过加权熵判断分布式集群可靠度的方法和系统。
技术介绍
集群技术,顾名思义,它将多个系统连接到一起,使多台服务器能够像一台机器那样工作或者看起来好像一台机器。由于单台机器的处理能力有限,此技术能把有限的资源整合成一个庞大的资源,从而应对更大计算或存储性能的需求,进而提高系统稳定性和网络中心的数据处理能力及服务能力。鉴于该优势,集群技术大行其道,常用的工具如Hadoop、spark、flink等便是集群技术的典型应用。现有的海量数据分析都是基于大量节点组成的集群来解决的,且随着人工智能、机器学习等技术的持续更新发展,集群越来越发挥其不可替代的作用。总体来说,集群具有以下特点:高可伸缩性:服务器集群具有很强的可伸缩性。随着需求和负荷的增长,可以向集群系统添加更多的服务器。在这样的配置中,可以有多台服务器执行相同的应用和数据库操作;高可用性:服务器集群具有防止系统发生故障或从故障中自动恢复的能力。通过把故障服务器上的应用程序转移到备份服务器上运行,集群系统能够把正常运行时间提高到大于99.9%,大大减少服务器和应用程序的停机时间;高可管理性:系统管理员可以从远程管理一个、甚至一组集群,就好象在单机系统中一样。基于以上种种优势,集群被广泛的部署应用,大型企业集群的节点数量已成百上千,更有甚者部署上万也不足为奇。但随着规模的不断增大,各种问题接踵而至,节点的可靠性便为一个急需解决的问题。集群可以建立在很多廉价的硬件设备上,因此任何时候都很容易出现故障,可靠性无法保证,如果放任不管,集群性能会越来越差,甚至崩溃。且集群运行时,如果有异常干扰,性能便会有较大的波动,如果不能及时发现这些潜在威胁,很可能会导致不可估量的损失。目前,国内外在对集群的可靠性进行判断方面研究从数据来源看大致分为两类:根据系统日志分析和根据节点性能指标分析。系统日志策略可以在故障刚刚发生时就向你发送警告信息,帮助用户在最短的时间内发现问题,它会在问题出现时记录硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹,也可以通过监测该日志来获取目前节点的状态。因此如有监测到日志警报异常,则证明此时该节点可能出现可靠性波动。节点性能指标根据硬件类别包含:CPU、内存、I/O、硬盘及其它指标,这些指标均代表机器在该方面的性能状态,某一项指标过高,则证明其利用率增加。单个指标之间也不是毫无联系,常常存在耦合性。如果某些指标在正常状态下出现较大波动,则证明该节点可能出现异常。用户可以通过实时监测这些指标来获取节点目前的性能状态,进而判断其可靠性。论文《加权模糊相对熵在电机转子故障模糊识别中的应用》,该论文的方法将加权思想引入到模糊相对熵,用于识别电机转子故障严重程度。主要基于符号时间序列分析模糊相对熵,然后根据加权模糊相对熵识别方法进行电机故障诊断识别。本专利技术与该论文的相同点包括:都是通过加权思想与熵结合,用于检测时间序列中的异常;不同点包括:首先,应用方面不同,该论文是检测电机转子故障,而本专利技术是检测集群可靠性;其次,该论文运用相对熵来衡量异常,而本专利技术用信息熵大小来衡量可靠性的波动性。专利技术人在集群环境下进行研究时,发现同一类型作业在同一个集群上运行时会出现性能波动,即作业的执行速率快慢会受到集群环境的影响。在集群环境下,由于故障的不确定性会导致集群系统的故障定位和排除难度大、维护成本高;又由于系统熵是计算机系统中不确定性的度量,系统熵越高,系统的不确定性越大。于是,在进行充分调研后,本专利技术提出了一种基于系统熵对集群可靠性进行量化的方法。为了对集群性能有一个量化的判定,本专利技术提出一种基于加权熵来判断集群可靠性程度的方法来度量集群稳定性,主要对各种故障进行预赋权后通过熵计算来判定波动大小,以判断集群的可靠程度和稳定性。
技术实现思路
为了解决上述技术问题,本专利技术目的在于对集群的可靠程度进行判定,从而量化集群的可靠性和稳定性,达到集群故障程度实时检测的目的。具体地说,本专利技术公开了一种通过加权熵判断分布式集群可靠度的方法,其中包括:步骤1、根据预先设定的日志事件等级,为分布式集群中各节点的日志事件赋予权值;步骤2、通过用户设置的滑动窗口,获取该滑动窗口内该分布式集群各节点的系统日志,并统计该系统日志内各日志事件等级对应的日志事件数目,通过依次对该日志事件数目进行归一化操作,得到各日志事件等级的归一化值;步骤3、根据该归一化值和该权值,计算当前该滑动窗口中各节点错误率;步骤4、根据该节点错误率,通过加权熵算法,计算当前该滑动窗口内该分布式集群的可靠性加权熵;步骤5、随着滑动窗口的移动,统计预设时间内各滑动窗口的该可靠性加权熵的波动值,并通过比较该波动值与预先设定的波动阈值,判定该分布式集群的可靠度。该通过加权熵判断分布式集群可靠度的方法,其中步骤2中该归一化操作包括:其中Nij代表节点i下j事件的归一化后的该归一化值,x代表该日志事件数目,max代表各日志事件数目中的最大值。该通过加权熵判断分布式集群可靠度的方法,其中步骤3中该节点错误率的计算方法包括:其中weight为该权值,t为该滑动窗口的时间长度值,Nij代表节点i下j事件等级的该归一化值,ratioi代表该节点错误率,m代表预先设定的该日志事件等级的数目。该通过加权熵判断分布式集群可靠度的方法,其中步骤4中该可靠性加权熵的计算方法包括:其中Ri为步骤3计算的该节点错误率,n表示集群中节点的个数,H(u)表示该可靠性加权熵。该通过加权熵判断分布式集群可靠度的方法,其中步骤5中该波动值的计算方法包括:统计该预设时间内各滑动窗口的该可靠性加权熵的均值,并对每个该均值求方差,将该方差作为该波动值。本专利技术还提出一种通过加权熵判断分布式集群可靠度的系统,其中包括:赋权模块,用于根据预先设定的日志事件等级,为分布式集群中各节点的日志事件赋予权值;归一化处理模块,用于根据用户设置的滑动窗口,获取该滑动窗口内该分布式集群各节点的系统日志,并统计该系统日志内各日志事件等级对应的日志事件数目,通过依次对该日志事件数目进行归一化操作,求出各日志事件等级的归一化值;错误率计算模块,用于根据该归一化值和该权值,计算当前该滑动窗口中各节点错误率;加权熵计算模块,用于根据该节点错误率,通过加权熵算法,计算当前该滑动窗口内该分布式集群的可靠性加权熵;可靠度判定模块,用于随着滑动窗口的移动,统计预设时间内各滑动窗口的该可靠性加权熵的波动值,并通过比较该波动值与预先设定的波动阈值,判定该分布式集群的可靠度。该通过加权熵判断分布式集群可靠度的系统,其中归一化处理模块中该归一化操作包括:其中Nij代表节点i下j事件的归一化后的该归一化值,x代表该日志事件数目,max代表各日志事件数目中的最大值。该通过加权熵判断分布式集群可靠度的系统,其中错误率计算模块中该节点错误率的计算包括:其中weight为该权值,t为该滑动窗口的时间长度值,Nij代表节点i下j事件等级的该归一化值,ratioi代表该节点错误率,m代表预先设定的该日志事件等级的数目。该通过加权熵判断分布式集群可靠本文档来自技高网
...
一种通过加权熵判断分布式集群可靠度的方法和系统

【技术保护点】
一种通过加权熵判断分布式集群可靠度的方法,其特征在于,包括:步骤1、根据预先设定的日志事件等级,为分布式集群中各节点的日志事件赋予权值;步骤2、通过用户设置的滑动窗口,获取该滑动窗口内该分布式集群各节点的系统日志,并统计该系统日志内各日志事件等级对应的日志事件数目,通过依次对该日志事件数目进行归一化操作,得到各日志事件等级的归一化值;步骤3、根据该归一化值和该权值,计算当前该滑动窗口中各节点错误率;步骤4、根据该节点错误率,通过加权熵算法,计算当前该滑动窗口内该分布式集群的可靠性加权熵;步骤5、随着滑动窗口的移动,统计预设时间内各滑动窗口的该可靠性加权熵的波动值,并通过比较该波动值与预先设定的波动阈值,判定该分布式集群的可靠度。

【技术特征摘要】
1.一种通过加权熵判断分布式集群可靠度的方法,其特征在于,包括:步骤1、根据预先设定的日志事件等级,为分布式集群中各节点的日志事件赋予权值;步骤2、通过用户设置的滑动窗口,获取该滑动窗口内该分布式集群各节点的系统日志,并统计该系统日志内各日志事件等级对应的日志事件数目,通过依次对该日志事件数目进行归一化操作,得到各日志事件等级的归一化值;步骤3、根据该归一化值和该权值,计算当前该滑动窗口中各节点错误率;步骤4、根据该节点错误率,通过加权熵算法,计算当前该滑动窗口内该分布式集群的可靠性加权熵;步骤5、随着滑动窗口的移动,统计预设时间内各滑动窗口的该可靠性加权熵的波动值,并通过比较该波动值与预先设定的波动阈值,判定该分布式集群的可靠度。2.如权利要求1所述的通过加权熵判断分布式集群可靠度的方法,其特征在于,步骤2中该归一化操作包括:其中Nij代表节点i下j事件的归一化后的该归一化值,x代表该日志事件数目,max代表各日志事件数目中的最大值。3.如权利要求1所述的通过加权熵判断分布式集群可靠度的方法,其特征在于,步骤3中该节点错误率的计算方法包括:其中weight为该权值,t为该滑动窗口的时间长度值,Nij代表节点i下j事件等级的该归一化值,ratioi代表该节点错误率,m代表预先设定的该日志事件等级的数目。4.如权利要求1所述的通过加权熵判断分布式集群可靠度的方法,其特征在于,步骤4中该可靠性加权熵的计算方法包括:其中Ri为步骤3计算的该节点错误率,n表示集群中节点的个数,H(u)表示该可靠性加权熵。5.如权利要求1所述的通过加权熵判断分布式集群可靠度的方法,其特征在于,步骤5中该波动值的计算方法包括:统计该预设时间内各滑动窗口的该可靠性加权熵的均值,并对每个该均值求方差,将该方差作为该波动值。6.一种通过加权熵判断分布式集群可靠度的系...

【专利技术属性】
技术研发人员:任睿田帅王磊詹剑锋
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1