集群日志特征提取方法、装置及存储介质制造方法及图纸

技术编号:21571381 阅读:28 留言:0更新日期:2019-07-10 15:22
本发明专利技术涉及基架运维,提供一种集群日志特征提取方法、装置及存储介质,通过flume客户端采集服务器集群的日志,发送至数据库;对日志数据进行数据清洗,筛选出原始数据;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。本发明专利技术能有效筛选出服务器集群中各主机的生产数据的有效信息,且从有效信息中提取出生产数据的特征值,便于生产系统的故障预测和故障分类,减少生产事故的发生。

Cluster Log Feature Extraction Method, Device and Storage Media

【技术实现步骤摘要】
集群日志特征提取方法、装置及存储介质
本专利技术涉及基架运维,具体地说,涉及一种集群日志特征提取方法、装置及存储介质。
技术介绍
在信息爆炸式增长的时代,文件大小和数据规模迈向TB级甚至PB级已成现实,集群存储系统节点数已达到64节点集群数目,管理如此庞大的集群系统已经成为数据中心所面临的严峻挑战。及时跟踪集群节点运行状态,精确定位节点出错信息变得尤为重要。在集群存储系统实际的运行中,目前常用一种集群存储系统日志管理方法,可以定时或实时发送系统日志,实现了日志的集中传输,但是没有对日志进行分析和管理,不能全局的了解整个集群存储系统的运行情况,不能快速的定位到错误信息。但是随着集群节点数的增多,对集群系统管理变得越来越复杂。从海量服务器数据中,抽取出能反映服务器性能的特征,精确定位集群节点的潜在故障,提前做好相应的性能检测显得尤为重要。
技术实现思路
为解决以上问题,本专利技术提供一种集群日志特征提取方法,应用于电子装置,包括以下步骤:通过flume客户端采集服务器集群的日志,发送至Hbase数据库,其中,flume客户端通过多个Agent进程对应采集服务器集群中的每台服务器的日志,Agent定时将对应的服务器上的日志数据收集并通过API接口发送到Hbase数据库;利用Hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。优选地,数据清洗中采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次Agent采集的日志数据;计算标准偏差Sx,若数据xb的剩余误差vb(1≤b≤n),满足公式则认为xb是含有粗大误差值的奇异值,并剔除奇异值。优选地,对日志数据的奇异值用中值替代,其中所述中值是指将各个日志数据x1,x2...,xn按大小顺序排列,处于中间位置的值称为中值。优选地,原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取,其中,有效值采用如下公式计算:峰值采用如下公式计算:Xp=max(xi)方根幅值采用如下公式计算:波形指标采用如下公式计算:脉冲指标采用如下公式计算:峭度指标采用如下公式计算:其中,xi为单次Agent采集的日志数据;N为数据采集的次数;为采集的日志数据的算术平均值;Xrms为采集的日志数据的有效值;Xp为采集的日志数据的峰值;Xr为采集的日志数据的方根幅值;Xws为采集的日志数据的波形指标;Xif为采集的日志数据的脉冲指标;Xkv为采集的日志数据的峭度指标。优选地,皮尔逊相关系数的公式如下:其中,xi为单次Agent采集的日志数据;yj为单次Agent采集数据中提取的某一特征值;是日志数据x1,x2...,xn的算数平均值;是y1,y2...,yn的算数平均值;N为日志数据采集的次数。优选地,Flume包括多个第一层级Agent和一个第二层级Agent,每个第一层级Agent分别对应的采集一个服务器的日志数据,多个第一层级Agent采集的日志数据汇集至第二层级Agent,并由第二层级Agent传输至HDFS中。本专利技术还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有集群日志特征提取程序,所述集群日志特征提取程序被所述处理器执行时实现如下步骤:通过flume客户端采集服务器集群的日志,发送至Hbase数据库,其中,flume客户端通过多个Agent进程对应采集服务器集群中的每台服务器的日志,Agent定时将对应的服务器上的日志数据收集并通过API接口发送到Hbase数据库;利用Hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。优选地,数据清洗中采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次Agent采集数据值;计算标准偏差Sx,若数据xb的剩余误差vb(1≤b≤n),满足下式则认为xb是含有粗大误差值的奇异值,并剔除所述奇异值。优选地,对日志数据的奇异值用中值替代,其中所述中值是指将各个日志数据x1,x2...,xn按大小顺序排列,处于中间位置的值称为中值。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现以上所述的集群日志特征提取方法。本专利技术能有效筛选出服务器集群中各主机的生产数据的有效信息,且从有效信息中提取出生产数据的特征值,便于生产系统的故障预测和故障分类,减少生产事故的发生。附图说明通过结合下面附图对其实施例进行描述,本专利技术的上述特征和技术优点将会变得更加清楚和容易理解。图1是本专利技术实施例的集群日志特征提取方法的流程示意图;图2是本专利技术实施例的电子装置的硬件架构示意图;图3是本专利技术实施例的集群日志特征提取程序的模块构成图;图4是本专利技术实施例的日志采集模块的单元构成图;图5是本专利技术实施例的特征提取模块的单元构成图;图6是本专利技术实施例的数据清洗模块的单元构成图;图7是Flume的Agent进程读取数据的示意图。具体实施方式下面将参考附图来描述本专利技术所述的集群日志特征提取方法、装置及存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本专利技术的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。如图1所示,本实施例的集群日志特征提取方法,包括如下步骤:步骤S10,通过flume(分布式的海量日志采集、聚合和传输系统)客户端采集服务器集群的日志,发送至Hbase数据库服务器。Flume以Agent进程为最小的独立运行单位,一个Agent进程就是一个完整的数据收集工具。如图7所示,Agent包含组件Source(数据收集组件)、Channel(中转临时存储)、Sink,三者组建了一个Agent,source从服务器收集数据,传递给Channel,Channel保存由Source组件传递过来的Event(数据单元),Sink从Channel中读取并移除Event,将Event传递到后台。Flume通过多个Agent来对应各服务器收集日志数据。对应每一台服务器设置一个Agent,定时将对应的服务器上本文档来自技高网...

【技术保护点】
1.一种集群日志特征提取方法,应用于电子装置,其特征在于,包括以下步骤:通过flume客户端采集服务器集群的日志,发送至Hbase数据库,其中,flume客户端通过多个Agent进程对应采集服务器集群中的每台服务器的日志,Agent定时将对应的服务器上的日志数据收集并通过API接口发送到Hbase数据库;利用Hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;运用皮尔逊相关系数筛选出有效特征:将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则是有效数据,低于相关度阈值则是无效数据,并予以剔除。

【技术特征摘要】
1.一种集群日志特征提取方法,应用于电子装置,其特征在于,包括以下步骤:通过flume客户端采集服务器集群的日志,发送至Hbase数据库,其中,flume客户端通过多个Agent进程对应采集服务器集群中的每台服务器的日志,Agent定时将对应的服务器上的日志数据收集并通过API接口发送到Hbase数据库;利用Hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;运用皮尔逊相关系数筛选出有效特征:将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则是有效数据,低于相关度阈值则是无效数据,并予以剔除。2.根据权利要求1所述的集群日志特征提取方法,其特征在于,在数据清洗过程中,采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次Agent采集的日志数据;计算标准偏差Sx,若日志数据中的xb的剩余误差vb(1≤b≤n),满足公式则确定xb是含有粗大误差值的奇异值,并剔除奇异值。3.根据权利要求2所述的集群日志特征提取方法,其特征在于,对日志数据的奇异值用中值替代,其中所述中值是指将各个日志数据x1,x2...,xn按大小顺序排列,处于中间位置的值称为中值。4.根据权利要求2所述的集群日志特征提取方法,其特征在于,原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取,其中,有效值采用如下公式计算:峰值采用如下公式计算:Xp=max(xi)方根幅值采用如下公式计算:波形指标采用如下公式计算:脉冲指标采用如下公式计算:峭度指标采用如下公式计算:其中,xi为单次Agent采集的日志数据;N为数据采集的次数;为采集的日志数据的算术平均值;Xrms为采集的日志数据的有效值;Xp为采集的日志数据的峰值;Xr为采集的日志数据的方根幅值;Xws为采集的日志数据的波形指标;Xif为采集的日志数据的脉冲指标;Xkv为采集的日志数据的峭度指标。5.根据权利要求2所述的集群日志特征提取方法,其特征在于,皮尔逊相关系数的公式如下:其中,xi为单次...

【专利技术属性】
技术研发人员:吴超勇陈仕财
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1