Flume元数据信息分析提取方法及相关组件技术

技术编号:28143100 阅读:23 留言:0更新日期:2021-04-21 19:23
本发明专利技术公开了一种Flume元数据信息分析提取方法,该方法中对在Event Body中用目标分隔符分隔的字段信息进行识别以及提取,作为元数据字段信息,匹配字段信息对应的元数据字段名称,以确定各元数据字段信息表达的对象,得到元数据字段名称与字段信息的数据对后将其进行统一存储格式的转换,即可生成以标准格式存储的元数据信息,以便于后续统一的数据处理,将格式转换后的元数据信息添加至Event数据中,以便于后续根据该元数据信息进行数据的处理过程,便于数据的分析以及确定。本发明专利技术还公开了一种Flume元数据信息分析提取拦截器、设备及可读存储介质,具有相应的技术效果。具有相应的技术效果。具有相应的技术效果。

【技术实现步骤摘要】
Flume元数据信息分析提取方法及相关组件


[0001]本专利技术涉及信息处理
,特别是涉及一种Flume元数据信息分析提取方法、拦截器、设备及可读存储介质。

技术介绍

[0002]Flume是一个分布式高可用的海量日志采集、聚合和传输的系统。在大数据时代,Flume作为一个优秀的数据采集工具,广泛应用于多个场景。
[0003]Flume中主要包括:Source(Flume中用于获取数据的组件)、拦截器(Flume中用于数据加工处理的组件)、Channel(Flume中的存储组件)以及Sink(Flume中的数据传递组件)四部分来完成日志的采集聚合以及传输。
[0004]目前经过Flume处理得到的数据虽然格式规范,但是元数据信息不明确,需要对Flume输出的数据进行进一步的分析提取后才能得到元数据信息,而元数据信息在后续的大数据组件的数据应用以及处理中起着重要的作用,导致后续对接的大数据组件每应用一次数据,都需要先进行元数据分析提取,然后才能执行真正的处理步骤,导致处理效率低。
[0005]综上所述,如何提升针对于Flume输出数据的处理效率,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0006]本专利技术的目的是提供一种Flume元数据信息分析提取方法、拦截器、设备及可读存储介质,可以提升针对于Flume输出数据的处理效率。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:
[0008]一种Flume元数据信息分析提取方法,包括:
[0009]获取待处理的Event数据;其中,所述Event数据中包括:Event Header与Event Body;
[0010]对所述Event Body进行目标分隔符识别,并根据识别到的所述目标分隔符对所述Event Body进行元数据字段信息提取,得到元数据字段信息;
[0011]为所述元数据字段信息匹配对应的元数据字段名称,得到元数据字段名称与字段信息的数据对;
[0012]按照预设元数据统一存储格式对所述数据对进行格式转换,生成标准格式的元数据信息;
[0013]将所述标准格式的元数据信息添加至所述Event数据中。
[0014]可选地,在为所述元数据字段信息匹配对应的元数据字段名称之前,还包括:
[0015]判断所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量是否匹配;
[0016]若匹配,执行为所述元数据字段信息匹配对应的元数据字段名称的步骤;
[0017]若不匹配,将所述Event数据作为错误数据,写入错误数据记录文件中。
[0018]可选地,在将所述Event数据作为错误数据,写入错误数据记录文件中之后,还包括:
[0019]判断所述错误数据记录文件中写入的错误数据的数量是否达到第一阈值;
[0020]若达到,停止所述Source组件的数据采集通道,并输出错误提示;
[0021]若未达到,执行所述判断所述Event Body中目标分隔符的数量与字段数量是否匹配的步骤。
[0022]可选地,判断所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量是否匹配,包括:
[0023]判断所述Event Body中目标分隔符的数量,是否为所述元数据字段名称的数量与1的差值;
[0024]若是,判定所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量匹配;
[0025]若否,判定所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量不匹配。
[0026]可选地,在执行对所述Event Body进行目标分隔符识别的步骤之前,还包括:
[0027]若所述错误数据记录文件中写入的错误数据的数量达到所述第一阈值,判断是否开启脏数据校验;
[0028]若开启,判断所述Event Body中所有字段数据的数据类型是否为目标配置类型;
[0029]若是,执行对所述Event Body进行目标分隔符识别的步骤;
[0030]若否,将所述Event数据作为脏数据,写入脏数据记录文件中;
[0031]若未开启,执行对所述Event Body进行目标分隔符识别的步骤。
[0032]可选地,所述Flume元数据信息分析提取方法还包括:
[0033]判断所述脏数据记录文件中写入的脏数据的数量是否达到第二阈值;
[0034]若达到,停止所述Source组件的数据采集通道,并输出脏数据提示;
[0035]若未达到,执行对所述Event Body进行目标分隔符识别的步骤。
[0036]可选地,所述按照预设元数据统一存储格式对所述数据对进行格式转换,生成标准格式的元数据信息,包括:
[0037]将所述数据对进行Json格式构造,生成Json格式的元数据;
[0038]将所述Json格式的元数据作为所述标准格式的元数据信息。
[0039]一种Flume元数据信息分析提取拦截器,包括:
[0040]数据获取单元,用于获取待处理的Event数据;其中,所述Event数据中包括:Event Header与Event Body;
[0041]信息提取单元,用于对所述Event Body进行目标分隔符识别,并根据识别到的所述目标分隔符对所述Event Body进行元数据字段信息提取,得到元数据字段信息;
[0042]字段匹配单元,用于为所述元数据字段信息匹配对应的元数据字段名称,得到元数据字段名称与字段信息的数据对;
[0043]格式转换单元,用于按照预设元数据统一存储格式对所述数据对进行格式转换,生成标准格式的元数据信息;
[0044]信息添加单元,用于将所述标准格式的元数据信息添加至所述Event数据中。
[0045]一种计算机设备,包括:
[0046]存储器,用于存储计算机程序;
[0047]处理器,用于执行所述计算机程序时实现上述Flume元数据信息分析提取方法的步骤。
[0048]一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述Flume元数据信息分析提取方法的步骤。
[0049]本专利技术实施例所提供的方法,该方法中对在Event Body中用目标分隔符分隔的字段信息进行识别以及提取,作为元数据字段信息,匹配字段信息对应的元数据字段名称,以确定各元数据字段信息表达的对象,得到元数据字段名称与字段信息的数据对后将其进行统一存储格式的转换,即可生成以标准格式存储的元数据信息,以便于后续统一的数据处理,将格式转换后的元数据信息添加至Event数据中,以便于后续根据该元数据信息进行数据的处理过程,便于数据的分析以及确定。
[0050]相应地,本专利技术实施例还提供了与上述Flume元数据信息分析提取方法相对应的Flume元数据信息分析提取拦截器、设备和可读存储介质,具有上述技术效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Flume元数据信息分析提取方法,其特征在于,包括:获取待处理的Event数据;其中,所述Event数据中包括:Event Header与Event Body;对所述Event Body进行目标分隔符识别,并根据识别到的所述目标分隔符对所述Event Body进行元数据字段信息提取,得到元数据字段信息;为所述元数据字段信息匹配对应的元数据字段名称,得到元数据字段名称与字段信息的数据对;按照预设元数据统一存储格式对所述数据对进行格式转换,生成标准格式的元数据信息;将所述标准格式的元数据信息添加至所述Event数据中。2.根据权利要求1所述的Flume元数据信息分析提取方法,其特征在于,在为所述元数据字段信息匹配对应的元数据字段名称之前,还包括:判断所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量是否匹配;若匹配,执行为所述元数据字段信息匹配对应的元数据字段名称的步骤;若不匹配,将所述Event数据作为错误数据,写入错误数据记录文件中。3.根据权利要求2所述的Flume元数据信息分析提取方法,其特征在于,在将所述Event数据作为错误数据,写入错误数据记录文件中之后,还包括:判断所述错误数据记录文件中写入的错误数据的数量是否达到第一阈值;若达到,停止所述Source组件的数据采集通道,并输出错误提示;若未达到,执行所述判断所述Event Body中目标分隔符的数量与字段数量是否匹配的步骤。4.根据权利要求2所述的Flume元数据信息分析提取方法,其特征在于,判断所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量是否匹配,包括:判断所述Event Body中目标分隔符的数量,是否为所述元数据字段名称的数量与1的差值;若是,判定所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量匹配;若否,判定所述元数据字段信息的数量与预先配置的所述元数据字段名称的数量不匹配。5.根据权利要求2所述的Flume元数据信息分析提取方法,其特征在于,在执行对所述Event Body进行目标分隔符识别的步骤之前,还包括:若所述错误数据记录文件中写入的错误数据的数量达到所述第一阈值,...

【专利技术属性】
技术研发人员:胡永泽
申请(专利权)人:北京浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1