一种基于Flume的数据处理方法及装置制造方法及图纸

技术编号：15649942 阅读：84 留言：0更新日期：2017-06-17 02:51

本发明专利技术公开了一种基于Flume的数据处理方法，所述方法包括：在源文件读取完毕后，获取被读取完毕的所述源文件的源文件名称；保存所述源文件名称到源文件名称组；通过查询所述源文件名称组过滤掉已读取完毕的源文件。本发明专利技术还公开了一种基于Flume的数据处理装置。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Flume的数据处理方法及装置
本专利技术涉及数据处理技术，尤其涉及一种基于Flume的数据处理方法及装置。
技术介绍
Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据，其中，Flume提供了从控制台(console)、RPC(Thrift-RPC)、文件(text)、tail(UNIXtail)、syslog及命令执行(exec)等数据源上收集数据的能力；同时，Flume提供对数据进行简单处理，并写到各种可定制的数据接收方的能力。图1为现有技术中Flume的系统架构示意图，如图1所示，采集agent负责进行数据采集，该数据指服务器等待采集的设备中的日志；在数据采集过程中，为agent指定监听目录后，agent默认读取该目录下所有文件的源文件；读取源文件的过程中，需要过滤已经传输完毕即已被读取的源文件。现有技术中，对已经传输完毕的源文件进行过滤时，agent对已经传输完毕的源文件进行重命名；通过重命名，可以实现在已经传输完毕的源文件的名称中，加入用以表征“该源文件已被读取完毕”的标识。但是，在重命名源文件后，可能导致agent或源文件所在的设备无法根据源文件的原有命名格式查找到具有原始名称的源文件，从而导致文件查找失败。
技术实现思路
为解决上述技术问题，本专利技术实施例提供一种基于Flume的数据处理方法及装置，能在不改变源文件名称的情况下，过滤已被读取的源文件。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供一种基于Flume的数据处...

【技术保护点】
一种基于Flume的数据处理方法，其特征在于，所述方法包括：在源文件读取完毕后，获取被读取完毕的所述源文件的源文件名称；保存所述源文件名称到源文件名称组；通过查询所述源文件名称组过滤掉已读取完毕的源文件。

【技术特征摘要】
1.一种基于Flume的数据处理方法，其特征在于，所述方法包括：在源文件读取完毕后，获取被读取完毕的所述源文件的源文件名称；保存所述源文件名称到源文件名称组；通过查询所述源文件名称组过滤掉已读取完毕的源文件。2.根据权利要求1所述的方法，其特征在于，所述保存所述源文件名称到源文件名称组，包括：保存所述源文件名称到表格文件中的源文件名称组；或者，保存所述源文件名称到数据库中的源文件名称组。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：根据正则表达式对所述源文件进行过滤。4.根据权利要求1或2所述的方法，其特征在于，所述过滤掉已读取完毕的源文件之后，所述方法还包括：按照所述源文件的末次更改时间顺序优先读取末次更改时间最早的源文件。5.根据权利要求3所述的方法，其特征在于，所述根据正则表达式对所述源文件进行过滤之前，所述方法还包括：在不需要过滤的源文件名称中预先...

【专利技术属性】
技术研发人员：陈尧，
申请(专利权)人：咪咕文化科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人