一种数据处理的方法及装置制造方法及图纸

技术编号:18894561 阅读:44 留言:0更新日期:2018-09-08 10:59
本发明专利技术提供了一种数据处理的方法及装置,涉及计算机技术领域,包括:flume接收原始数据,然后从预先配置的内容类型的描述信息中,确定与至少一个子数据中的各个子数据分别对应的内容类型的描述信息;并根据原始数据和与原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,由于在flume中预先配置了内容类型的描述信息,因此可以从预先设置的内容类型的描述信息中确定接收的原始数据中各个子数据所对应的内容类型的描述信息,因此相对于现有技术中当接收到的原始数据所对应的内容类型的描述信息发生改变时,需要重新配置额外的代码程序,来实现数据结构的转换相比,降低了数据结构转换的复杂性。

Method and device for data processing

The invention provides a method and apparatus for data processing, relating to the field of computer technology, including: flume receives raw data, then determines the description information of the content type corresponding to each sub-data in at least one sub-data from the description information of the pre-configured content type, and according to the original data and the description information of the content type corresponding to each sub-data in the at least one sub-data; The description information of the content type corresponding to each sub-data in the original data is generated to generate the data of the second data structure. Since the description information of the content type is pre-configured in flume, the content corresponding to each sub-data in the received original data can be determined from the description information of the pre-set content type. Type description information, therefore, compared with the existing technology, when the description information of the content type corresponding to the received raw data changes, additional code programs need to be reconfigured to achieve data structure conversion, which reduces the complexity of data structure conversion.

【技术实现步骤摘要】
一种数据处理的方法及装置
本专利技术涉及计算机
,特别涉及一种数据处理的方法及装置。
技术介绍
flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统,如图1所示,flume接收业务应用系统发来的数据,转换接收到的数据的数据结构为kafka所支持的数据结构,然后向kafka发送转换数据结构的数据,而kafka中的数据也是通过flume发送到hdfs的,具体的flume将kafka中的数据的数据结构转换为hdfs的所支持的数据结构后,将转换后的数据结构的数据发送到hdfs,通常情况下,flume接收到的业务应用系统发来的数据是行数据,例如“王五wangwu@163.com”,而kafka所支持的数据结构为avro结构数据,如“name=王五,email=wangwu@163.com”,其中name为王五的内容类型描述信息,email为wangwu@163.com的内容类型描述信息。现有技术中,当行数据为“王五wangwu@163.com”时,需要在flume中配置复杂的程序代码来实现将行数据“王五wangwu@163.com”转换为“name=王五,email=wangwu@163.com”,当行数据为“王五15”时,需要在flume中配置另外一组复杂的程序代码来实现将行数据“王五15”转换为“name=王五,age=15”。因此现有技术中这种数据结构的转换方式较为复杂。
技术实现思路
本专利技术实施例提供了一种数据处理的方法及装置,用以降低现有技术中flume在不同数据结构相互转换时的复杂性。本专利技术实施例提供了一种数据处理的方法,包括:flume接收原始数据,其中,该原始数据为第一数据结构的数据,且该第一数据结构的数据中包括至少一个子数据;然后从预先配置的内容类型的描述信息中,确定与至少一个子数据中的各个子数据分别对应的内容类型的描述信息;并根据原始数据和与原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,第二数据结构的数据中包括至少一个子数据,以及与至少一个子数据中各个子数据分别对应的内容类型的描述信息。在本专利技术实施例中,由于在flume中预先配置了内容类型的描述信息,因此可以从预先设置的内容类型的描述信息中确定接收的原始数据中各个子数据所对应的内容类型的描述信息,当预先配置的内容类型的描述信息中不存在与接收的原始数据中各个子数据所对应的内容类型的描述信息时,只需要在将这些内容类型的描述信息配置到flume中即可,无需再配置额外的代码程序,因此相对于现有技术中当接收到的原始数据所对应的内容类型的描述信息发生改变时,需要重新配置额外的代码程序,来实现数据结构的转换相比,降低了数据结构转换的复杂性。可选的,flume通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收原始数据;然后根据与第一source对应的拦截器中预先配置的内容类型的描述信息,确定原始数据中各个子数据分别对应的内容类型的描述信息。这种方式更便于flume从预先配置的内容类型的描述信息中确定原始数据中各个子数据分别对应的内容类型的描述信息。可选的,为了根据实际情况的需要,在数据结构转换的过程中有可能会调整原始数据中各个子数据的排列顺序,因此flume可以根据与第一source对应的拦截器中预先配置的内容类型的描述信息、和与第一source对应的拦截器中预先配置的内容类型的描述信息的配置顺序,确定原始数据中各个子数据分别对应的内容类型的描述信息。本专利技术实施例提供了一种数据处理的方法,包括:flume接收目标数据,目标数据为第二数据结构的数据,且该目标数据中包括至少一个子数据,以及与至少一个子数据中各个子数据分别对应的内容类型的描述信息;然后flume根据预先配置的内容类型的描述信息,确定目标数据中至少一个子数据分别对应的内容类型的描述信息;以及根据目标数据中至少一个子数据分别对应的内容类型的描述信息,从目标数据中提取至少一个子数据,生成第一数据结构的数据,第一数据结构的数据中包括至少一个子数据。由于在flume中预先配置了内容类型的描述信息,因此可以从预先设置的内容类型的描述信息中确定接收的目标数据中各个子数据所对应的内容类型的描述信息,当预先配置的内容类型的描述信息中不存在与接收的原始数据中各个子数据所对应的内容类型的描述信息时,只需要在将这些内容类型的描述信息配置到flume中即可,无需再配置额外的代码程序,然后基于确定的内容类型的描述信息从目标数据中提取至少一个子数据,生成第一数据结构的数据,因此相对于现有技术中当接收到的原始数据所对应的内容类型的描述信息发生改变时,需要重新配置额外的代码程序,来实现数据结构的转换相比,降低了数据结构转换的复杂性。可选的,flume通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收目标数据;flume根据与第一source对应的拦截器中预先配置的内容类型的描述信息,确定目标数据中至少一个子数据分别对应的内容类型的描述信息。这种方式更便于flume从预先配置的内容类型的描述信息中确定原始数据中各个子数据分别对应的内容类型的描述信息。可选的,为了根据实际情况的需要,在数据结构转换的过程中有可能会调整原始数据中各个子数据的排列顺序,因此flume可以根据与第一source对应的拦截器中预先配置的内容类型的描述信息、和与第一source对应的拦截器中预先配置的内容类型的描述信息的配置顺序,确定原始数据中各个子数据分别对应的内容类型的描述信息。本专利技术实施例提供了一种数据处理的装置,包括:接收模块和处理模块,其中,接收模块用于接收原始数据,原始数据为第一数据结构的数据,第一数据结构的数据中包括至少一个子数据;处理模块用于从预先配置的内容类型的描述信息中,确定与至少一个子数据中的各个子数据分别对应的内容类型的描述信息;以及据原始数据和与原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,第二数据结构的数据中包括至少一个子数据,以及与至少一个子数据中各个子数据分别对应的内容类型的描述信息。可选的,接收模块具体用于通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收原始数据;处理模块具体用于根据与第一source对应的拦截器中预先配置的内容类型的描述信息、和与第一source对应的拦截器中预先配置的内容类型的描述信息的配置顺序,确定原始数据中各个子数据分别对应的内容类型的描述信息。本专利技术实施例提供了一种数据处理的装置,包括:接收模块和处理模块,其中接收模块用于接收目标数据,目标数据为第二数据结构的数据,且目标数据中包括至少一个子数据,以及与至少一个子数据中各个子数据分别对应的内容类型的描述信息;处理模块用于根据预先配置的内容类型的描述信息,确定目标数据中至少一个子数据分别对应的内容类型的描述信息;并根据目标数据中至少一个子数据分别对应的内容类型的描述信息,从目标数据中提取至少一个子数据,生成第一数据结构的数据,第一数据结构的数据中包括至少一个子数据。可选的,接收模块具体本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,包括:flume接收原始数据,所述原始数据为第一数据结构的数据,所述第一数据结构的数据中包括至少一个子数据;所述flume从预先配置的内容类型的描述信息中,确定与所述至少一个子数据中的各个子数据分别对应的内容类型的描述信息;所述flume根据所述原始数据和与所述原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,所述第二数据结构的数据中包括所述至少一个子数据,以及与所述至少一个子数据中各个子数据分别对应的内容类型的描述信息。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:flume接收原始数据,所述原始数据为第一数据结构的数据,所述第一数据结构的数据中包括至少一个子数据;所述flume从预先配置的内容类型的描述信息中,确定与所述至少一个子数据中的各个子数据分别对应的内容类型的描述信息;所述flume根据所述原始数据和与所述原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,所述第二数据结构的数据中包括所述至少一个子数据,以及与所述至少一个子数据中各个子数据分别对应的内容类型的描述信息。2.如权利要求1所述的方法,其特征在于,所述flume接收原始数据,包括:所述flume通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收原始数据;所述flume从预先配置的内容类型的描述信息中,确定与所述原始数据中各个子数据分别对应的内容类型的描述信息,包括:所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息,确定所述原始数据中各个子数据分别对应的内容类型的描述信息。3.如权利要求2所述的方法,其特征在于,所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息,确定所述原始数据中各个子数据分别对应的内容类型的描述信息,包括:所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息、和与所述第一source对应的拦截器中预先配置的内容类型的描述信息的配置顺序,确定所述原始数据中各个子数据分别对应的内容类型的描述信息。4.一种数据处理的方法,其特征在于,包括:flume接收目标数据,所述目标数据为第二数据结构的数据,且所述目标数据中包括至少一个子数据,以及与所述至少一个子数据中各个子数据分别对应的内容类型的描述信息;所述flume根据预先配置的内容类型的描述信息,确定所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息;所述flume根据所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息,从所述目标数据中提取所述至少一个子数据,生成第一数据结构的数据,所述第一数据结构的数据中包括所述至少一个子数据。5.如权利要求4所述的方法,其特征在于,所述flume接收所述目标数据,包括:所述flume通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收目标数据;所述flume根据预先配置的内容类型的描述信息,确定所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息,包括:所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息,确定所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息。6.如权利要求5所述的方法,其特征在于,所述flum...

【专利技术属性】
技术研发人员:冯闯
申请(专利权)人:深圳市优朋普乐传媒发展有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1