The invention provides a method and apparatus for data processing, relating to the field of computer technology, including: flume receives raw data, then determines the description information of the content type corresponding to each sub-data in at least one sub-data from the description information of the pre-configured content type, and according to the original data and the description information of the content type corresponding to each sub-data in the at least one sub-data; The description information of the content type corresponding to each sub-data in the original data is generated to generate the data of the second data structure. Since the description information of the content type is pre-configured in flume, the content corresponding to each sub-data in the received original data can be determined from the description information of the pre-set content type. Type description information, therefore, compared with the existing technology, when the description information of the content type corresponding to the received raw data changes, additional code programs need to be reconfigured to achieve data structure conversion, which reduces the complexity of data structure conversion.
【技术实现步骤摘要】
一种数据处理的方法及装置
本专利技术涉及计算机
,特别涉及一种数据处理的方法及装置。
技术介绍
flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统,如图1所示,flume接收业务应用系统发来的数据,转换接收到的数据的数据结构为kafka所支持的数据结构,然后向kafka发送转换数据结构的数据,而kafka中的数据也是通过flume发送到hdfs的,具体的flume将kafka中的数据的数据结构转换为hdfs的所支持的数据结构后,将转换后的数据结构的数据发送到hdfs,通常情况下,flume接收到的业务应用系统发来的数据是行数据,例如“王五wangwu@163.com”,而kafka所支持的数据结构为avro结构数据,如“name=王五,email=wangwu@163.com”,其中name为王五的内容类型描述信息,email为wangwu@163.com的内容类型描述信息。现有技术中,当行数据为“王五wangwu@163.com”时,需要在flume中配置复杂的程序代码来实现将行数据“王五wangwu@163.com”转换为“name=王五,email=wangwu@163.com”,当行数据为“王五15”时,需要在flume中配置另外一组复杂的程序代码来实现将行数据“王五15”转换为“name=王五,age=15”。因此现有技术中这种数据结构的转换方式较为复杂。
技术实现思路
本专利技术实施例提供了一种数据处理的方法及装置,用以降低现有技术中flume在不同数据结构相互转换时的复杂性。本专利技术实施例提供了 ...
【技术保护点】
1.一种数据处理的方法,其特征在于,包括:flume接收原始数据,所述原始数据为第一数据结构的数据,所述第一数据结构的数据中包括至少一个子数据;所述flume从预先配置的内容类型的描述信息中,确定与所述至少一个子数据中的各个子数据分别对应的内容类型的描述信息;所述flume根据所述原始数据和与所述原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,所述第二数据结构的数据中包括所述至少一个子数据,以及与所述至少一个子数据中各个子数据分别对应的内容类型的描述信息。
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:flume接收原始数据,所述原始数据为第一数据结构的数据,所述第一数据结构的数据中包括至少一个子数据;所述flume从预先配置的内容类型的描述信息中,确定与所述至少一个子数据中的各个子数据分别对应的内容类型的描述信息;所述flume根据所述原始数据和与所述原始数据中各个子数据分别对应的内容类型的描述信息,生成第二数据结构的数据,所述第二数据结构的数据中包括所述至少一个子数据,以及与所述至少一个子数据中各个子数据分别对应的内容类型的描述信息。2.如权利要求1所述的方法,其特征在于,所述flume接收原始数据,包括:所述flume通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收原始数据;所述flume从预先配置的内容类型的描述信息中,确定与所述原始数据中各个子数据分别对应的内容类型的描述信息,包括:所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息,确定所述原始数据中各个子数据分别对应的内容类型的描述信息。3.如权利要求2所述的方法,其特征在于,所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息,确定所述原始数据中各个子数据分别对应的内容类型的描述信息,包括:所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息、和与所述第一source对应的拦截器中预先配置的内容类型的描述信息的配置顺序,确定所述原始数据中各个子数据分别对应的内容类型的描述信息。4.一种数据处理的方法,其特征在于,包括:flume接收目标数据,所述目标数据为第二数据结构的数据,且所述目标数据中包括至少一个子数据,以及与所述至少一个子数据中各个子数据分别对应的内容类型的描述信息;所述flume根据预先配置的内容类型的描述信息,确定所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息;所述flume根据所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息,从所述目标数据中提取所述至少一个子数据,生成第一数据结构的数据,所述第一数据结构的数据中包括所述至少一个子数据。5.如权利要求4所述的方法,其特征在于,所述flume接收所述目标数据,包括:所述flume通过与至少一个预先配置有内容类型的描述信息的拦截器分别对应的至少一个source中的第一source接收目标数据;所述flume根据预先配置的内容类型的描述信息,确定所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息,包括:所述flume根据与所述第一source对应的拦截器中预先配置的内容类型的描述信息,确定所述目标数据中所述至少一个子数据分别对应的内容类型的描述信息。6.如权利要求5所述的方法,其特征在于,所述flum...
【专利技术属性】
技术研发人员:冯闯,
申请(专利权)人:深圳市优朋普乐传媒发展有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。