Hadoop数据文件的生成方法与解析方法技术

技术编号:12386660 阅读:92 留言:0更新日期:2015-11-25 19:02
本发明专利技术提供了一种Hadoop数据文件的生成方法及解析方法,Hadoop数据文件的生成方法包括:应用程序在输出一行Hadoop数据对象时,根据Hadoop数据对象的类型,在Hadoop数据对象中添加一列标签数据;根据一个或多个Hadoop数据对象,生成一个Hadoop数据文件。此Hadoop数据文件提高了数据的可识别性,进而提高程序开发效率和程序代码的可读性,同时提高mapreduce程序对多数据源输入的支持。

【技术实现步骤摘要】

本专利技术涉及信息技术行业数据库
,尤其涉及一种Hadoop数据文件的生成方法与解析方法
技术介绍
在当今大数据背景下,产生了多种各样的大数据处理工具,ApacheHadoop就是其中之一。它是一个Apache基金会的顶级开源项目,已被广泛应用于需要处理大数据的项目和系统中。HadoopMapreduce是Hadoop处理数据的框架模型,其通过mapreduce编程,读取海量数据,并将每条数据中具有相同键值的数据进行归类处理。在mapreduce编程时需要指定两个重要参数:一为mapred.input.dir,用于指定数据源文件的地址;二为mapreduce.inputformat.class,用于解析数据文件中的每条数据记录。Hadoopmapreduce在处理数据时,会将输入数据文件中的数据按行进行读取,并将这行数据输入至mapreduce程序处理,mapreduce程序根据一行数据和指定的列分割符,将这一行的数据解析成一个字符串数组,通过数组下标来获取指定数据,如行数据为:a|b|c,列分割符为“|”,则行数据在被解析后即为一个数组,如:Str[2]{“a”,”b”,”c”

【技术保护点】
一种Hadoop数据文件的生成方法,其特征在于,包括:步骤1,应用程序在输出Hadoop数据对象时,根据所述Hadoop数据对象的类型,在所述Hadoop数据对象中添加标签数据;步骤2,根据一个或多个Hadoop数据对象,生成一个Hadoop数据文件,其中,每个Hadoop数据对象作为Hadoop数据文件的一行,并且所述标签数据为该行Hadoop数据对象中的一列。

【技术特征摘要】
1.一种Hadoop数据文件的生成方法,其特征在于,包括:
步骤1,应用程序在输出Hadoop数据对象时,根据所述Hadoop数据
对象的类型,在所述Hadoop数据对象中添加标签数据;
步骤2,根据一个或多个Hadoop数据对象,生成一个Hadoop数据文
件,其中,每个Hadoop数据对象作为Hadoop数据文件的一行,并且所述
标签数据为该行Hadoop数据对象中的一列。
2.一种Hadoop数据文件的解析方法,其特征在于,包括:
S1,通过mapreduce程序获取所述Hadoop数据文件的每行数据;
S2,将每行数据封装分别到一个实体对象中;
S3,通过函数获取所述实体对象中封装的每列数据。
3.根据权利要求2所述的解析方法,其特征在于,所述S1包括:
S11,在mapreduce程序的配置...

【专利技术属性】
技术研发人员:金大中王军涛
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1