一种基于hive的历史数据存档与查询方法技术

技术编号：10528641 阅读：257 留言：0更新日期：2014-10-15 10:53

本发明专利技术提出一种基于hive的历史数据存档与查询方法，首先建立hive表，然后使用ETL工具导出源数据并验证，通过验证后将源数据导入hive表，以及基于Thrift接口从hive表中查询历史数据。本发明专利技术提出的所述方法能够向其它软件提供接口，并完成定制化历史数据导入和数据查询的功能。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提出，首先建立hive表，然后使用ETL工具导出源数据并验证，通过验证后将源数据导入hive表，以及基于Thrift接口从hive表中查询历史数据。本专利技术提出的所述方法能够向其它软件提供接口，并完成定制化历史数据导入和数据查询的功能。【专利说明】-种基于hive的历史数据存档与查询方法
本专利技术涉及计算机存储
，具体涉一种基于hive的历史数据存档与查询方法。
技术介绍
大数据（big data)，或称巨量资料，指的是所涉及的资料规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。近年大数据技术在互联网上的应用逐渐成熟，在不知不觉中已开始改变我们的生活。同时大数据技术的应用范围也开始向其它行业扩充，当然这也带来新的技术问题。 Hadoop Distributed File System(HDFS)被设计成适合运行在通用硬件 (commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 thrift是一个软件框架，用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎，以构建在C++, Java, Python, PHP, Ruby, Erlang, Perl, Has kell, C#, Cocoa, JavaScript, Node, js, Smalltalk, a...

【技术保护点】
一种基于hive的历史数据存档与查询方法，其特征在于，包括：1)建立hive表，并在hive表中建立分区；2)使用ETL工具从其它数据库中导出源数据，将源数据作为文件中的记录保存在文件中，即从其他数据库中导出的一条源数据对应于文件中的一条记录；3)对文件中的记录进行验证；4)通过验证后，将文件中的记录导入临时表，再将临时表中的数据插入有分区结构的hive表；5)基于Thrift接口从hive表中查询历史数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：卢军佐，曹连超，辛国茂，亓开元，赵仁明，房体盈，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人