一种基于Hadoop的大数据索引快速创建方法技术

技术编号：14760405 阅读：85 留言：0更新日期：2017-03-03 10:43

本发明专利技术公开了一种基于Hadoop的大数据索引快速创建方法，所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件，针对需拼接或需修改的数据，读取映射文件，相应数据组织成索引格式，利用分布式Hadoop集群的并发能力，通过执行MapReduce任务，将大数据自动分拆成数据段到集群中的每个机器中，并行运行。本发明专利技术针对目前动辄上亿条的数据建立索引，克服了传统单台机器创建索引时的种种缺点，减少了对高性能服务器的依赖，增强了工作稳定性，本发明专利技术有着环境易搭建、处理海量数据速度快且拥有良好的扩展性，具有很好的推广使用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机软件应用
，具体涉及一种基于Hadoop的大数据索引快速创建方法。
技术介绍
随着信息数据量的增大，单服务器的环境难以满足搜索引擎构建大规模数据索引的时空开销需求，因此如何实施高效信息索引越来越受到人们的关注。特别是近些年，由于网络信息的爆炸式增长，仅靠升级计算机硬件设备来提高数据处理的能力，已经不能适应信息的增长速度和信息处理效率的需求，研究者开始探索能够应对和处理庞大信息数据问题的策略。单台计算机在构建大数据倒排索引时出现的两个问题：1）数据量越大，构建的时间越长，效率越低；2）建立倒排索引的单个文档不能过大，否则会导致机器内存不足问题，引起死机。Hadoop作为一个开源的分布式系统基础架构，如今已成为国内外云计算热门研究对象。Hadoop的HDFS分布式存储和MapReduce分布式计算框架提供了高可靠性的分布式存储和高速的海量数据计算。前者是一个面向海量数据密集型应用的、可扩展的分布式文件系统，可在多台廉价的计算机上运行，具有强大的纠错功能，为用户提供可靠的服务；后者是实现对超大数据集的处理和生成算法的分布式编程模型，用户可以在不了解分布式底层细节的情况下开发分布式程序，并充分利用计算机集群的协作能力实现事物的高效运算。Hadoop这一技术使得高效建立大规模索引成为可能。
技术实现思路
本专利技术要解决的技术问题是：本专利技术针对以上问题，提供一种基于Hadoop的大数据索引快速创建方法，针对目前动辄上亿条的数据建立索引，克服了传统单台机器创建索引时的种种缺点，减少了对高性能服务器的依赖，增强了工作稳定性，且拥有较好的可扩展...

【技术保护点】
一种基于Hadoop的大数据索引快速创建方法，其特征在于，所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件，针对需拼接或需修改的数据，读取映射文件，相应数据组织成索引格式，利用分布式Hadoop集群的并发能力，通过执行MapReduce任务，将大数据自动分拆成数据段到集群中的每个机器中，并行运行。

【技术特征摘要】
1.一种基于Hadoop的大数据索引快速创建方法，其特征在于，所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件，针对需拼接或需修改的数据，读取映射文件，相应数据组织成索引格式，利用分布式Hadoop集群的并发能力，通过执行MapReduce任务，将大数据自动分拆成数据段到集群中的每个机器中，并行运行。2.根据权利要求1所述的一种基于Hadoop的大数据索...

【专利技术属性】
技术研发人员：魏金雷，张烨，刘安，孙思清，高传集，臧勇真，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人