一种基于Hadoop的大数据实时处理系统技术方案

技术编号：15299698 阅读：147 留言：0更新日期：2017-05-12 01:52

本发明专利技术公开了一种基于Hadoop的大数据实时处理系统。本发明专利技术实施例中在创建查询任务的同时，进行过滤索引，过滤索引的同时可以将过滤完的索引文件分发到datanode上面，同时datanode完成本地文件的查询，并向客户端返回查询结果。并且本发明专利技术实施例中任何datanode的查询完成，都可以通过实时传输中间件的周期轮询机制快速的向客户端返回查询结果。本发明专利技术实施例中，在HDFS内的数据查询处理过程都是并发执行的，最大限度的利用了计算机的硬件设备，使查询达到了实时完成，极大地提高了查询的效率，用户执行查询操作时便能获得查询结果，提高数据查询的效率，快速响应客户端的查询请求。

A large data real-time processing system based on Hadoop

The invention discloses a large data real-time processing system based on Hadoop. The embodiment of the invention to create query tasks at the same time, filtration index, while filtering index can be filtered to distribute the index files to datanode, datanode and complete the local file search, and query results are returned to the client. Moreover, any datanode query in the embodiment of the invention can quickly return the query result to the client through the periodic polling mechanism of the real-time transport middleware. In one embodiment of the invention, in the HDFS data query processing is executed concurrently, to maximize the use of the computer hardware, which achieves the real-time query, greatly improve the efficiency of the query, the user query operation can get query results, improve the efficiency of data query, fast in response to the client's request.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，具体涉及一种基于Hadoop的大数据实时处理系统。
技术介绍
随着信息化的发展，企业要处理的数据呈爆炸式的增长，数据量都达到了超大规模(例如从TB级到PB级)，由此带来了一系列的问题。数据量的增多，系统的负载越来越大，数据的入库和查询性能随之下降。在不增加硬件成本的情况下，如何发挥系统的最大性能，使入库和查询的速度最快，是许多企业面临的难题。云计算的出现为海量数据处理提供了有效地解决途径，在通常的云计算解决方案中存在基于Hadoop的框架设计，Hadoop中包括：分布式文件系统(HadoopDistributedFileSystem，HDFS)和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。通过Hadoop的HDFS可以方便的实现海量数据存储，同时有效防止单点故障，避免不必要的损失。但是，在HDFS上进行数据检索时，常用的方法是开启全局搜索MapReduce，即需要进行大规模数据的并行运算，这需要完整过滤一遍HDFS上存储的所有数据。在云计算中，尤其是海量数据的情况下，现有技术中在HDFS上使用MapReduce进行全局搜索会对系统资源造成巨大的浪费，耗费大量的时间。
技术实现思路
本专利技术的目的在于提供一种基于Hadoop的大数据实时处理系统，用于提高数据查询的效率，快速响应客户端的查询请求。为了达到上述目的，本专利技术采用这样的如下技术方案：本专利技术提供一种基于Hadoop的大数据实时处理系统，所述基于Hadoop的大数据实时处理系统包括：客户端、实时传输中间件、分布式文件...

【技术保护点】
一种基于Hadoop的大数据实时处理系统，其特征在于，所述基于Hadoop的大数据实时处理系统包括：客户端、实时传输中间件、分布式文件系统HDFS，其中，所述HDFS包括：控制节点namenode和多个数据节点datanode；所述控制节点，用于在所述多个数据节点上启动多线程，实时的创建需要入库的多个数据分别对应的索引，并将多个索引按照创建时间保存在多个索引文件中；所述客户端，用于通过所述实时传输中间件向所述HDFS发送数据获取get请求；所述实时传输中间件，用于将所述客户端发送的数据获取请求转发给所述控制节点；所述控制节点，用于根据所述客户端发送的数据获取请求创建查询任务，所述查询任务包括：目标数据所满足的查询条件，所述查询条件包括：查询时间条件；根据所述查询条件中的查询时间条件和所述多个索引文件进行匹配，筛选出满足所述查询时间条件的索引条件；将所述查询任务分发到所述多个数据节点上，根据所述筛选出的索引文件和所述查询条件查询所述多个数据节点，从而得到满足所述查询条件的数据的位置；再次向所述多个数据节点分发所述查询任务，根据所述满足所述查询条件的数据的位置在所述多个数据节点上读取数据，...

【技术特征摘要】
1.一种基于Hadoop的大数据实时处理系统，其特征在于，所述基于Hadoop的大数据实时处理系统包括：客户端、实时传输中间件、分布式文件系统HDFS，其中，所述HDFS包括：控制节点namenode和多个数据节点datanode；所述控制节点，用于在所述多个数据节点上启动多线程，实时的创建需要入库的多个数据分别对应的索引，并将多个索引按照创建时间保存在多个索引文件中；所述客户端，用于通过所述实时传输中间件向所述HDFS发送数据获取get请求；所述实时传输中间件，用于将所述客户端发送的数据获取请求转发给所述控制节点；所述控制节点，用于根据所述客户端发送的数据获取请求创建查询任务，所述查询任务包括：目标数据所满足的查询条件，所述查询条件包括：查询时间条件；根据所述查询条件中的查询时间条件和所述多个索引文件进行匹配，筛选出满足所述查询时间条件的索引条件；将所述查询任务分发到所述多个数据节点上，根据所述筛选出的索引文件和所述查询条件查询所述多个数据节点，从而得到满足所述查询条件的数据的位置；再次向所述多个数据节点分发所述查询任务，根据所述满足所述查询条件的数据的位置在所述多个数据节点上读取数据，当所述多个数据节点中任何一个数据节点查询成功时，返回查询结果；所述实时传输中间件，用于按照预置的轮询周期轮询查询结果目录，如果所述查询结果目录不为空，则读取所述查询结果目录中的查询结果文件并返回给客户端；所述客户端，用于通过所述实时传输中间件实时的获取到所述查询结果文件。2.根据权利要求1所述的一种基于Hadoop的大数据实时处理系统，其特征在于，所述控制节点，具体用于按照B+...

【专利技术属性】
技术研发人员：陈嵩荣，郑志伟，张木辉，蔡剑齐，王晓强，
申请(专利权)人：南威软件股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人