本发明专利技术涉及一种大数据的高效处理方法,包括:数据节点接收待存储的数据;数据节点对数据进行存储,同时,根据业务场景创建索引并保存在内存中,并通过索引固化逐步保存在磁盘中;用户输入任务请求,SQL引擎根据创建的索引实现数据快速检索,并向计算节点输出数据;管理节点的任务处理模块执行任务调度,并向资源管理模块申请资源,确定空闲的计算节点,并由该计算节点对数据进行处理;将最终的处理数据呈现给用户。本发明专利技术还公开了一种大数据的高效处理系统。本发明专利技术的所有处理都是并发执行的,最大限度的利用了计算机的硬件设备,极大地提高了处理效率,使用户执行任务时能更快获得处理结果。
【技术实现步骤摘要】
一种大数据的高效处理方法及系统
本专利技术涉及计算机大数据应用处理
,尤其是一种大数据的高效处理方法及系统。
技术介绍
随着平安城市、智慧城市等大型项目在各地的广泛开展,数据集聚、数据融合进一步发展,需要处理的数据量达到了 TB级、PB级,大数据量的处理产生了一系列现实问题,原先关系型数据库在面对如此大的数据量时,其技术架构、处理能力、处理方式等越来越无法满足用户需求。 云计算、大数据技术的发展给海量数据的处理提供了很好的解决途径,Hadoop框架体系更是运用并行计算(MapReduce)、分布式存储(HDFS)的方式实现了大数据量的存储和计算。但是,由于分布式存储(HDFS)不支持结构化查询语句(SQL)直接进行处理,分布式存储(HDFS)的数据很难直接被进行处理,且计算任务最终都需转化成并行计算MapReduce框架来执行,其管理节点(Jobtracker)任务重、效率低、易导致单点故障。如何快速、便捷的对海量数据进行处理,如何在提高任务处理效率的同时,增加系统的可用性成为亟待解决的问题。
技术实现思路
本专利技术的首要目的在于提供一种在大数据的存储、检索、计算过程中实现大数据快速、高效处理的大数据的高效处理方法。 为实现上述目的,本专利技术采用了以下技术方案:一种大数据的高效处理方法,该方法包括下列顺序的步骤:(1)数据节点接收待存储的数据;(2)数据节点对数据进行存储,同时,根据业务场景创建索引并保存在内存中,并通过索引固化逐步保存在磁盘中;(3)用户输入任务请求,SQL引擎根据创建的索引实现数据快速检索,并向计算节点输出数据;(4)管理节点的任务处理模块执行任务调度,并向资源管理模块申请资源,确定空闲的计算节点,并由该计算节点对数据进行处理;(5)将最终的处理数据呈现给用户。 所述数据节点接收的数据类型包括结构化、半结构化和非结构化数据。 在进行数据存储和索引创建时,首先,根据业务场景创建索引规则,接着对接收的数据进行存储,存储在硬盘内,同时,在分布式文件系统的基础上运用blur+lencense组件构建索引,索引面向业务应用场景建立,按照索引数据形成在后、使用程度较高的条件选取并存储在内存存储模块内。 在进行检索时,由用户提交查询请求,控制模块对输入的查询请求信息进行分析,控制模块采用SQL引擎首先对查询条件进行自动语义识别,首先从内存存储模块内存储的索引中对目标进行查找,通过查找到的索引去磁盘中获得原始数据,并将数据返回、呈现给用户;如果查找不到,再到磁盘索引存储区进行查找。 所述任务处理模块将根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模块依据调度算法给出具体的任务处理资源,返回给任务处理模块,任务处理模块对相应的计算节点下发任务。 所述的索引先存储在内存存储模块内,通过内存工作机制将超过内存存储容量的索引文件固化到磁盘中进行保存,以分布式文件的形式进行多副本存储,索引文件存入磁盘工作机制以内存存储区大小、索引形成先后顺序和索引文件使用程度参数为依据进行固化,将最先形成、使用程度最低的索引先固化到磁盘,固化到磁盘的索引文件是分布式存储的。 本专利技术的另一目的在于提供一种大数据的高效处理系统,包括:存储及索引创建模块,数据节点对接收到的数据进行存储,同时,根据业务场景创建索引,首先将索引文件保存在内存存储|吴块中,再逐步保存在磁盘中;检索模块,SQL引擎根据创建的索引,实现数据快速检索,并向计算节点输出数据;处理模块,执行任务的调度,申请资源,对资源进行管理,并同时负责任务的切分、处理、归并、失败任务重启的功能,最终完成任务的执行。 所述处理模块包括:资源管理模块,实现对计算模块资源的管理,通过计算节点客户端,适时感知计算节点的资源使用情况,随时准备动态为任务分配资源;任务处理模块,接收任务,根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模块依据调度算法给出具体的任务处理资源,返回给任务处理模块,任务处理模块负责将任务传递给给定的计算模块,并同时负责任务的切分、处理、归并、失败任务重启的功能,最终完成任务的执行;计算模块,具体执行任务的物理或者虚拟资源节点。 由上述技术方案可知,本专利技术在每个数据节点上采用多线程创建索引;每个数据节点上设置内存缓冲区,存储已创建的索引,当索引达到一定量时,将历史索引数据和不被经常使用的索引记录通过退出机制固化到磁盘,并进行分布式存储以保证可用性,同时为了提高数据高可用性;采用SQL引擎针对索引实现实时、快速查询;管理节点将资源管理模块和任务处理模块分开,资源管理实现集群内资源的管理、调度,任务处理模块实现所有任务的资源申请、任务切分、结果合并、任务状态维护、结果输出。本专利技术的所有处理都是并发执行的,最大限度的利用了计算机的硬件设备,极大地提高了处理效率,使用户执行任务时能更快获得处理结果。 【附图说明】 图1为本专利技术的方法流程图。 图2为本专利技术的数据存储及索引创建的流程图。 图3为本专利技术的检索流程图。 图4为本专利技术的任务处理流程图。 【具体实施方式】 一种大数据的高效处理方法,包括:首先,数据节点接收待存储的数据;其次,数据节点对数据进行存储,同时,根据业务场景创建索引并保存在内存中,并通过索引固化逐步保存在磁盘中;再次,用户输入任务请求,SQL引擎根据创建的索引实现数据快速检索,并向计算节点输出数据;接着,管理节点的任务处理模块执行任务调度,并向资源管理模块申请资源,确定空闲的计算节点,并由该计算节点对数据进行处理;最后,将最终的处理数据呈现给用户,所述数据节点接收的数据类型包括结构化、半结构化和非结构化数据,如图1所示。 如图1所示,数据节点实现对待存储数据的存储,同时在HDFS的基础上运用blur+lencense组件构建索弓丨,索引面向业务应用场景建立,选取有价值的、时间先后顺序进行构建。索引创建完成后,即可针对索引进行检索,运用Squirre-SQL组件实现SQL操作并进行数据结构化展示。处理模块,实现任务的快速、高效处理,管理节点将资源管理和任务处理主要功能模块分开,分为资源管理模块和任务处理模块,资源管理模块实现资源的分配、资源状态监测、资源回收功能,任务处理模块实现资源的申请、利用功能,解决了原管理节点任务重、效率低、易导致宕机的问题。 如图2所示,在进行数据存储和索引创建时,首先,根据业务场景创建索引规贝U,接着对接收的数据进行存储,存储在硬盘内,同时,在分布式文件系统的基础上运用blur+lencense组件构建索引,索引面向业务应用场景建立,按照索引数据形成在后、使用程度较高的条件选取并存储在内存存储模块内。所述的索引先存储在内存存储模块内,通过内存工作机制将超过内存存储容量的索引文件固化到磁盘中进行保存,以分布式文件的形式进行多副本存储,索引文件存入磁盘工作机制以内存存储区大小、索引形成先后顺序和索引文件使用程度参数为依据进行固化,将最先形成、使用程度最低的索引先固化到磁盘,固化到磁盘的索引文件是分布式存储的,这样应用最多的业务数据索引将始终保存在内存区,便于快速使用。 如图2所示,根据业务构建索引规则:该索引基于具体本文档来自技高网...
【技术保护点】
一种大数据的高效处理方法,该方法包括下列顺序的步骤:(1)数据节点接收待存储的数据;(2)数据节点对数据进行存储,同时,根据业务场景创建索引并保存在内存中,并通过索引固化逐步保存在磁盘中;(3)用户输入任务请求,SQL引擎根据创建的索引实现数据快速检索,并向计算节点输出数据;(4)管理节点的任务处理模块执行任务调度,并向资源管理模块申请资源,确定空闲的计算节点,并由该计算节点对数据进行处理; (5)将最终的处理数据呈现给用户。
【技术特征摘要】
1.一种大数据的高效处理方法,该方法包括下列顺序的步骤: (1)数据节点接收待存储的数据; (2)数据节点对数据进行存储,同时,根据业务场景创建索引并保存在内存中,并通过索引固化逐步保存在磁盘中; (3)用户输入任务请求,SQL引擎根据创建的索引实现数据快速检索,并向计算节点输出数据; (4)管理节点的任务处理模块执行任务调度,并向资源管理模块申请资源,确定空闲的计算节点,并由该计算节点对数据进行处理; (5)将最终的处理数据呈现给用户。2.根据权利要求1所述的大数据的高效处理方法,其特征在于:所述数据节点接收的数据类型包括结构化、半结构化和非结构化数据。3.根据权利要求1所述的大数据的高效处理方法,其特征在于:在进行数据存储和索引创建时,首先,根据业务场景创建索引规则,接着对接收的数据进行存储,存储在硬盘内,同时,在分布式文件系统的基础上运用blur+lencense组件构建索引,索引面向业务应用场景建立,按照索引数据形成在后、使用程度较高的条件选取并存储在内存存储模块内。4.根据权利要求1所述的大数据的高效处理方法,其特征在于:在进行检索时,由用户提交查询请求,控制模块对输入的查询请求信息进行分析,控制模块采用SQL引擎首先对查询条件进行自动语义识别,首先从内存存储模块内存储的索引中对目标进行查找,通过查找到的索引去磁盘中获得原始数据,并将数据返回、呈现给用户;如果查找不到,再到磁盘索引存储区进行查找。5.根据权利要求1所述的大数据的高效处理方法,其特征在于:所述任务处理模块将根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模...
【专利技术属性】
技术研发人员:王佐成,任子晖,马韵洁,张凯,
申请(专利权)人:安徽四创电子股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。