本发明专利技术公开了一种基于Hadoop集群的数据处理方法、装置、设备及存储介质,所述基于Hadoop集群的数据处理方法,包括:基于相同的软硬件资源和配置规则,对至少两个Hadoop集群进行部署;其中,至少两个Hadoop集群异地部署,且两个Hadoop集群之间的距离大于距离阈值;使用调度平台对至少两个Hadoop集群同步完成数据导入和数据加工;对至少两个Hadoop集群的运行状态进行监测,确定可用Hadoop集群;从可用Hadoop集群中确定目标Hadoop集群,以对数据需求方提供数据服务。通过上述技术方案,提升了Hadoop集群对外部环境变化的适应能力,增强了Hadoop集群对外提供数据服务的稳定性。Hadoop集群对外提供数据服务的稳定性。Hadoop集群对外提供数据服务的稳定性。
【技术实现步骤摘要】
基于Hadoop集群的数据处理方法、装置、设备及存储介质
[0001]本专利技术涉及大数据
,尤其涉及基于Hadoop集群的数据处理方法、装置、设备及存储介质。
技术介绍
[0002]随着信息技术的快速发展,Hadoop在各行业获得了广泛应用,为各行业提供了大数据解决方案。Hadoop运行在廉价的机器上,以一种可靠、高效和可伸缩的方式进行分布式数据存储和处理,满足了各行业海量数据处理和查询需求。
[0003]Hadoop实现了数据三副本存储,基于自身的容灾机制,集群中某一台或几台机器宕机不会影响系统的正常运行。在Hadoop使用过程中,对于复杂的外部环境,例如机房遇到地震、水灾、火灾或停电等突发情况,导致集群大规模宕机,进而导致系统对外服务不可用。因此,急需一种有效的Hadoop集群容灾方法来解决上述问题。
技术实现思路
[0004]本专利技术提供了一种基于Hadoop集群的数据处理方法、装置、设备及存储介质,以增强Hadoop集群对外提供数据服务的稳定性。
[0005]根据本专利技术的一方面,提供了一种基于Hadoop集群的数据处理方法,包括:
[0006]基于相同的软硬件资源和配置规则,对至少两个Hadoop集群进行部署;其中,至少两个Hadoop集群异地部署,且两个Hadoop集群之间的距离大于距离阈值;
[0007]使用调度平台对至少两个Hadoop集群同步完成数据导入和数据加工;
[0008]对至少两个Hadoop集群的运行状态进行监测,确定可用Hadoop集群;
[0009]从可用Hadoop集群中确定目标Hadoop集群,以对数据需求方提供数据服务。
[0010]根据本专利技术的另一方面,提供了一种基于Hadoop集群的数据处理装置,包括:
[0011]Hadoop集群部署模块,用于基于相同的软硬件资源和配置规则,对至少两个Hadoop集群进行部署;其中,至少两个Hadoop集群异地部署,且两个Hadoop集群之间的距离大于距离阈值;
[0012]数据同步模块,用于使用调度平台对至少两个Hadoop集群同步完成数据导入和数据加工;
[0013]运行状态监测模块,用于对至少两个Hadoop集群的运行状态进行监测,确定可用Hadoop集群;
[0014]目标集群确定模块,用于从可用Hadoop集群中确定目标Hadoop集群,以对数据需求方提供数据服务。
[0015]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0016]至少一个处理器;以及
[0017]与至少一个处理器通信连接的存储器;其中,
[0018]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处
理器执行,以使至少一个处理器能够执行本专利技术任一实施例的基于Hadoop集群的数据处理方法。
[0019]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本专利技术任一实施例的基于Hadoop集群的数据处理方法。
[0020]本专利技术实施例的技术方案,通过基于相同的软硬件资源和配置规则,对至少两个Hadoop集群进行部署,之后使用调度平台对至少两个Hadoop集群同步完成数据导入和数据加工,之后对至少两个Hadoop集群的运行状态进行监测,确定可用Hadoop集群,进而从可用Hadoop集群中确定目标Hadoop集群,以对数据需求方提供数据服务。上述技术方案,基于相同的软硬件资源和配置规则,对Hadoop集群进行部署,保证了每个Hadoop集群功能的一致性,进而实现了Hadoop的异地多活部署;使用调度平台对Hadoop集群进行数据同步,保证了Hadoop集群间数据的一致性;根据Hadoop集群的运行状态确定可用Hadoop集群,避免了故障的Hadoop集群对Hadoop系统对外提供数据服务的影响,进而增强了Hadoop集群对外提供数据服务的稳定性。
[0021]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1A是根据本专利技术实施例一提供的一种基于Hadoop集群的数据处理方法的流程图;
[0024]图1B是根据本专利技术实施例一提供的一种Hadoop集群间数据同步的结构示意图;
[0025]图2A是根据本专利技术实施例二提供的一种基于Hadoop集群的数据处理方法的流程图;
[0026]图2B是根据本专利技术实施例二提供了一种哨兵模式对异地多活部署的Hadoop集群进行监测的结构示意图;
[0027]图3是根据本专利技术实施例三提供的一种基于Hadoop集群的数据处理装置的结构示意图;
[0028]图4是实现本专利技术实施例的基于Hadoop集群的数据处理方法的电子设备的结构示意图。
具体实施方式
[0029]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范
围。
[0030]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“目标”和“可用”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]此外,还需要说明的是,本专利技术的技术方案中,所涉及基于Hadoop集群的数据等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0032]实施例一
[0033]图1为本专利技术实施例一提供的一种基于Hadoop集群的数据处理方法的流程图,本实施例可适用于Hadoop系统在复杂外部环境中对外提供服务的情况,该方法可以由基于Hadoop集群的数据处理装置来执行,该基于Hadoop集群的数据处理装置可以采用硬件和/或软件的形式实现,该基于Hadoop集群的数据处理装置可配置于各种电子设备中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于Hadoop集群的数据处理方法,其特征在于,包括:基于相同的软硬件资源和配置规则,对至少两个Hadoop集群进行部署;其中,所述至少两个Hadoop集群异地部署,且两个Hadoop集群之间的距离大于距离阈值;使用调度平台对所述至少两个Hadoop集群同步完成数据导入和数据加工;对所述至少两个Hadoop集群的运行状态进行监测,确定可用Hadoop集群;从所述可用Hadoop集群中确定目标Hadoop集群,以对数据需求方提供数据服务。2.根据权利要求1所述的方法,其特征在于,所述使用调度平台对所述至少两个Hadoop集群同步完成数据导入和数据加工,包括:控制所述至少两个Hadoop集群同时从上游数据库中获取待处理数据;基于作业调度平台,控制所述至少两个Hadoop集群基于相同的调度时间和执行顺序,根据所述待处理数据,进行作业加工。3.根据权利要求1所述的方法,其特征在于,所述对所述至少两个Hadoop集群的运行状态进行监测,确定可用Hadoop集群,包括:从哨兵集群中确定目标哨兵;其中,所述哨兵集群中不同哨兵之间进行实时通讯并进行数据同步;所述哨兵集群中的哨兵数量为奇数;采用所述目标哨兵对所述至少两个Hadoop集群进行心跳监测,确定所述至少两个Hadoop集群的运行状态是否正常;将运行状态正常的Hadoop集群,作为可用Hadoop集群。4.根据权利要求3所述的方法,其特征在于,在所述采用所述目标哨兵对所述至少两个Hadoop集群进行心跳监测,确定所述至少两个Hadoop集群的运行状态是否正常之后,还包括:将运行状态异常的Hadoop集群,作为异常Hadoop集群;对所述异常Hadoop集群进行异常原因排查,并输出告警信息;其中,所述告警信息包括异常Hadoop集群和异常原因。5.根据权利要求4所述的方法,其特征在于,还包括:对所述异常Hadoop集群进行故障修复;对经修复的异常Hadoop集群与可用Hadoop集群之间...
【专利技术属性】
技术研发人员:许吉来,罗晓峰,姜帆,张延堂,林发全,杜腾飞,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。