一种大数据平台业务双活实现方法及系统技术方案

技术编号:13681589 阅读:64 留言:0更新日期:2016-09-08 12:08
本发明专利技术公开了一种大数据平台业务双活实现方法及系统,包括:Hadoop集群海量文件处理集群获取源文件进行保存,并对所述源文件中的源数据进行预处理;第一集群进行数据加工,得到数据加工结果,并对数据加工结果进行节点分块;第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群;第一集群和第二集群具有相同的节点数,其之间通过二进制数据进行节点对节点的增量同步。本发明专利技术基于列存储的MPP数据库架构,在同构的集群间节点对节点的实现二进制数据的增量同步,通过传输压缩态的增量文件块,使批量查询分离的同时又保证了联机查询的时效性,解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

【技术实现步骤摘要】

本专利技术涉及互联网及云计算
,更具体的,涉及一种大数据平台业务双活实现方法及系统
技术介绍
随着互联网和云计算技术的不断发展,越来越多的服务需要使用集群服务来更好的满足用户的需求。一方面,服务集群化使用户可以得到更好的用户体验,例如访问速度快,同时,服务集群化可以在同一时间为更多的用户提供服务;另一方面,服务集群化可以提高系统的可用性,减少系统故障对业务造成的危害。目前,大数据建设的不断推进,在较好的解决了数据集成、加工的基础上,随着运营过程中对数据的需求的增长,大数据平台服务能力需要进一步提升:一是支撑多样的、实效性更高的的数据访问和分析服务,以支持零售、征信、风险、反洗钱等不同领域,和数据集市、报表、准实时等不同应用;二是提供连续的数据访问服务和准确完整的数据,批量加工的同时不影响外部的数据访问服务,并可及时查看T+2的数据;三是提高升级、灾备、异常处理过程中的业务连续性。合理分配时间窗口、有效利用资源,标准化流程,从而打造高可用的大数据服务平台。现有的数据处理技术主要采用双活机制,其是针对交易型系统,每次新的交易都需对两个集群进行更新,频度、并发较高,且数据同步方向较为灵活,数据更新的频率较高,但是不提供实时查询,且无法满足海量数据的应用场景。具体的,将批量加工和数据备份进行分离,定期(如一个月)将数据备份到另外的存储设备上,若由备份设备提供对外服务,则无法保证准实时的数据服务,若由批量处理设备提供对外查询服务,一则会影响批量加工进度,二则由于批量加工时数据不能同时被读写而导致批量加工与数据查询不可同时进行。
技术实现思路
本专利技术的目的在于提出一种大数据平台业务双活实现方法及系统,以解决现有技术中由于批量加工时数据不能同时被读写而导致批量加工与数据查询不可同时进行的问题。为达到上述目的,本专利技术提供了以下技术方案:一种大数据平台业务双活实现方法,应用于海量数据批量加工和实时联机查询,该方法基于列存储的MPP数据库架构,包括:Hadoop集群海量文件处理集群获取源文件进行保存,并对所述源文件中的源数据进行预处理;第一集群进行数据加工,得到数据加工结果,并对数据加工结果进行节点分块;所述第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群;所述第一集群和所述第二集群具有相同的节点数,其之间通过二进制数据进行节点对节点的增量同步。优选的,该方法还包括:对所述第一集群和所述第二集群的同步节点上进行数据校验。优选的,该方法还包括:向第三集群进行等节点做非定期数据同步;或向所述第三集群进行非对等节点做定期数据同步。一种大数据平台业务双活实现系统,应用于海量数据批量加工和实时联机查询,该系统基于列存储的MPP数据库架构,包括:第一集群、第二集群和Hadoop集群海量文件处理集群,其中,所述Hadoop集群海量文件处理集群获取源数据,并对所述源数据进行数据清洗和预处理;所述第一集群对所述源数据进行批量加工处理,且向上游集市及应用层提供T+1的数据批量导出及非对等节点的数据传输服务;所述第二集群利用批量加工过程中的空闲时间窗口接收所述第一集群传输当天加工的增量数据。优选的,该系统还包括:批量调度模块、运行监控模块以及联机访问管理模块,其中所述批量调度系统进行批量加工的调配管理、并发控制和同步控制,确保批量加工过程按照作业的依赖关系和并发控制进行;所述运行监控系统对所述第一集群和所述第二集群计算资源的运行状态、使用情况、批量进度、数据一致性进行监控并预警;所述联机访问管理系统负责访问方式、访问权限以及访问负载的控制,根据集群可访问状态、访问目标数据要求、集群负载情况。其中,所述运行监控系统还用于定期对运行状况进行分析、发布运行分析报告。其中,所述联机访问管理系统还用于确定查询方式、分配查询资源以及路由查询目标库。其中,所述查询方式为同步查询方式或异步查询方式。经由上述的技术方案可知,与现有技术相比,本专利技术公开了一种大数据平台业务双活实现方法及系统,包括:Hadoop集群海量文件处理集群获取源文件进行保存,并对所述源文件中的源数据进行预处理;第一集群进行数据加工,得到数据加工结果,并对数据加工结果进行节点分块;第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群;第一集群和第二集群具有相同的节点数,其之间通过二进制数据进行节点对节点的增量同步。本专利技术基于列存储的MPP数据库架构,在同构的集群间节点对节点的实现二进制数据的增量同步,通过传输压缩态的增量文件块,使批量查询分离的同时又保证了联机查询的时效性,解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面
描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例公开的一种大数据平台业务双活实现方法的流程示意图;图2为本专利技术实施例中数据流向加工分层次结构图;图3为本专利技术实施例中同步原理图;图4为本专利技术另一实施例公开的一种大数据平台业务双活实现方法的流程示意图;图5为本专利技术实施例公开的一种大数据平台业务双活实现系统结构示意图;图6为本专利技术实施例公开的一种大数据平台业务双活实现系统结构示意图;图7为本专利技术实施例中表与作业的关系图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术是海量数据的高效批量加工和实时联机查询共存的处理系统,根本上需要解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。本专利技术基于列存储的MPP数据库架构,在同构(节点数相同)的集群间节点对节点的实现二进制数据的增量同步,通过传输压缩态的增量文件块,使批量查询分离的同时又保证了联机查询的时效性。请参阅附图1,图1为本专利技术实施例公开的一种大数据平台业务双活实现方法的流程示意图。具体的,该方法应用于海量数据批量加工和实时联机查询,且基于列存储的MPP数据库架构,如图1所述,该方法具体包括如下步骤:S101、Hadoop集群海量文件处理集群获取源文件进行保存,并对源文件中的源数据进行预处理。Hadoop集群海量文件处理集群获取源文件进行保存,对源数据进行数据清洗和预处理。S102、第一集群进行数据加工,得到数据加工结果,并对数据加工结果进行节点分块。具体,请参阅附图2,图2为本专利技术实施例中数据流向加工分层次结构图。第一集群中数据按照分层架构进行加工,包括ODS层、BDS层、GDS层。ODS层主要实现源系统数据的简单堆积和存储。BDS层在ODS层处理源数据基础上,按照统一数据规则(如组织架构、各类数据字典等)对数据进行整合,为GDS和各应用提供数据来源。GDS层集业务逻辑处理、机构汇总和币种转换为一体,以“数据元”的形式向应用层提供分析型应用数据。这种分层加工、分区存储的方式,降低了数据耦合,既保证了数据的统一本文档来自技高网
...

【技术保护点】
一种大数据平台业务双活实现方法,其特征在于,应用于海量数据批量加工和实时联机查询,该方法基于列存储的MPP数据库架构,包括:Hadoop集群海量文件处理集群获取源文件进行保存,并对所述源文件中的源数据进行预处理;第一集群进行数据加工,得到数据加工结果,并对数据加工结果进行节点分块;所述第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群;所述第一集群和所述第二集群具有相同的节点数,其之间通过二进制数据进行节点对节点的增量同步。

【技术特征摘要】
1.一种大数据平台业务双活实现方法,其特征在于,应用于海量数据批量加工和实时联机查询,该方法基于列存储的MPP数据库架构,包括:Hadoop集群海量文件处理集群获取源文件进行保存,并对所述源文件中的源数据进行预处理;第一集群进行数据加工,得到数据加工结果,并对数据加工结果进行节点分块;所述第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群;所述第一集群和所述第二集群具有相同的节点数,其之间通过二进制数据进行节点对节点的增量同步。2.根据权利要求1所述的方法,其特征在于,还包括:对所述第一集群和所述第二集群的同步节点上进行数据校验。3.根据权利要求1所述的方法,其特征在于,还包括:向第三集群进行等节点做非定期数据同步;或向所述第三集群进行非对等节点做定期数据同步。4.一种大数据平台业务双活实现系统,其特征在于,应用于海量数据批量加工和实时联机查询,该系统基于列存储的MPP数据库架构,包括:第一集群、第二集群和Hadoop集群海量文件处理集群,其中,所述Hadoop集群海量文件处理集群获取源数据,并对所述源数据进行数据清洗和...

【专利技术属性】
技术研发人员:周頔谢友珉陈宏晓张鸿郑东去游黎
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1