一种大数据平台业务双活实现方法及系统技术方案

技术编号：13681589 阅读：69 留言：0更新日期：2016-09-08 12:08

本发明专利技术公开了一种大数据平台业务双活实现方法及系统，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。本发明专利技术基于列存储的MPP数据库架构，在同构的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性，解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网及云计算
，更具体的，涉及一种大数据平台业务双活实现方法及系统。
技术介绍
随着互联网和云计算技术的不断发展，越来越多的服务需要使用集群服务来更好的满足用户的需求。一方面，服务集群化使用户可以得到更好的用户体验，例如访问速度快，同时，服务集群化可以在同一时间为更多的用户提供服务；另一方面，服务集群化可以提高系统的可用性，减少系统故障对业务造成的危害。目前，大数据建设的不断推进，在较好的解决了数据集成、加工的基础上，随着运营过程中对数据的需求的增长，大数据平台服务能力需要进一步提升：一是支撑多样的、实效性更高的的数据访问和分析服务，以支持零售、征信、风险、反洗钱等不同领域，和数据集市、报表、准实时等不同应用；二是提供连续的数据访问服务和准确完整的数据，批量加工的同时不影响外部的数据访问服务，并可及时查看T+2的数据；三是提高升级、灾备、异常处理过程中的业务连续性。合理分配时间窗口、有效利用资源，标准化流程，从而打造高可用的大数据服务平台。现有的数据处理技术主要采用双活机制，其是针对交易型系统，每次新的交易都需对两个集群进行更新，频度、并发较高，且数据同步方向较为灵活，数据更新的频率较高，但是不提供实时查询，且无法满足海量数据的应用场景。具体的，将批量加工和数据备份进行分离，定期(如一个月)将数据备份到另外的存储设备上，若由备份设备提供对外服务，则无法保证准实时的数据服务，若由批量处理设备提供对外查询服务，一则会影响批量加工进度，二则由于批量加工时数据不能同时被读写而导致批量加工与数据查询不可同时进行。
技术实现思路
本专利技术的目的在...

【技术保护点】
一种大数据平台业务双活实现方法，其特征在于，应用于海量数据批量加工和实时联机查询，该方法基于列存储的MPP数据库架构，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；所述第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；所述第一集群和所述第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。

【技术特征摘要】
1.一种大数据平台业务双活实现方法，其特征在于，应用于海量数据批量加工和实时联机查询，该方法基于列存储的MPP数据库架构，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；所述第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；所述第一集群和所述第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。2.根据权利要求1所述的方法，其特征在于，还包括：对所述第一集群和所述第二集群的同步节点上进行数据校验。3.根据权利要求1所述的方法，其特征在于，还包括：向第三集群进行等节点做非定期数据同步；或向所述第三集群进行非对等节点做定期数据同步。4.一种大数据平台业务双活实现系统，其特征在于，应用于海量数据批量加工和实时联机查询，该系统基于列存储的MPP数据库架构，包括：第一集群、第二集群和Hadoop集群海量文件处理集群，其中，所述Hadoop集群海量文件处理集群获取源数据，并对所述源数据进行数据清洗和...

【专利技术属性】
技术研发人员：周頔，谢友珉，陈宏晓，张鸿，郑东去，游黎，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人