分布式关系型数据库的数据处理方法及系统技术方案

技术编号：15188390 阅读：113 留言：0更新日期：2017-04-19 13:43

本申请公开了一种分布式关系型数据库的数据处理方法及其系统。该方法包括：获取待处理数据；同步待处理数据，生成同步数据；根据同步数据的属性类别定向存储所述同步数据。在本申请提供的方案中，根据同步数据的属性类别定向存储所述同步数据，定向存储的同步数据满足预设的存储条件，因而数据处理方法可以根据预设的存储条件设计，因而数据处理方法相对简易，同时，定向存储于同一位置的同步数据之间不需要通信，因而，通信带宽要求相对低。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据
，尤其涉及一种分布式关系型数据库的数据处理方法及系统。
技术介绍
现有技术中，一种分布式并行运算的数据处理是在Hadoop框架下进行的。Hadoop是一个由Apache基金会所开发的支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架。Hadoop框架支持在商品硬件构建的大型集群上运行应用程序，也就是说，Hadoop框架支持在成本低廉、性能普通的服务器构建的大型集群上运行应用程序。Hadoop框架实现了名称为MapReduce的编程范式，即应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据。分布式文件系统的要求非常高的集群带宽。MapReduce和分布式文件系统的设计，使得Hadoop框架能够自动处理节点故障，并且使应用程序在成千上万的计算机上独立进行运算和实现PB级(1PB＝1024TB)数据的处理。在实现现有技术过程中，专利技术人发现现有技术中至少存在如下问题：分布式并行运算在Hadoop框架下进行时，应用程序被分割成许多小部分，而每个部分要求能在集群中的任意节点上执行或重新执行，需要设计复杂的MapReduce应用程序以解决每个部分在节点上的分布与执行，同时，将节点的数据实时进行提取与存储，这就要求集群内的通信带宽非常高。
技术实现思路
本申请实施例提供一种分布式关系型数据库的数据处理方法，该数据处理方法相对简易、通信带宽要求相对低。具体的，一种分布式关系型数据库的数据处理方法，适用于服务器集群，服务器集群包括采集子服务...
分布式关系型数据库的数据处理方法及系统

【技术保护点】
一种分布式关系型数据库的数据处理方法，适用于服务器集群，其特征在于，服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群；所述方法包括：采集子服务器集群获取待处理数据；同步子服务器集群同步待处理数据，生成同步数据；存储子服务器集群根据同步数据的属性类别定向存储所述同步数据；其中，所述数据库位于构成服务器集群的服务器。

【技术特征摘要】
1.一种分布式关系型数据库的数据处理方法，适用于服务器集群，其特征在于，服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群；所述方法包括：采集子服务器集群获取待处理数据；同步子服务器集群同步待处理数据，生成同步数据；存储子服务器集群根据同步数据的属性类别定向存储所述同步数据；其中，所述数据库位于构成服务器集群的服务器。2.如权利要求1所述的方法，其特征在于，采集子服务器集群获取待处理数据，还包括：采集子服务器集群获取待处理数据时，同时记载待处理数据来源的数据库名称和待处理数据的属性类别，或者同时记载数据库地址和待处理数据的属性类别，或者同时记载数据库名称、数据库地址和待处理数据的属性类别。3.如权利要求1所述的方法，其特征在于，同步子服务器集群同步待处理数据，生成同步数据，具体包括：同步子服务器集群确定第一同步点和第二同步点；同步子服务器集群筛选待处理数据中位于第一同步点和第二同步点之间的数据，生成同步数据。4.如权利要求1所述的方法，其特征在于，所述同步数据具有属性类别；存储子服务器集群根据同步数据的属性类别定向存储所述同步数据，具体包括：存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库。5.如权利要求4所述的方法，其特征在于，所述属性类别包括交易类；交易类同步数据具有交易标识码；存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库，具体包括：当同步数据的属性类别为交易类时，存储子服务器集群选择交易类同步数据预存储规则；存储子服务器集群根据交易类同步数据预存储规则，计算交易标识码的MD5码值；存储子服务器集群计算所述码值对预设参数的余值；存储子服务器集群将交易类的同步数据存储至与所述余值对应的数据库。6.如权利要求4所述的方法，其特征在于，所述属性类别包括特定行为类；特定行为类数据具有行为主体标识码；存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库，具体包括：当同步数据的属性类别为特定行为类时，存储子服务器集群选择特定行为类同步数据预存储规则；存储子服务器集群根据特定行为类同步数据预存储规则，计算行为主体标识码所属的区间代码；存储子服务器集群将特定行为类同步数据存储至与所述区间代码对应的数据库。7.如权利要求1所述的方法，其特征在于，所述服务器集群还包括运算子服务器集群；所述方法还包括：运算子服务器集群处理定向存储的所述同步数据，生成结果数据。8.如权利要求7所述的方法，其特征在于，运算子服务器集群处理定向存储的所述同步数据，生成结果数据，具体包括：运算子服务器集群筛选同步数据中满足第一条件的第一中间数据；运算子服务器集群处理第一中间数据，生成结果数据。9.如权利要求7所述的方法，其特征在于，所述运算子服务器集群包括本地节点服务器和公共节点服务器；运算子服务器集群处理定向存储的所述同步数据，生成结果数据，具体包括：本地节点服务器筛选本地的同步数据中满足第一条件的第一中间数据；本地节点服务器汇总第一中间数据生成第二中间数据；本地节点服务器向公共节点服务器发送第二中间数据；公共节点服务器汇总第二中间数据生成结果数据。10.如权利要求7所述的方法，其特征在于，所述方法还包括：存储子服务器集群根据同步数据的属性类别定向存储所述同步数据后，向运算子服务器集群发送第一指令信息；运算子服务器集群处理定向存储的所述同步数据，生成结果数据，具体包括：运算子服务器集群接收第一指令信息，并根据第一指令信息处理定向存储的同步数据，生成结果数据。11.如权利要求7所述的方法，其特征在于，所述方法还包括：采集子服务器集群获取并向运算子服务器集群发送第二指令信息；运算子服...

【专利技术属性】
技术研发人员：王奎，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人