分布式关系型数据库的数据处理方法及系统技术方案

技术编号:15188390 阅读:101 留言:0更新日期:2017-04-19 13:43
本申请公开了一种分布式关系型数据库的数据处理方法及其系统。该方法包括:获取待处理数据;同步待处理数据,生成同步数据;根据同步数据的属性类别定向存储所述同步数据。在本申请提供的方案中,根据同步数据的属性类别定向存储所述同步数据,定向存储的同步数据满足预设的存储条件,因而数据处理方法可以根据预设的存储条件设计,因而数据处理方法相对简易,同时,定向存储于同一位置的同步数据之间不需要通信,因而,通信带宽要求相对低。

【技术实现步骤摘要】

本申请涉及大数据
,尤其涉及一种分布式关系型数据库的数据处理方法及系统。
技术介绍
现有技术中,一种分布式并行运算的数据处理是在Hadoop框架下进行的。Hadoop是一个由Apache基金会所开发的支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架。Hadoop框架支持在商品硬件构建的大型集群上运行应用程序,也就是说,Hadoop框架支持在成本低廉、性能普通的服务器构建的大型集群上运行应用程序。Hadoop框架实现了名称为MapReduce的编程范式,即应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据。分布式文件系统的要求非常高的集群带宽。MapReduce和分布式文件系统的设计,使得Hadoop框架能够自动处理节点故障,并且使应用程序在成千上万的计算机上独立进行运算和实现PB级(1PB=1024TB)数据的处理。在实现现有技术过程中,专利技术人发现现有技术中至少存在如下问题:分布式并行运算在Hadoop框架下进行时,应用程序被分割成许多小部分,而每个部分要求能在集群中的任意节点上执行或重新执行,需要设计复杂的MapReduce应用程序以解决每个部分在节点上的分布与执行,同时,将节点的数据实时进行提取与存储,这就要求集群内的通信带宽非常高。
技术实现思路
本申请实施例提供一种分布式关系型数据库的数据处理方法,该数据处理方法相对简易、通信带宽要求相对低。具体的,一种分布式关系型数据库的数据处理方法,适用于服务器集群,服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群;所述方法包括:采集子服务器集群获取待处理数据;同步子服务器集群同步待处理数据,生成同步数据;存储子服务器集群根据同步数据的属性类别定向存储所述同步数据;其中,所述数据库位于构成服务器集群的服务器。本申请实施例还提供一种分布式关系型数据库的数据处理系统,包括:采集子服务器集群,用于获取待处理数据;同步子服务器集群,用于同步待处理数据,生成同步数据;存储子服务器集群,用于根据同步数据的属性类别定向存储所述同步数据。本申请实施例提供的分布式关系型数据库的数据处理方法和系统,至少具有如下有益效果:关系型数据库可以是由二维表及二维表之间的联系组成的结构化的数据组织。在本申请实施例提供的数据处理方法中,根据同步数据的属性类别定向存储所述同步数据,定向存储的同步数据满足预设的存储条件,因而数据处理方法可以根据预设的存储条件设计,因而数据处理方法相对简易,同时,定向存储于同一位置的同步数据之间不需要通信,因而,通信带宽要求相对低。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的分布式关系型数据库的数据处理方法的流程图。图2为本申请实施例提供的分布式关系型数据库的数据处理系统的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库,通常可以表现为将多个服务器利用高速计算机网络连接而成的服务器集群。分布式数据库将集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,从而提高了存储容量。此外,分布式数据库采用备份的策略实现容错,保证数据的高可靠性,同时,在读取数据的时候,客户端可以并发地从多个备份服务器同时读取,从而提高了数据访问速度。服务器集群包括采集子服务器集群10、同步子服务器集群20、存储子服务器集群30、运算子服务器集群40。图1为本申请实施例提供的分布式关系型数据库的数据处理方法的流程图,具体包括以下步骤:S100:采集子服务器集群获取待处理数据。数据库可以存储的数据对象多种多样,包括但不限于交易数据库、商品数据库、用户浏览行为数据库等。数据库可以是一个数据存储结构体,也可以是若干个数据存储结构体的集合体。例如,由1024个服务器的存储器构成的数据存储结构体的集合体。数据库可以通过数据库名称、数据库地址以及数据库存储的待处理数据的属性类别来区分。数据库位于构成服务器集群的服务器。例如,表1记载了待处理数据的信息。表1属性类别数据库名称数据库地址交易TradeDB01交易节点地址1交易TradeDB02交易节点地址2………………登录LoginDB01登录节点地址1………………其中,第一列用于标识待处理数据的属性类别,第二列用于标识数据库名称,第三列用于标识数据库地址。采集子服务器集群10获取待处理数据,具体的可以为采集子服务器集群10根据数据库分布规则,即数据库地址的分布规律,从分布式的关系型数据库获取待处理数据。更进一步的,采集子服务器集群10记录各数据库的地址,从而可以通过地址访问各数据库进而获取数据库中的待处理数据。在本申请提供的又一实施例中,进一步的,获取待处理数据,还包括:获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。进一步的,获取待处理数据,具体的可以为采集子服务器集群10获取待处理数据。采集子服务器集群10获取待处理数据,还包括:采集子服务器集群10获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。数据库名称和数据库地址之间具有确定的映射关系。因此,采集子服务器集群10可以根据数据库名称查出数据库地址,同样,采集子服务器集群10也可以根据数据库地址查出数据库名称。为了进行数据来源的追踪,在本申请实施例中,采集子服务器集群10获取待处理数据时,可以采取以下三种方式中的一种:记载待处理数据来源的数据库名称和待处理数据的属性类别;或者记载数据库地址和待处理数据的属性类别;或者数据库名称、数据库地址和待处理数据的属性类别。在该实施方式中,可以通过数据库名称和/或数据库地址追踪待处理数据的来源。S200:同步子服务器集群同步待处理数据,生成同步数据。同步子服务器集群20将若干不同来源的待处理数据进行同步,生成同步数据,用以处理某段时间内新增的数据。在本申请提供的实施例中,同步子服务器集群20同步待处理数据,生成同步数据,具体包括:同步子服务器集群20确定第一同步点和第二同步点;同步子服务器集群20筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。同步子服务器集群20将若干不同来源的待处理数据进行同步,生成同步数据,用以处理某段时间内新增的数据。具体的,同步子服务器集群20确定第一同步点和第二同步点,本文档来自技高网...
分布式关系型数据库的数据处理方法及系统

【技术保护点】
一种分布式关系型数据库的数据处理方法,适用于服务器集群,其特征在于,服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群;所述方法包括:采集子服务器集群获取待处理数据;同步子服务器集群同步待处理数据,生成同步数据;存储子服务器集群根据同步数据的属性类别定向存储所述同步数据;其中,所述数据库位于构成服务器集群的服务器。

【技术特征摘要】
1.一种分布式关系型数据库的数据处理方法,适用于服务器集群,其特征在于,服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群;所述方法包括:采集子服务器集群获取待处理数据;同步子服务器集群同步待处理数据,生成同步数据;存储子服务器集群根据同步数据的属性类别定向存储所述同步数据;其中,所述数据库位于构成服务器集群的服务器。2.如权利要求1所述的方法,其特征在于,采集子服务器集群获取待处理数据,还包括:采集子服务器集群获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。3.如权利要求1所述的方法,其特征在于,同步子服务器集群同步待处理数据,生成同步数据,具体包括:同步子服务器集群确定第一同步点和第二同步点;同步子服务器集群筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。4.如权利要求1所述的方法,其特征在于,所述同步数据具有属性类别;存储子服务器集群根据同步数据的属性类别定向存储所述同步数据,具体包括:存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库。5.如权利要求4所述的方法,其特征在于,所述属性类别包括交易类;交易类同步数据具有交易标识码;存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:当同步数据的属性类别为交易类时,存储子服务器集群选择交易类同步数据预存储规则;存储子服务器集群根据交易类同步数据预存储规则,计算交易标识码的MD5码值;存储子服务器集群计算所述码值对预设参数的余值;存储子服务器集群将交易类的同步数据存储至与所述余值对应的数据库。6.如权利要求4所述的方法,其特征在于,所述属性类别包括特定行为类;特定行为类数据具有行为主体标识码;存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:当同步数据的属性类别为特定行为类时,存储子服务器集群选择特定行为类同步数据预存储规则;存储子服务器集群根据特定行为类同步数据预存储规则,计算行为主体标识码所属的区间代码;存储子服务器集群将特定行为类同步数据存储至与所述区间代码对应的数据库。7.如权利要求1所述的方法,其特征在于,所述服务器集群还包括运算子服务器集群;所述方法还包括:运算子服务器集群处理定向存储的所述同步数据,生成结果数据。8.如权利要求7所述的方法,其特征在于,运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:运算子服务器集群筛选同步数据中满足第一条件的第一中间数据;运算子服务器集群处理第一中间数据,生成结果数据。9.如权利要求7所述的方法,其特征在于,所述运算子服务器集群包括本地节点服务器和公共节点服务器;运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:本地节点服务器筛选本地的同步数据中满足第一条件的第一中间数据;本地节点服务器汇总第一中间数据生成第二中间数据;本地节点服务器向公共节点服务器发送第二中间数据;公共节点服务器汇总第二中间数据生成结果数据。10.如权利要求7所述的方法,其特征在于,所述方法还包括:存储子服务器集群根据同步数据的属性类别定向存储所述同步数据后,向运算子服务器集群发送第一指令信息;运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:运算子服务器集群接收第一指令信息,并根据第一指令信息处理定向存储的同步数据,生成结果数据。11.如权利要求7所述的方法,其特征在于,所述方法还包括:采集子服务器集群获取并向运算子服务器集群发送第二指令信息;运算子服...

【专利技术属性】
技术研发人员:王奎
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1