本发明专利技术实施例公开了一种分布式并行任务处理的方法、装置及系统,涉及计算机技术领域,解决了现有技术中的分布式并行任务处理系统的复杂度较高,分布式并行任务处理的速度较慢的问题。所述方法包括:接收待处理的数据;将所述待处理的数据切分为多个数据分片;将所述多个数据分片分别分配给多个处理节点进行处理;接收各个处理节点处理后的子结果数据;将所述子结果数据进行合并,形成结果数据。本发明专利技术适用于大数据量的数据的并行处理。
【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种分布式并行任务处理的方法、装置及系统,涉及计算机
,解决了现有技术中的分布式并行任务处理系统的复杂度较高,分布式并行任务处理的速度较慢的问题。所述方法包括:接收待处理的数据;将所述待处理的数据切分为多个数据分片;将所述多个数据分片分别分配给多个处理节点进行处理;接收各个处理节点处理后的子结果数据;将所述子结果数据进行合并,形成结果数据。本专利技术适用于大数据量的数据的并行处理。【专利说明】分布式并行任务处理的方法、装置及系统
本专利技术涉及计算机
,尤其涉及一种分布式并行任务处理的方法、装置及 系统。
技术介绍
当前,随着计算机技术的发展,计算机等设备需要处理的数据的数量也越来越大。 目前,可以通过多台计算机等设备进行数据量较大的数据的并行处理。一般情况下,在进行 数据量较大的数据的快速处理时,需要应用到分布式并行任务处理系统。分布式并行任务 处理系统是一种将不同地点的、具有不同功能的或拥有不同数据的多台计算机用通信网络 连接起来,通过统一管理控制下,协调地完成信息处理任务的计算机系统。 当前的分布式并行任务处理系统一般具有控制节点和多个处理节点,控制节点接 收待处理数据,并将待处理数据首先进行分组、排序操作,之后再将分组、排序后的待处理 数据分给多个处理节点进行处理。在现有技术的分布式并行任务处理中,均需要对待处理 数据进行分组、排序操作,增加了整个分布式并行任务处理系统的复杂度,使得分布式并行 任务处理的速度较慢。
技术实现思路
本专利技术的实施例提供一种分布式并行任务处理的方法、装置及系统,能够解决现 有技术中的分布式并行任务处理系统的复杂度较高,分布式并行任务处理的速度较慢的问 题。 第一方面,本专利技术实施例提供一种分布式并行任务处理的方法,包括: 接收待处理的数据; 将所述待处理的数据切分为多个数据分片; 将所述多个数据分片分别分配给多个处理节点进行处理; 接收各个处理节点处理后的子结果数据; 将所述子结果数据进行合并,形成结果数据。 第二方面,本专利技术实施例提供一种分布式并行任务处理的方法,包括: 接收控制节点发送的数据分片;其中,所述数据分片是所述控制节点切分待处理 的数据而得,所述待处理的数据未被分组和排序; 将所述数据分片中的数据进行处理,形成子结果数据; 将所述子结果数据发送给所述控制节点。 第三方面,本专利技术实施例提供一种控制节点,包括: 接收单元,用于接收待处理的数据; 切分单元,用于将所述接收单元接收的所述待处理的数据切分为多个数据分片; 分配单元,用于将所述多个数据分片分别分配给多个处理节点进行处理; 所述接收单元,还用于接收各个处理节点处理后的子结果数据; 合并单元,用于将所述接收单元接收的所述子结果数据进行合并,形成结果数据。 第四方面,本专利技术实施例提供一种处理节点,包括: 接收单元,用于接收控制节点发送的数据分片;其中,所述数据分片是所述控制节 点切分待处理的数据而得,所述待处理的数据未被分组和排序; 处理单元,用于将接收单元接收的所述数据分片中的数据进行处理,形成子结果 数据; 发送单元,用于将所述处理单元形成的子结果数据发送给所述控制节点。 第五方面,本专利技术实施例提供一种分布式并行任务处理的系统,包括控制节点和 多个处理节点,其中, 所述控制节点,用于接收待处理的数据,将所述待处理的数据切分为多个数据分 片,将所述多个数据分片分别分配给多个处理节点进行处理; 所述处理节点,用于接收所述控制节点发送的数据分片,将所述数据分片中的数 据进行处理,形成子结果数据,并将所述子结果数据发送给所述控制节点; 所述控制节点,还用于接收各个处理节点处理后的子结果数据,将所述子结果数 据进行合并,形成结果数据。 本专利技术提供的分布式并行任务处理的方法、装置及系统,控制节点接收待处理的 数据,将所述待处理的数据切分为多个数据分片,将所述多个数据分片分别分配给多个处 理节点进行处理,并接收各个处理节点处理后的子结果数据,将所述子结果数据进行合并, 形成结果数据。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据 进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布 式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本专利技术提供的分 布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行 任务处理系统的复杂度,可以提升分布式并行任务处理的速度。 【专利附图】【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为本专利技术实施例提供的分布式并行任务处理的方法的流程图一; 图2为本专利技术实施例提供的分布式并行任务处理的方法的流程图二; 图3为本专利技术又一实施例提供的分布式并行任务处理的方法的流程图; 图4为本专利技术实施例提供的控制节点的结构示意图一; 图5为本专利技术实施例提供的控制节点的结构示意图二; 图6为本专利技术实施例提供的处理节点的结构示意图; 图7为本专利技术实施例提供的分布式并行任务处理的系统的结构示意图。 【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 为使本专利技术技术方案的优点更加清楚,下面结合附图和实施例对本专利技术作详细说 明。 如图1所示,本专利技术实施例提供的分布式并行任务处理的方法,从控制节点侧进 行阐述,所述方法包括: 101、接收待处理的数据。 在分布式并行任务中,所述待处理的数据的数据量一般较大,数据量的大小一般 在1万亿字节(Terabyte,简称TB)以上,但不仅局限于此。 102、将所述待处理的数据切分为多个数据分片。 其中,所述待处理的数据可以按照所述处理节点的数量进行切分为数据分片,所 述数据分片的数量与所述处理节点的数量相同,且各个数据分片存储的数据的大小可以相 同,但不仅局限于此。 103、将所述多个数据分片分别分配给多个处理节点进行处理。 将所述多个数据分片分别分配给多个处理节点进行处理可以是按照各个处理节 点的负载信息来分配,在每次分配时将多个数据分片中的一个数据分片分配给负载最低的 处理节点;另外,还可以将所述多个数据分片中的一个数据分片随机分配给一个未获取到 数据分片的处理节点,但不仅局限于此,将所述多个数据分片分别分配给多个处理节点进 行处理还可以有其他多种方式,此处不再一一列举。 104、接收各个处理节点处理后的子结果数据。 其中,所述子结果数据是所述处理节点处理本文档来自技高网...
【技术保护点】
一种分布式并行任务处理的方法,其特征在于,包括:接收待处理的数据;将所述待处理的数据切分为多个数据分片;将所述多个数据分片分别分配给多个处理节点进行处理;接收各个处理节点处理后的子结果数据;将所述子结果数据进行合并,形成结果数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:廖龙,秦晓强,答治茜,罗建国,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。