分布式计算方法、装置及系统制造方法及图纸

技术编号：32345668 阅读：13 留言：0更新日期：2022-02-20 02:00

公开了一种分布式计算方法、装置及系统。获取计算作业；将计算作业针对的待处理的数据切分为多个数据块；将计算作业划分为多个映射任务和一个或多个化简任务，并将映射任务和化简任务分配给多个工作节点，其中，每个映射任务对应一个数据块，分配了映射任务的第一工作节点用于对数据块进行处理，以得到中间处理结果，分配了化简任务的第二工作节点的输入来源于第一工作节点的输出；确定与计算作业相适配的分区方式，分区方式用于对多个映射任务产生的中间处理结果进行分区；基于确定的分区方式对第一工作节点的输出进行分区；将同一分区的中间处理结果分配给同一第二工作节点。由此，可以满足用户的个性化分区需求。可以满足用户的个性化分区需求。可以满足用户的个性化分区需求。

全部详细技术资料下载

【技术实现步骤摘要】
分布式计算方法、装置及系统

[0001]本公开涉及计算领域，特别是涉及一种分布式计算方法、装置及系统。

技术介绍

[0002]MapReduce是指用于大规模数据并行化运算的编程模型和执行框架，MapReduce框架允许用户可以使用函数式编程的思想来表述作业处理逻辑，只要实现Map(映射)、Reduce(化简)即可提交实现分布式作业，而不用关心分布式并行化的细节。很多分布式平台都提供了MapReduce的编程接口，用户按照接口提供Map、Reduce程序的实现，执行框架会自动调用相关程序在分布式平台上并行执行，做大规模分布式运算。
[0003]Shuffle机制是MapReduce框架的核心部分，包含数据分区、排序、缓存多个关键过程，包含数据从Map阶段输出传递给Reduce阶段输入的整个过程。
[0004]Shuffle是连接Map和Reduce之间的桥梁。Map的输出要传递到Reduce中必须经过Shuffle这个环节，Shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下，ReduceTask(Reduce任务)需要跨节点去拉取其它节点上的MapTask(Map任务)结果。而这其中Partitioner(分区器)是Shuffle机制的核心，用于在Shuffle阶段对MapTask产生的中间结果进行分片，以便将同一分组的数据交给同一个ReduceTask处理。Partitioner对分布式计算的性能和数据倾斜、负载均衡等影响至关重要。
[0005]现有技术中Parti...

【技术保护点】

【技术特征摘要】
1.一种分布式计算方法，包括：获取计算作业；将所述计算作业针对的待处理的数据切分为多个数据块；将所述计算作业划分为多个映射任务和一个或多个化简任务，并将所述映射任务和所述化简任务分配给多个工作节点，其中，每个所述映射任务对应一个数据块，分配了映射任务的第一工作节点用于对所述数据块进行处理，以得到中间处理结果，分配了化简任务的第二工作节点的输入来源于所述第一工作节点的输出；确定与所述计算作业相适配的分区方式，所述分区方式用于对所述多个映射任务产生的中间处理结果进行分区；基于确定的分区方式对所述第一工作节点的输出进行分区；将同一分区的中间处理结果分配给同一第二工作节点。2.根据权利要求1所述的分布式计算方法，其中，确定与所述计算作业相适配的分区方式的步骤包括：从分区方式集合中选取与所述计算作业相适配的分区方式，所述分区方式集合包括多个分区方式。3.根据权利要求2所述的分布式计算方法，其中，所述分区方式集合中存在至少一个第一分区方式，每个所述第一分区方式对应一种或多种数据类型，从分区方式集合中选取与所述计算作业相适配的分区方式的步骤包括：根据所述计算作业针对的数据的数据类型，从所述分区方式集合中选取与所述数据类型对应的第一分区方式。4.根据权利要求2所述的分布式计算方法，其中，从分区方式集合中选取与所述计算作业相适配的分区方式的步骤包括：根据所述计算作业的任务类型，从所述分区方式集合中选取与所述计算作业的任务类型相适配的分区方式。5.根据权利要求2所述的分布式计算方法，其中，从分区方式集合中选取与所述计算作业相适配的分区方式的步骤包括：获取第一参数配置信息，所述第一参数配置信息包括针对所述计算作业配置的分区方式；从所述分区方式集合中选取所述第一参数配置信息所表征的分区方式。6.根据权利要求1所述的分布式计算方法，其中，确定与所述计算作业相适配的分区方式的步骤包括：提供编程接口；获取用户通过所述编程接口提供的自定义程序；基于所述自定义程序确定所述计算作业的分区方式。7.根据权利要求1所述的分布式计算方法，其中，确定与所述计算作业相适配的分区方式的步骤包括：获取第二参数配置信息，所述第二参数配置信息包括一个或多个数据值；将所述数据值作为分区字段，其中，基于确定的分区方式对所述第一工作节点的输出进行分区的步骤包括：按照所述分区
字段对所述第一工作节点的输出进行分区。8.根据权利要求7所述的分布式计算方法，其中，所述第二参数配置信息还包括所述第二工作节点的数量以及所述数据值和...

【专利技术属性】
技术研发人员：李瑞盛，胡进军，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人