最优化映射减少框架中数据处理的装置和方法制造方法及图纸

技术编号：10158724 阅读：189 留言：0更新日期：2014-07-01 13:02

由本发明专利技术的方法最优化、由主节点实现的用于大规模数据的映射减少框架。该方法包括在指向由工人节点执行的任务的输入数据的读取指针位置上的这些工人节点的数据的接收以及从这些任务接收工作，被窃取的该工作被应用于输入数据，该输入数据尚未被工作从其窃取的任务处理。

全部详细技术资料下载

【技术实现步骤摘要】

当前专利技术涉及映射减少(MapReduce)框架中的数据处理。该映射减少模型在谷歌公司开发，作为使能大规模数据处理的方式。
技术介绍
映射减少是用于处理大数据集合的编程模型，并且谷歌的该模型的实现的名字映射减少通常对计算机集群进行分布式计算。该模型受通常在功能编程中使用的“映射（map）”和“减少（reduce）”功能启发。映射减少包括“映射”步骤，其中主节点在每一个均处理特定的子任务的映射任务中建立问题的分支，并且分配这些映射任务给工人节点（worker node）。这个主任务还称作“安排（scheduling）”任务。对于此，主节点划分问题输入数据并且将每个输入数据部分分配到映射任务。工人节点处理子问题，并在映射任务完成时通知主节点。映射减少还包括“减少”步骤，其中主节点向一些工人节点分配“减少”操作，其收集全部子问题的答案并且将它们以某种形式组合以形成输出，即原始试图解决的问题的答案。映射减少允许映射和减少操作的分布式处理。所提供的每一个映射操作都独立于其他映射操作，并且可以并行地进行映射。类似地，“减少器”的集合可以进行操作相。虽然此处理相比于更加顺序的算法可能显得不高效，但是映射减少可以应用于比商用服务器可以处理的数据集合明显更大的数据集合—大型服务器公司可以使用映射减少来仅在若干小时内分类千兆字节（petabyte）的数据；映射减少通常适宜于处理“大数据”。并行化也提供在操作期间从服...
<a href="http://www.xjishu.com/zhuanli/55/201310711298.html" title="最优化映射减少框架中数据处理的装置和方法原文来自X技术">最优化映射减少框架中数据处理的装置和方法</a>

【技术保护点】
一种用于处理映射减少框架中的数据的方法，其特征在于所述方法由主装置（800,900）执行，并且在于所述方法包括：将输入数据分割（10001）为输入数据片段；向工人节点分配（10002）用于处理所述输入数据片段的任务，其中向每一个工人节点分配用于处理输入数据片段的任务；根据从执行所述任务的工人节点（901,902，903）接收的数据确定（10003）指向由任务处理的输入数据片段中的当前读取位置的读取指针是否尚未达到输入数据片段结尾之前的预定阈值；并且将新任务分配（10004）给空闲的工人节点，新任务被归于由在尚未达到输入数据片段结尾之前预定阈值的所述任务尚未处理的输入数据片段的、称为分割部分的部分，所述分割部分是位于所述当前读取指针位置之后的所述输入数据片段的一部分。

【技术特征摘要】
2012.12.20 EP 12306644.11.一种用于处理映射减少框架中的数据的方法，其特征在于所述方法
由主装置（800,900）执行，并且在于所述方法包括：
将输入数据分割（10001）为输入数据片段；
向工人节点分配（10002）用于处理所述输入数据片段的任务，其中向
每一个工人节点分配用于处理输入数据片段的任务；
根据从执行所述任务的工人节点（901,902，903）接收的数据确定（10003）
指向由任务处理的输入数据片段中的当前读取位置的读取指针是否尚未达
到输入数据片段结尾之前的预定阈值；并且
将新任务分配（10004）给空闲的工人节点，新任务被归于由在尚未达
到输入数据片段结尾之前预定阈值的所述任务尚未处理的输入数据片段的、
称为分割部分的部分，所述分割部分是位于所述当前读取指针位置之后的所
述输入数据片段的一部分。
2.根据权利要求1所述的方法，其中权利要求1的方法的最后步骤从
属于根据从所述任务接收的所述数据确定（3047）每个任务的输入数据处理
速度的步骤，并且对于数据处理速度低于数据处理速度阈值的每一个任务执
行权利要求1的最后步骤，所述数据处理速度根据从工人节点接收的数据获
得的后续读取指针确定。
3.根据权利要求1或2所述的方法，包括向执行在尚未达到输入数据
片段结尾之前预定阈值的任务的工人节点传输消息的步骤，该消息包含了用
于更新由向其传输该消息的工人节点执行的任务的输入数据片段结尾的信
息。
4.根据权利要求1或2所述的方法，包括在向任务提供的输入数据流
中插入End Of File标记，用于将输入数据的处理限制在位于所述分割部分之
前的输入数据片段的部分。
5.根据权利要求1到2的任一所述的方法，包括在所述主节点中更新
安排表，所述安排表包括允许工人节点与分配给它的任务之间的关联并且定
义分配给它的任务的输入数据片段部分开始和结束的信息。
6...

【专利技术属性】
技术研发人员：N勒斯库阿内克，E勒莫尔，
申请(专利权)人：汤姆逊许可公司，
类型：发明
国别省市：法国;FR

全部详细技术资料下载我是这个专利的主人