【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及分布式数据处理系统中的混洗操作。
技术介绍
混洗操作是分布式数据处理系统中的中间步骤,其中写入器产生的数据通过键数据被聚组用于通过读取器消耗。利用混洗操作的分布式数据处理算法的一个示例是映射化简算法。写入器在映射阶段被实现,在所述映射阶段期间并行任务被创建以对数据操作从而生成中间结果。在混洗阶段中,映射阶段的部分计算结果被布置用于通过实现化简操作的读取器访问。在化简阶段期间,每个读取器执行聚合了映射阶段生成的数据的化简任务。其他分布式数据处理算法也通过混洗操作混洗数据。混洗操作包含根据包括在记录中的键对记录的流聚组。键可以是字母数字串或数字标识符。记录可被混洗写入器的集合以随机顺序呈现至混洗操作。混洗器组件的集合可接收记录并根据它们包括的键对它们聚组。混洗器组件可以接着将现在通过键被聚组的记录提供至混洗读取器的集合。
技术实现思路
本申请的主题涉及,当混洗操作激活时,诸如通过改变键范围分配来重新配置混洗操作。本申请的主题还涉及在持久储存器中存储混洗操作的结果用于以后消耗。一般地,本说明书中所描述的主题的一个创新的方面可以被体现在包括以下动作的方法中:响应于接收到对数据流执行混洗操作的请求,所述混洗操作是通过键对所述数据流中设键的记录进行聚组的操作,所述请求包括初始键范围的集合,每个初始键范围对应于所述数据流的部分;生成混洗器配置,所述混洗器配置将来自 ...
【技术保护点】
一种通过数据处理装置执行的计算机实现的方法,所述方法包括:响应于接收到对数据流执行混洗操作的请求,所述混洗操作是通过键对所述数据流中设键的记录进行聚组的操作,所述请求包括初始键范围的集合,每个初始键范围对应于所述数据流的部分:生成混洗器配置,所述混洗器配置将来自混洗器的集合的混洗器指派至所述初始键范围中的每一个,每个混洗器被配置为从一个或多个写入器接收与所指派的键范围相关联的所述数据流的部分,并且将所述数据流的所述部分提供至一个或多个读取器;启动所述混洗器的集合以对所述数据流执行所述混洗操作;分析元数据统计以确定混洗器配置更新事件是否发生,所述元数据统计在所述混洗操作期间由所述混洗器的集合产生并且指示所述混洗器的集合中的每个混洗器的负荷统计;以及在所述混洗器配置更新事件发生之后并在所述混洗操作期间,至少部分基于所述元数据统计更改所述混洗器配置以产生混洗器至键范围的指派,混洗器至键范围的所述指派不同于混洗器至所述初始键范围的指派。
【技术特征摘要】
【国外来华专利技术】2013.10.02 US 14/044,5291.一种通过数据处理装置执行的计算机实现的方法,所述方法包
括:
响应于接收到对数据流执行混洗操作的请求,所述混洗操作是通
过键对所述数据流中设键的记录进行聚组的操作,所述请求包括初始
键范围的集合,每个初始键范围对应于所述数据流的部分:
生成混洗器配置,所述混洗器配置将来自混洗器的集合的混
洗器指派至所述初始键范围中的每一个,每个混洗器被配置为从一个
或多个写入器接收与所指派的键范围相关联的所述数据流的部分,并
且将所述数据流的所述部分提供至一个或多个读取器;
启动所述混洗器的集合以对所述数据流执行所述混洗操作;
分析元数据统计以确定混洗器配置更新事件是否发生,所述
元数据统计在所述混洗操作期间由所述混洗器的集合产生并且指示所
述混洗器的集合中的每个混洗器的负荷统计;以及
在所述混洗器配置更新事件发生之后并在所述混洗操作期
间,至少部分基于所述元数据统计更改所述混洗器配置以产生混洗器
至键范围的指派,混洗器至键范围的所述指派不同于混洗器至所述初
始键范围的指派。
2.根据权利要求1所述的方法,其中,更改所述混洗器配置包括:
将两个或多个键范围合并以产生经合并的键范围并且将经合并的键范
围指派至混洗器,经合并的键范围包括与所述两个或多个键范围相关
联的键的范围的并集。
3.根据权利要求1所述的方法,其中,更改所述混洗器配置包括:
拆分键范围以产生两个或多个经拆分的键范围并将所述两个或多个经
拆分的键范围指派至两个或多个混洗器。
4.根据权利要求1所述的方法,其中,更改所述混洗器配置包括:
\t将键范围指派至两个或多个混洗器。
5.根据权利要求1所述的方法,其中,分析所述元数据统计进一
步包括:
识别与第一混洗器相关联的第一键范围;
至少部分基于所述元数据统计,确定所述第一混洗器正在经历高
负荷状态;以及
将所述第一混洗器重新指派至包括所述第一键范围的子集的经修
改的键范围。
6.根据权利要求1所述的方法,其中,分析所述元数据统计进一
步包括:
识别与第一混洗器相关联的第一键范围;
至少部分基于所述元数据统计,确定所述第一混洗器正在经历低
负荷状态;以及
将所述第一混洗器重新指派至包括所述第一键范围和不同于所述
第一键范围的第二键范围的经修改的键范围。
7.根据权利要求1所述的方法,进一步包括:
识别所述数据流的部分已经被所述一个或多个读取器消耗的指
示;以及
对与所述数据集的所述部分相关联的一个或多个资源执行无用信
息收集操作。
8.根据权利要求1所述的方法,进一步包括:
从所述一个或多个读取器接收消耗元数据,所述消耗元数据指示
对于所述一个或多个读取器中的每一个,所述数据集的消耗进展;以
及
如果所述消耗元数据指示与所述一个或多个资源相关联的所述数
据集的所述部分已经被消耗,对与所述数据集相关联的一个或多个资
\t源执行无用信息收集操作。
9.一种编码有指令的有形的非暂时性计算机可读介质,所述指令
用于使得一个或多个处理器执行操作,所述操作包括:
响应于接收到对数据流执行混洗操作的请求,所述混洗操作是通
过键对所述数据流中设键的记录进行聚组的操作,所述请求包括初始
键范围的集合,每个初始键范围对应于所述数据流的部分:
生成混洗器配置,所述混洗器配置将来自混洗器的集合的混
洗器指派至所述初始键范围中的每一个,每个混洗器被配置为从一个
或多个写入器接收与所指派的键范围相关联的所述数据流的部分,并
且将所述数据流的所述部分提供至一个或多个读取器;
启动所述混洗器的集合以对所述数据流执行所述混洗操作;
分析元数据统计以确定混洗器配置更新事件是否发生,所述
元数据统计在所述混洗操作期间由所述混洗器的集合产生并且指示所
述混洗器的集合中的每个混洗器的负荷统计...
【专利技术属性】
技术研发人员:亚历山大·古尔科夫·巴利科夫,马里安·德沃尔斯基,赵永刚,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。