本申请的各实施例涉及数据的并行处理。在包括一个或者多个处理模块并且提供本机处理环境的数据中心接收非置信应用。非置信应用包括数据并行流水线。安全处理环境用来执行非置信应用。数据并行流水线可以指定多个并行数据对象和并行操作。基于数据并行流水线,可以生成延缓的并行数据对象和延缓的并行操作的数据流图形,并且可以将一个或者多个图形变换应用于数据流图形以生成修正的数据流图形,修正的数据流图形包括延缓的并行数据对象和延缓的组合并行数据操作中的一个或者多个延缓的并行数据对象和延缓的组合并行数据操作。可以执行延缓的组合并行操作以产生与延缓的并行数据对象对应的具体化的并行数据对象。
【技术实现步骤摘要】
【专利说明】分案申请说巧 本申请是国际申请日为2011年5月4日、于2012年12月28日进入中国国家阶 段的、申请号为201180032739. 5、名称为"数据的并行处理"的中国专利技术专利申请的分案申 请。
本公开内容设及数据的并行处理。
技术介绍
大规模数据处理可W包括并行处理,并行处理总体上设及到对大数据集的每个元 素执行某一操作。各种操作可W在数据并行流水线中链接在一起W创建用于处理数据集的 局效机制。
技术实现思路
在一个方面中,在包括一个或者多个处理模块并且提供本机处理环境的数据中屯、 接收非置信应用。非置信应用包括数据并行流水线。数据并行流水线指定包含多个元素的 多个并行数据对象和与对元素操作的非置信函数相关联的多个并行操作。在本机处理环境 中并且在处理模块中的一个或者多个处理模块上实例化第一安全处理环境。在第一安全处 理环境中执行非置信应用。执行应用生成与数据并行流水线对应的延缓的并行数据对象和 延缓的并行操作的数据流图形。在第一安全处理环境W外传达代表数据流图形的信息。在 第一安全处理环境W外并且在本机处理环境中,将一个或者多个图形变换应用于代表数据 流图形的信息W生成修正的数据流图形,修正的数据流图形包括与非置信函数中的一个或 者多个非置信函数相关联的、延缓的并行数据对象和延缓的组合并行数据操作中的一个或 者多个延缓的并行数据对象和延缓的组合并行数据操作。执行延缓的组合并行操作W产生 与延缓的并行数据对象对应的具体化的并行数据对象。执行延缓的组合并行操作包括:在 本机处理环境中并且在处理模块中的一个或者多个处理模块上实例化一个或者多个第二 安全处理环境;并且在一个或者多个第二安全处理环境中执行与延缓的组合并行操作相关 联的非置信函数。 实现方式可W包括W下特征中的一个或者多个特征。例如,第一安全处理环境可 W包括第一虚拟机,并且一个或者多个第二安全处理环境可W包括第二虚拟机。第一虚拟 机和一个或者多个第二虚拟机可W是硬件虚拟机。在一个或者多个第二安全处理环境中执 行与延缓的组合并行操作相关联的非置信函数可W包括:从第二安全处理环境W外向第二 安全处理环境中传达输入批处理记录,输入批处理记录包括多个个别输入记录;对输入批 处理中的个别记录中的每个记录执行与延缓的组合并行操作相关联的非置信函数中的至 少一个非置信函数W生成输出记录;将输出记录汇集成输出批处理;并且在第二安全处理 环境W外传达输出批处理。 可朗尋非置信应用的输出发送到向数据中屯、发送非置信应用的客户端系统。在第 一安全处理环境W外传达代表数据流图形的信息可W包括向在第一安全处理环境W外的 执行图形服务传达代表数据流图形的信息。 延缓的组合并行数据操作可W包括至少一个广义映射精简操作。广义映射精简操 作可W包括多个并行映射操作和多个并行精简操作并且可转译成单个映射精简操作,单个 映射精简操作包括用于实施多个并行映射操作的单个映射函数和用于实施多个并行精简 操作的单个精简函数。单个映射函数和单个精简函数可W包括非置信函数中的一个或者多 个非置信函数。 执行延缓的组合并行操作可W包括将组合映射精简操作转译成单个映射精简操 作。在一个或者多个第二安全处理环境中执行与延缓的组合并行操作相关联的非置信函数 可W包括在一个或者多个第二安全处理环境中执行单个映射函数和单个精简函数。 在安全处理环境中执行非置信应用可W包括在第一安全处理环境中的虚拟机内 执行非置信应用。在一个或者多个安全处理环境中执行与延缓的组合并行操作相关联的非 置信函数可W包括在一个或者多个第二安全处理环境内的虚拟机中执行与延缓的组合并 行操作相关联的非置信函数。 在第一安全处理环境W外传达代表数据流图形的信息可W包括使用远程过程调 用在第一安全处理环境W外传达代表数据流图形的信息。可W审核远程过程调用。 在另一方面中,一种系统包括:一个或者多个处理模块,配置成提供本机处理环境 并且实施在本机处理环境中的第一安全处理环境、位于第一安全处理环境W外并且在本机 处理环境中的服务W及在本机处理环境中的一个或者多个第二安全处理环境。 第一安全处理环境被配置成执行包括数据并行流水线的非置信应用。数据并行流 水线指定包含多个元素的多个并行数据对象和与对元素操作的非置信函数相关联的多个 并行操作。执行应用生成与数据并行流水线对应的延缓的并行数据对象和延缓的并行操作 的数据流图形。第一安全处理环境也被配置成在第一安全处理环境W外传达代表数据流图 形的信息 服务被配置成:从第一安全处理环境接收代表数据流图形的信息;将一个或者多 个图形变换应用于代表数据流图形的信息W生成修正的数据流图形,修正的数据流图形包 括与非置信函数中的一个或者多个非置信函数相关联的、延缓的并行数据对象和延缓的组 合并行数据操作中的一个或者多个延缓的并行数据对象和延缓的组合并行数据操作;并且 引起执行延缓的组合并行操作W产生与延缓的并行数据对象对应的具体化的并行数据对 象。 一个或者多个第二安全处理环境被配置成执行与延缓的组合并行操作相关联的 非置信函数W造成执行延缓的组合并行操作。 实现方式可W包括W下特征中的一个或者多个特征。例如,第一安全处理环境可 W包括第一虚拟机,并且一个或者多个第二安全处理环境可W包括第二虚拟机。第一虚拟 机和一个或者多个第二虚拟机可W是硬件虚拟机。 一个或者多个处理设备可W被配置成实施工作器,工作器被配置成从第二安全处 理环境W外向第二安全处理环境中传达输入批处理记录。输入批处理记录可W包括多个个 别输入记录。为了执行与延缓的组合并行操作相关联的非置信函数,一个或者多个第二安 全处理环境可w被配置成:对输入批处理中的个别记录中的每个记录执行与延缓的组合并 行操作相关联的非置信函数中的至少一个非置信函数W生成输出记录;将输出记录汇集成 输出批处理;并且向工作器传达输出批处理。 该系统可W包括配置成接收非置信应用的输出的客户端系统。延缓的组合并行数 据操作可W包括至少一个广义映射精简操作。广义映射精简操作可W包括多个并行映射操 作和多个并行精简操作并且可转译成单个映射精简操作,单个映射精简操作包括用于实施 多个并行映射操作的单个映射函数和用于实施多个并行精简操作的单个精简函数。单个映 射函数和单个精简函数可W包括非置信函数中的一个或者多个非置信函数。 服务可W被配置成将组合映射精简操作转译成单个映射精简操作。一个或者多个 第二安全处理环境可W被配置成在一个或者多个第二安全处理环境中执行单个映射函数 和单个精简函数。 第一安全处理环境可W被配置成在第一安全处理环境中的虚拟机内执行非置信 应用。一个或者多个第二安全处理环境内可W被配置成在一个或者多个第二安全处理环境 内的虚拟机中执行与延缓的组合并行操作相关联的非置信函数。 在另一方面中,访问代表延缓的并行数据对象和延缓的并行操作的数据流图形的 信息。延缓的并行数据对象和延缓的并行操作对应于由非置信应用中包括的数据并行流水 线指定的并行数据对象和并行操作。并行数据对象包含多个元素,并且并行操作与对元素 操作的非置信函数相关联。将一个或者多个图形变换应用于代表数据流图形的信息W生成 修正的数据流图形,修正的数据流图形包括与本文档来自技高网...
【技术保护点】
一种由一个或者多个处理器执行的计算机实施的方法,所述方法包括:在非置信处理环境中分析包括数据并行流水线的非置信应用以产生用于所述非置信应用的数据流图形;在与所述非置信处理环境相关联的置信处理环境中接收用于所述非置信应用的所述数据流图形;在所述置信处理环境中将所述数据流图形变换成用于所述非置信应用的修正的数据流图形,所述修正的数据流图形包括一个或者多个延缓的数据对象和各自与由所述非置信应用调用的一个或者多个非置信函数对应的一个或者多个延缓的并行操作;以及在一个或者多个非置信工作器环境中执行与所述延缓的并行操作对应的所述非置信函数以产生与所述延缓的数据对象对应的具体化的并行数据对象,每个非置信工作器环境与置信工作器环境相关联。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:C·D·查姆伯斯,A·拉尼瓦拉,F·J·皮里,R·R·亨利,J·蒂加尼,S·R·阿达姆斯,R·布拉德肖,N·韦曾鲍姆,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。