【技术实现步骤摘要】
用于数据处理的分布式计算系统和方法以及存储介质
[0001]本申请要求于2020年7月9日提交的美国临时申请第63/049,920号的权益,其全部内容通过引用并入本文。
[0002]本公开涉及一种计算系统,并且具体地,涉及在计算系统内的分布式处理。
技术介绍
[0003]在计算设备上执行的节点可以相互连接以形成网络化的分布式计算系统来交换数据和共享资源。在一些示例中,在计算设备上执行的多个节点相互连接以共同执行一个或多个应用程序以执行作业。节点可以包括裸金属服务器、虚拟机、容器、进程和/或具有用于分布式计算系统的数据处理能力的其他执行元件。每个节点可以单独地为分布式计算系统执行各种操作,诸如收集、处理和导出数据,并且节点可以彼此通信以分发处理的数据。
技术实现思路
[0004]通常,本公开描述了用于在分布式计算系统中应用分布式流水线(pipeline)模型以使分布式计算系统的处理节点根据具有在流水线语句内指定的执行拓扑的分布式流水线来处理数据以执行任务的技术。例如,计算设备可以接收用于任务的流水线语句。流水线语句包括多个阶段语句,每个阶段语句描述要执行一个或多个操作的集合的对应的阶段。一个或多个阶段语句还为对应的阶段指定拓扑信息。例如,阶段语句可以指定对应的阶段包括要由分布式计算系统的指定的一个或多个处理节点执行的子流水线。阶段语句可以指定被指定的一个或多个处理节点执行子流水线的一个或多个操作。在一些情况下,阶段语句还指定下一阶段,该阶段将接收用于阶段语句的对应的阶段的输出。在一些情况下,流水 ...
【技术保护点】
【技术特征摘要】
1.一种用于数据处理的分布式计算系统,包括:多个计算设备,被配置为获得流水线语句,所述流水线语句包括第一阶段语句,所述第一阶段语句限定第一阶段以包括第一子流水线并且将第二阶段指定为所述第一子流水线的结果数据的接收方,所述流水线语句还包括第二阶段语句,所述第二阶段语句限定所述第二阶段以包括第二子流水线,其中,所述多个计算设备包括第一处理节点,所述第一处理节点被配置为至少基于通过处理所述流水线语句生成的第一流水线设置规范,配置所述第一处理节点中的所述第一子流水线,以将所述第一处理节点中的所述第一子流水线的结果数据发送到第二处理节点,以及其中,所述多个计算设备包括所述第二处理节点,所述第二处理节点被配置为至少基于通过处理所述流水线语句生成的第二流水线设置规范,配置所述第二处理节点中的所述第二子流水线,并将所述第一处理节点中的所述第一子流水线的结果数据输入到所述第二处理节点中的所述第二子流水线。2.根据权利要求1所述的分布式计算系统,其中,所述第一子流水线包括一个或多个第一操作,以及其中,所述第二子流水线包括一个或多个第二操作。3.根据权利要求1所述的分布式计算系统,还包括:编译器计算设备,被配置为处理所述流水线语句以生成所述第一流水线设置规范和所述第二流水线设置规范。4.根据权利要求3所述的分布式计算系统,其中,所述编译器计算设备包括所述第二处理节点。5.根据权利要求1所述的分布式计算系统,其中,所述流水线语句包括人类可读的文本。6.根据权利要求1
‑
5中任一项所述的分布式计算系统,其中,所述第二阶段语句包括用于所述第二阶段的阶段标识符,以及其中,为了将第二阶段指定为所述第一子流水线的结果数据的接收方,所述第一阶段语句包括作为所述第一子流水线的操作的所述第二阶段的所述阶段标识符,以及其中,所述分布式计算系统被配置为基于在所述第一阶段语句中包括的所述第二阶段的所述阶段标识符,生成所述第一流水线设置规范,以配置所述第一处理节点中的所述第一子流水线,以将所述第一处理节点中的所述第一子流水线的结果数据发送到所述第二处理节点。7.根据权利要求1、2或5中任一项所述的分布式计算系统,其中,所述多个计算设备包括编译器计算设备,所述编译器计算设备被配置为获得所述流水线语句并处理所述流水线语句以生成所述第一流水线设置规范和所述第二流水线设置规范。8.根据权利要求7所述的分布式计算系统,其中,所述编译器计算设备包括所述第二处理节点。9.根据权利要求1
‑
5中任一项所述的分布式计算系统,其中,所述第一子流水线包括一个或多个第一操作,以及
其中,为了配置所述第一子流水线,所述第一处理节点被配置为实例化用于所述一个或多个第一操作的相应的运算符,并且使用输入/输出信道绑定至少一对所述运算符。10.根据权利要求1
‑
5中任一项所述的分布式计算系统,其中,所述第一子流水线包括一个或多个第一操作,其中,为了配置所述第一子流水线,所述第一处理节点被配置为实例化用于所述一个或多个第一操作的相应的运算符,以及其中,所述运算符的最终运算符包括发送运算符,用于经由通信信道将所述第一子流水线的结果数据发送到所述第二处理节点。11.根据权利要求1
‑
5中任一项所述的分布式计算系统,还包括:第三处理节点,被配置为至少基于从所述流水线语句生成的第三流水线设置规范,配置所述第三处理节点中的所述第一子流水线,以将所述第三处理节点中的所述第一子流水线的结果数据发送到所述第二处理节点。12.根据权利要求1
‑
5中任一项所述的分布式计算系统,其中,所述第二处理节点被配置为至少基于从所述流水线语句生成的所述第二流水线设置规范,配置所述第二处理节点中的所述第一子流水线,以将所述第二处理节点中的所述第一子流水线的结果数据...
【专利技术属性】
技术研发人员:雷蒙德,
申请(专利权)人:威讯柏睿数据科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。