分布式系统中的多模型训练管道技术方案

技术编号：30281608 阅读：25 留言：0更新日期：2021-10-09 21:50

分布式系统的第一工作者节点使用第一神经网络模型以及与该第一神经网络模型相关联的第一组权重而计算第一组梯度。该第一组梯度从该第一工作者节点传输到该分布式系统的第二工作者节点。该第二工作者节点基于该第一组梯度而计算第一组经同步的梯度。在计算该第一组经同步的梯度的同时，该第一工作者节点使用第二神经网络模型以及与该第二神经网络模型相关联的第二组权重而计算第二组梯度。该第二组梯度从该第一工作者节点传输到该第二工作者节点。该第二工作者节点基于该第二组梯度而计算第二组经同步的梯度。计算第二组经同步的梯度。计算第二组经同步的梯度。

全部详细技术资料下载

【技术实现步骤摘要】
分布式系统中的多模型训练管道

技术介绍

[0001]常被简称为神经网络的人工神经网络是具有基于生物神经网络的体系结构的计算系统。可以使用训练数据来训练神经网络以学习如何进行某些任务，诸如，从图像或视频中辨别物理对象、活动、角色等或将其分类。神经网络可以包含处理节点的多个层。层中的每个处理节点可以对前一层中的处理节点生成的输入数据进行计算，以生成输出数据。例如，处理节点可以进行一组算术运算诸如乘法和加法，以生成中间输出，或者对中间输出进行后处理操作以生成最终输出。神经网络可以包含数千个或更多的处理节点和数百万个或更多的参数。
[0002]神经网络的体系结构可以包含输入层、输出层和许多中间层(常被称为隐藏层)。每一层对前一层的输出执行一次计算，其中最后一层(输出层)提供最终结果。通过较多层，神经网络理论上可以进行较复杂的任务，诸如语言翻译和辨别图像的内容(或将其分类)。具有三个以上隐藏层的神经网络有时被称为深度神经网络。深度神经网络可以具有许多隐藏层，诸如，五层到一千以上层。
[0003]可以使用中央处理单元(CPU)进行计算来实现神经网络。然而，CPU倾向于为依序计算而不是为并行计算而优化，并且因此可能有较差的响应时间。图形处理单元(GPU)为并行计算而优化，但未必为来自一个计算单元的、将直接提供到另一计算单元的结果而优化。通常，首先必须将结果写入到存储器，并且接着读回。虽然GPU相比CPU可以有较好的响应时间，但是仍然需要改进神经网络的执行时间。最近，已开发出专用集成电路装置，诸如神经网络处理器或加速器，可比CPU或GPU较有...

【技术保护点】

【技术特征摘要】
1.一种用于同时训练神经网络模型的分布式系统，该分布式系统包括：第一工作者节点，被配置成：接收第一神经网络模型、与该第一神经网络模型相关联的第一组权重、第二神经网络模型以及与该第二神经网络模型相关联的第二组权重，其中该第二神经网络模型不同于该第一神经网络模型；使用该第一神经网络模型和该第一组权重来计算第一组梯度；随着该第一组梯度中的每一个被计算并且变得可用于传输，通过网络将该第一组梯度传输到该第二工作者节点；此后，使用该第二神经网络模型和该第二组权重来计算第二组梯度；并且随着该第二组梯度中的每一个被计算并且变得可用于传输，通过该网络将该第二组梯度传输到该第二工作者节点；第二工作者节点，被配置成：通过该网络从该第一工作者节点接收该第一组梯度；随着接收该一组梯度中的每一个，基于该第一组梯度和第一组其它接收到的梯度而计算第一组经同步的梯度，其中该第一组经同步的梯度的至少一部分和该第二组梯度的至少一部分是同时计算的；通过该网络将该第一组经同步的梯度传输到该第一工作者节点；通过该网络从该第一工作者节点接收该第二组梯度；随着接收该二组梯度中的每一个，基于该第二组梯度和第二组其它接收到的梯度而计算第二组经同步的梯度；并且通过该网络将该第二组经同步的梯度传输到该第一工作者节点。2.根据权利要求1所述的分布式系统，其中该第一工作者节点被进一步配置成：接收包括训练输入数据和参考输出数据的训练数据，其中该第一组梯度是基于该训练数据而计算的。3.根据权利要求2所述的分布式系统，其中该第二组梯度是基于该训练数据而计算的。4.根据权利要求1所述的分布式系统，其中该第一组梯度包含该第一神经网络模型的第一层的梯度和该第一神经网络模型的第二层的梯度，其中该第二层的梯度是在该第一层的梯度之前计算的。5.一种方法，包括：在分布式系统的第一工作者节点处，使用第一神经网络模型以及与该第一神经网络模型相关联的第一组权重而计算第一组梯度；将该第一组梯度从该第一工作者节点传输到该分布式系统的第二工作者节点，该第二工作者节点被配置成基于该第一组梯度而计算第一组经同步的梯度；在计算该第一组经同步的梯度的同时，在该第一工作者节点处，使用第二神经网络模型以及与该第二神经网络模型相关联的第二组权重而计算第二组梯度；以及将该第二组梯度从该第一工作者节点传输到该第二工作者节点，该第二工作者节点被配置成基于该第二组梯度而计算第二组经同步的梯度。6.根据权利要求5所述的方法，进一步包括：从该第二工作者节点接收该第一组经同步的梯度；以及
使用该第一组经同步的梯度而调整该第一组权重。7.根据权利要求6所述的方法，其中该第一组权重的至少一部分是在该第二组经同步的梯度的至少一部分得...

【专利技术属性】
技术研发人员：P，
申请(专利权)人：亚马逊技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人