【技术实现步骤摘要】
用于分布式并行深度学习的高效片间互连拓扑结构
技术介绍
目前的神经网络分布式训练方法包括,在多个分布式计算节点上应用同步大-小批量随机梯度下降(“SDG”)方法来尝试数据并行加速。在这种方法中,计算节点间的通信模式是所谓的“AllReduce”算法。用于实现所述AllReduce算法的传统硬件互连结构是基于圆环拓扑结构,所述圆环拓扑结构存在许多重要问题,包括长连接线的延迟和无法分割计算节点来分配多个计算任务。
技术实现思路
本公开的实施例提供了一种系统,包括第一组计算节点和第二组计算节点,其中,所述第一组计算节点和第二组计算节点是相邻设备,并且所述第一组计算节点和所述第二组计算节点分别包括:一组计算节点A-D,和一组组组内互连结构;所述组内互连结构将所述计算节点A与所述计算节点B和所述计算节点C通讯耦合,所述计算节点D与所述计算节点B和C通讯耦合;所述系统还包括一组组间互连结构,所述组间互连结构将所述第一组计算节点的计算节点A与所述第二组计算节点的计算节点A通讯耦合,将所述第一组计算节点的计算节点B与所述第二组计算节点的计算节点B通讯耦合,将所述第一组计算节点的计算节点C与所述第二组计算节点的计算节点C通讯耦合,并将所述第一组计算节点的计算节点D与所述第二组计算节点的计算节点D通讯耦合。本专利技术的实施例还提供了一种在多组计算节点之间分配计算任务的方法,多组计算节点中的每一组包括一组计算节点A-D和一组组内互连结构,所述组内互连结构将计算节点A与计算节点B和C通讯耦合,以及将计算节点D与计算节点B和C通讯耦合,所述方法 ...
【技术保护点】
1.一种系统,其特征在于,包括:/n第一组计算节点和第二组计算节点,所述第一组计算节点和所述第二组计算节点是相邻设备,并且所述第一组计算节点和所述第二组计算节点分别包括:/n一组计算节点A-D,和/n一组组内互连结构,所述组内互连结构将所述计算节点A与所述计算节点B和所述计算节点C通讯耦合,并将所述计算节点D与所述计算节点B和所述计算节点C通讯耦合;/n所述系统还包括一组组间互连结构,所述组间互连结构将所述第一组计算节点的计算节点A与所述第二组计算节点的计算节点A通讯耦合,将所述第一组计算节点的计算节点B与所述第二组计算节点的计算节点B通讯耦合,将所述第一组计算节点的计算节点C与所述第二组计算节点的计算节点C通讯耦合,并将所述第一组计算节点的计算节点D与所述第二组计算节点的计算节点D通讯耦合。/n
【技术特征摘要】
20200130 US 16/777,6831.一种系统,其特征在于,包括:
第一组计算节点和第二组计算节点,所述第一组计算节点和所述第二组计算节点是相邻设备,并且所述第一组计算节点和所述第二组计算节点分别包括:
一组计算节点A-D,和
一组组内互连结构,所述组内互连结构将所述计算节点A与所述计算节点B和所述计算节点C通讯耦合,并将所述计算节点D与所述计算节点B和所述计算节点C通讯耦合;
所述系统还包括一组组间互连结构,所述组间互连结构将所述第一组计算节点的计算节点A与所述第二组计算节点的计算节点A通讯耦合,将所述第一组计算节点的计算节点B与所述第二组计算节点的计算节点B通讯耦合,将所述第一组计算节点的计算节点C与所述第二组计算节点的计算节点C通讯耦合,并将所述第一组计算节点的计算节点D与所述第二组计算节点的计算节点D通讯耦合。
2.根据权利要求1所述的系统,其特征在于,所述组内互连结构与所述组间互连结构包括片间互连结构。
3.根据权利要求1所述的系统,其特征在于,还包括:
第三组计算节点,所述第三组计算节点与所述第二组计算节点相邻接,所述第三组计算节点包括:
一组计算节点A-D,和
一组组内互连结构,所述组内互连结构将所述计算节点A与所述计算节点B和所述计算节点C通讯耦合,将所述计算节点D与所述计算节点B和所述计算节点C通讯耦合;
所述系统还包括第二组组间互连结构,所述第二组组间互连结构将所述第三组计算节点的计算节点A与所述第二组计算节点的计算节点A通讯耦合,将所述第三组计算节点的计算节点B与所述第二组计算节点的计算节点B通讯耦合,将所述第三组计算节点的计算节点C与所述第二组计算节点的计算节点C通讯耦合,并将所述第三组计算节点的计算节点D与所述第二组计算节点的计算节点D通讯耦合。
4.根据权利要求1所述的系统,其特征在于,所述组内互连结构与所述第一组组间互连结构形成一个环形连接,该环形连接将所述第一组计算节点的计算节点A与所述第一组计算节点的计算节点B通讯耦合,将所述第一组计算节点的计算节点B与所述第二组计算节点的计算节点B通讯耦合,将所述第二组计算节点的计算节点B与所述第二组计算节点的计算节点A通讯耦合,并将所述第二组计算节点的计算节点A与所述第一组计算节点的计算节点A通讯耦合。
5.根据权利要求3所述的系统,其特征在于,
所述组内互连结构与所述第一组组间互联结构和所述第二组组间互连结构形成环形连接,所述环形连接将所述第一组计算节点的计算节点A与所述第一组计算节点的计算节点B通讯耦合,将所述第一组计算节点的计算节点B与所述第二组计算节点的计算节点B通信耦合,将所述第二组计算节点的计算节点B与所述第三组计算节点的计算节点B通讯耦合,将所述第三组计算节点的计算节点B与所述第三组计算节点的计算节点A通讯耦合,将所述第三组计算节点的计算节点A与所述第二组计算节点的计算节点A通讯耦合,以及将所述第二组计算节点的计算节点A与所述第一组计算节点的计算节点A通讯耦合。
6.根据权利要求1所述的系统,其特征在于,还包括:
多组计算节点,包括所述第一组计算节点和所述第二组计算节点,其中
所述多组计算节点被分组成多个子部分,其中至少一个子部分包括环形连接,所述环形连接包括一行或一列计算节点。
7.根据权利要求1所述的系统,其特征在于,所述的计算节点是处理器。
8.根据权利要求7所述的系统,所述计算节点是人工智能训练处理器、AI训练芯片、神经处理单元,或图形处理单元。
9.根据权利要求1所述的系统,其特征在于,所述组内互连结构或所述组间互连结构的所述片间互连结构是双向的。
10.根据权利要求9所述的系统,所述片间互连结构是铜电缆。
11.根据权利要求1所述的系统,其特征在于,所述第一组计算节点和第二组计算节点分别为板卡,每个板卡还包括:
一个主处理器;和
硬件桥,所述硬件桥连接所述板卡上的计算节点A-D与所述主处理器。
12.一种在多组计算节点之间分配计算任务的方法,其特征在于:所述多组计算节点中的每一组计算节点包括一组计算节点A-D和一组组组内互连结构,所述组内互连结构将计算节点A与计算节点B和计算节点C通讯耦合,将计算节点D与计算节点B和计算节点C通讯耦合,所述方法包括:
获取所述计算任务;
确定所述计算任务的硬件负荷;以及
根据所述硬件负荷,将所述计算任务分配给所述多组计算节点中的第一组计算节点和第二组计算节点,其中,执行所述计...
【专利技术属性】
技术研发人员:韩亮,焦阳,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。