用于芯片间通信的处理单元、处理系统及方法技术方案

技术编号：37890698 阅读：25 留言：0更新日期：2023-06-18 11:54

本公开提供了一种用于芯片间通信的处理单元、处理系统及方法。该处理单元包括：多个处理核；多个存储器，与处理核耦合；多个互连，被配置为将处理单元通信耦合到包括第二处理单元的多个其他处理单元，其中，多个互连包括在一端连接到处理单元的端口且在另一端连接到第二处理单元的端口的互连；以及通信控制器，通信控制器耦合到处理核，且通信控制器基于存储器访问请求中的地址，将输出的存储器访问请求映射到多个互连中的选定互连。本公开通过高带宽芯片间网络，在不使用常规网络(例如，以太网)的情况下实现系统中的神经网络处理单元之间的通信，从而避免常规网络的带宽限制和相对速度不足，从而提高芯片间通信的数据传输速率和传输带宽。和传输带宽。和传输带宽。

全部详细技术资料下载

【技术实现步骤摘要】
用于芯片间通信的处理单元、处理系统及方法

[0001]本公开涉及数据处理技术，尤其涉及用于芯片间通信的处理单元、处理系统及方法。

技术介绍

[0002]图1是说明用于加速神经网络的常规系统100的框图。通常，系统100包括多个服务器，并且每个服务器包括多个并行计算单元。在图1的示例中，系统100包括服务器101和服务器102。服务器101包括连接到外围组件互连高速(Peripheral Component Interconnect Express，PCIe)总线111的神经网络处理单元(neural network processing unit，NPU)，即NPU_0至NPU_n，且服务器102包括连接到PCIe总线112的类似的NPU阵列。每个NPU例如包括但不限于包括诸如处理核和存储器(未示出)之类的元件。如图1所示，系统100中的每个服务器包括主机中央处理单元(CPU)，且通过相应的网络接口控制器或网络接口卡(network interface card，NIC)连接到网络130。
[0003]系统100包括例如使用分区全局地址空间(partitioned global address space，PGAS)编程模型的统一的存储器寻址空间。因此，在图1的示例中，服务器101的每个NPU可以从服务器101或服务器102的任何其他NPU上的存储器读取数据或向服务器101或服务器102的任何其他NPU上的存储器写入数据，反之亦然。例如，为了将数据从服务器101的NPU_0写入NPU_n，通过PCIe总线11...

【技术保护点】

【技术特征摘要】
1.一种处理单元，所述处理单元位于第一服务器，包括：多个处理核；多个存储器，与所述处理核耦合；多个互连，被配置为将所述处理单元通信耦合到包括第二处理单元的多个其他处理单元，其中，所述多个互连包括在一端连接到所述处理单元的端口且在另一端连接到所述第二处理单元的端口的互连；以及通信控制器，所述通信控制器耦合到所述处理核，且所述通信控制器基于所述存储器访问请求中的地址，将输出的存储器访问请求映射到所述多个互连中的选定互连。2.根据权利要求1所述的处理单元，其中，所述第二处理单元位于所述第一服务器，且所述处理单元和所述第二处理单元还通过所述第一服务器上的总线彼此通信耦合。3.根据权利要求1所述的处理单元，其中，所述第二处理单元位于第二服务器，所述处理单元和所述第二处理单元还通过以下方式彼此通信耦合：位于所述第一服务器的第一总线和第一网络接口卡、位于所述第二服务器的第二总线和第二网络接口卡、以及耦合到所述第一网络接口卡和所述第二网络接口卡的网络。4.根据权利要求1所述的处理单元，还包括：交换机，耦合到所述多个互连；所述通信控制器包括：第一功能块，用于第一数据量相关联的第一类型的存储器访问请求；以及第二功能块，用于第二数据量相关联的第二类型的存储器访问请求，所述第二数据量小于所述第一数据量；其中，所述第一类型的存储器访问请求由所述多个处理核中的处理核向耦合到所述第一功能块的缓冲器发出，并且所述第二类型的存储器访问请求由所述多个处理核中的处理核经由片上网络向所述第二功能块发出。5.根据权利要求1所述的处理单元，其中，所述处理单元用于在推送模式下将数据推送到所述第二处理单元，其中，在推送模式下，所述处理单元将数据从所述处理单元上的存储器复制到所述第二处理单元上的存储器，然后在所述第二处理单元设置标志，以指示从所述处理单元推送的数据可用。6.根据权利要求1所述的处理单元，其中，在拉取模式下由所述第二处理单元从所述处理单元拉取来自所述处理单元的数据，其中，在拉取模式下，所述处理单元分配所述处理单元上的存储器，然后在所述第二处理单元设置标志，以指示所述处理单元上的存储器已分配，并且来自所述处理单元上的存储器的数据可读取。7.根据权利要求1所述的处理单元，其中，所述处理单元用于在推送模式下将数据推送到所述第二处理单元，其中，在推送模式下，将由所述处理单元正在执行的处理任务相关联的操作数存储在所述处理单元上的缓冲器中，并且将所述处理任务的结果写入所述第二处理单元上的缓冲器中；所述处理任务包括多个线程，其中选择所述多个线程中的线程且选择的线程与运行在所述第二处理单元上的线程通信，以在所述第二处理单元上设置标志，以向所述第二处理单元指示所述第二处理单元上的缓冲器以及所述处理任务相关联的所有写操作已完成。8.一种处理系统，包括：
多个节点，其中所述多个节点中的每个节点包括多个处理单元，所述多个处理单元包括第一处理单元和第二处理单元，并且所述多个处理单元中的每个处理单元包括多个端口；以及芯片间网络，耦合到所述多个节点，其中所述芯片间网络包括多个互连，所述多个互连被配置为通信耦合所述多个处理单元，并且通过所述多个互连中的互连将所述第一处理单元的所述多个端口中的端口和所述第二处理单元的多个端口中的端口连接，所述多个互连中的互连在一端连接到所述第一处理单元的端口且在另一端连接到所述第二处理单元的端口。9.根据权利要求8所述的处理系统，其中，所述第一处理单元和所述第二处理单元位于所述多个节点中的同一节点上，并且所述第一处理单元和所述第二处理单元还通过所述同一节点上的总线彼此通信耦合。10.根据权利要求8所述的处理系统，其中，所述第一处理单元位于所述多个节点中的第一节点上，所述第二处理单元位于所述多个节点中的第二节点上，且所述第一处理单元和所述第二处理单元还通过以下方式彼此通信耦合：位于所述第一节点的第一总线和第一网络接口卡、位于所述第二节点的第二总线和第二网络接口卡以及耦合到所述第一网络接口卡和所述第二网络接口卡的网络。11.根据权利要求8所述的处理系统，其中，当在推送模式下操作时，所述...

【专利技术属性】
技术研发人员：韩亮，吴政原，朱国瑜，钟嵘，焦阳，陆叶，吴炜，邹云晓，尹莉，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人