用于神经网络处理的共享存储器的集中式-分布式混合组织制造技术

技术编号：25531878 阅读：27 留言：0更新日期：2020-09-04 17:19

本公开提供了一种处理器，所述处理器提供具有M数量处理元件的存储器架构，每个处理元件具有至少N数量处理单元、以及本地存储器。所述处理器包括：所述M数量处理元件中的第一处理元件，包括被配置为执行计算操作的第一组N数量处理单元、以及被配置为存储被所述N数量处理单元利用的数据的第一本地存储器。所述处理器还包括数据集线器，所述数据集线器被配置为从所述M数量处理元件接收数据，并向所述M数量处理元件中的每个处理元件提供共享数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于神经网络处理的共享存储器的集中式-分布式混合组织相关申请的交叉引用本申请基于2017年12月22日提交的美国临时申请No.62/610,098和2018年11月27日提交的美国专利申请No.16/201,904并要求其优先权，上述申请的全部内容通过引用合并于此。
技术介绍
深度神经网络算法涉及大量矩阵计算，这通常会导致涉及非常宽的单指令多数据(SIMD)处理单元和大型片上存储的硬件架构。由于深度学习的性质，不同的SIMD通道需要不时交换数据。存在许多提供跨通道数据处理和计算的存储器架构，但是这些架构由于若干原因而存在缺陷，原因例如为存储器访问延迟、存储体(bank)冲突问题、性能问题等不可接受的增加。
技术实现思路
本公开提供了一种处理器，所述处理器提供存储器架构，所述存储器架构提供具有M数量处理元件的存储器架构，每个处理元件具有至少N数量处理单元、以及本地存储器。所述处理器包括：所述M数量处理元件中的第一处理元件，所述第一处理元件包括：被配置为执行计算操作的第一组N数量处理单元，以及被配置为存储被所述N数量处理单元利用的数据的第一本地存储器。所述处理器还包括数据集线器，所述数据集线器被配置为从所述M数量处理元件接收数据，并且将共享数据提供到所述M数量处理元件中的每个处理元件。本公开提供了一种由集中式数据集线器执行的方法，所述集中式数据集线器能够与M数量处理元件通信，每个处理元件具有至少N数量处理单元、以及本地存储器。所述方法包括：从所述M数量处理元件中的处理元件获取数据；确定获取的数据的分发模式；...

【技术保护点】
1.一种处理器，所述处理器包括：/n存储器架构，所述存储器架构具有M数量处理元件，每个处理元件具有至少N数量处理单元、以及本地存储器，其中，M、N包括大于1的整数，并且所述存储器架构包括：/n所述M数量处理元件中的第一处理元件，所述第一处理元件包括：/n被配置为执行计算操作的第一组N数量处理单元，以及/n被配置为存储能够被所述N数量处理单元利用的数据的第一本地存储器；以及/n数据集线器，所述数据集线器能够从所述M数量处理元件接收数据，并且能够将共享数据从所述M数量处理元件中的一个提供到所述M数量处理元件中的其他处理元件。/n

【技术特征摘要】
【国外来华专利技术】20171222 US 62/610,098;20181127 US 16/201,9041.一种处理器，所述处理器包括：
存储器架构，所述存储器架构具有M数量处理元件，每个处理元件具有至少N数量处理单元、以及本地存储器，其中，M、N包括大于1的整数，并且所述存储器架构包括：
所述M数量处理元件中的第一处理元件，所述第一处理元件包括：
被配置为执行计算操作的第一组N数量处理单元，以及
被配置为存储能够被所述N数量处理单元利用的数据的第一本地存储器；以及
数据集线器，所述数据集线器能够从所述M数量处理元件接收数据，并且能够将共享数据从所述M数量处理元件中的一个提供到所述M数量处理元件中的其他处理元件。

2.根据权利要求1所述的处理器，其中，所述第一处理元件包括：
第一多路复用器，所述第一多路复用器被配置为从所述数据集线器接收共享数据并将所述共享数据提供到所述第一本地存储器。

3.根据权利要求1和2中任一项所述的处理器，其中，所述数据集线器被配置为将所述共享数据提供到第二多路复用器，所述第二多路复用器被配置为将所述共享数据提供到所述第一组N数量处理单元中的一个或多个。

4.根据权利要求1至3中任一项所述的处理器，其中，所述第一本地存储器包括：
多个本地存储器存储块，包括：第一组一个或多个存储块，被配置为存储将由所述第一组N数量处理单元中的至少一个利用的私有数据；以及第二组一个或多个存储块，被配置为存储从所述数据集线器接收的共享数据。

5.根据权利要求4所述的处理器，其中，所述第一本地存储器具有全写端口、全读端口、窄写端口和窄读端口，其中，所述第一组一个或多个存储块被配置为经由所述全写端口获取私有数据并经由所述全读端口发送私有数据，并且所述第二组一个或多个存储块被配置为经由所述窄写端口获取共享数据并经由所述窄读端口发送共享数据。

6.根据权利要求5所述的处理器，其中，所述数据集线器被配置为经由所述窄读端口从所述第一本地存储器接收共享数据。

7.根据权利要求5所述的处理器，其中，所述数据集线器被配置为经由所述全写端口将共享数据发送到所述第一组一个或多个存储块。

8.根据权利要求5所述的处理器，其中，所述数据集线器被配置为经由所述窄写端口将共享数据发送到所述第二组一个或多个存储块。

9.根据权利要求1至8中任一项所述的处理器，其中，所述N数量与所述M数量相同。

10.根据权利要求1至...

【专利技术属性】
技术研发人员：韩亮，蒋晓维，陈健，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人