数据流深度神经网络硬件加速器的性能缩放制造技术

技术编号：39722023 阅读：8 留言：0更新日期：2023-12-17 23:27

本公开的实施例针对的是增强硬件

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】数据流深度神经网络硬件加速器的性能缩放
[0001]相关申请
[0002]本申请要求
2021
年4月
30
日提交的美国申请
17/246,341
号的优先权，在此通过引用将该美国申请的内容全部并入
。

[0003]本公开概括而言涉及硬件
(HW)
加速器的领域，更具体而言，涉及用于以下功能的技术和配置：缩放
HW
加速器的每瓦性能和每面积性能，并且基于数据中的激活和权重稀疏度的水平来动态地缩放活跃乘法与累加
(multiply
‑
and
‑
accumulate
，
MAC)
的数目，以提高
HW
加速器中的资源效率
。

技术介绍

[0004]机器学习
(Machine learning
，
ML)
体系结构通常基于人工神经网络
(artificial neural network
，
ANN)
，其灵感来自生物大脑中的信号处理
。ANN
已经并且将继续被采用作为广泛的
中的基础技术解决方案，例如计算机视觉
、
面部识别
、
话音识别
、
导航
、
市场研究
、
机器人，等等
。
因此，
ANN
的领域已经并且将继续快速增长，无...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种加速器集成电路
(AIC)
，包括：存储器电路；以及与所述存储器电路耦合的处理器电路，所述处理器电路包括处理元件
(PE)
的阵列，其中，所述
PE
的阵列的每个
PE
包括：相应的多个乘法与累加单元
(MAC)、
和被分割成多个寄存器堆
(RF)
实例的相应
RF。2.
如权利要求1所述的
AIC
，其中，相应的多个
RF
实例中的每个
RF
实例具有其自己的读取和写入端口
。3.
如权利要求1‑2所述的
AIC
，其中，相应的多个
RF
实例中的
RF
实例的数目等于相应的多个
MAC
中的
MAC
的数目
。4.
如权利要求3所述的
AIC
，其中，所述处理器电路还包括一组列缓冲器，其中，所述一组列缓冲器中的每个列缓冲器与所述
PE
阵列中的
PE
列相关联，并且每个列缓冲器包括与
RF
实例的数目相等数目的条目
。5.
如权利要求4所述的
AIC
，其中，所述处理器电路被布置为：实现时间
‑
空间复用方案，以在加载路径上递送数个数据单元到多个
PE
中的每个
PE
，其中，数据单元的数目等于每个列缓冲器的条目的数目
。6.
如权利要求1‑5所述的
AIC
，其中，相应的多个
RF
实例的每个
RF
包括各自的输入特征图谱
(IF)
和各自的滤波器
(FL)
，其中，各个
IF
和各个
FL
将被馈送到相应的多个
MAC
中的相应
MAC
中，并且所述相应
MAC
基于
IF
和
FL
生成各自的输出特征图谱
(OF)。7.
如权利要求6所述的
AIC
，其中，所述相应的多个
MAC
中的每个
MAC
被配置为在各个
IF
和各个
FL
上操作，以生成各个
OF
中的各个部分和
(pSum)
，其中，每个
MAC
用于与所述相应的多个
MAC
中的每个其他
MAC
独立且同时地操作
。8.
如权利要求7所述的
AIC
，其中，每个
PE
还包括加法器树，该加法器树被配置为从各个
OF
获得各个
pSum
并且生成单个
OF
点
。9.
如权利要求6‑8所述的
AIC
，其中，所述相应的多个
MAC
中的每个
MAC
被配置为同时在以下各项上操作：驻留在各个
IF
子库组中的各个
IF
的
IF
点，以及属于驻留在多个
FL
子库组中的多个不同
OC
的
FL
点
。10.
如权利要求9所述的
AIC
，其中，所述相应的多个
MAC
中的每个
MAC
被配置为并行地在驻留在每个
MAC
内的相应
OC
上操作，并且按预定义的次数重复在各个
IF
上的操作
。11.
如权利要求6‑
10
所述的
AIC
，其中，所述存储器电路被布置为存储数据稀疏度水平估计器
(DSLE)
的程序代码，并且所述处理器电路被布置为操作所述
DSLE
以：接收各个
IF
和各个
FL
的稀疏度信息；基于所述稀疏度信息确定平均组合稀疏度值；并且激活或停用多个
PE
中的每个
PE
内的相应的多个
MAC
中的一个或多个
MAC。12.
如权利要求1‑
11
所述的
AIC
，其中，所述处理器电路被布置为对被输入到所述
PE
的阵列的输入数据执行零值压缩
(ZVC)。13.
如权利要求1‑
12
所述的
AIC
，其中，所述
AIC
被配置为执行如权利要求
14
‑
37
中的任何一项或多项所述的方法
。14.
一种操作加速器集成电路
(AIC)
的方法，该方法包括：
定义处理元件
(PE)
的阵列；并且定义所述
PE
的阵列的每个
PE
以包括相应的多个乘法与累加单元
(MAC)
和被分割成多个寄存器堆
(RF)
实例的相应
RF。15.
如权利要求
14
所述的方法，其中，相应的多个
RF
实例中的每个
RF
实例具有其自己的读取和写入端口
。16.
如权利要求
14
‑
15
所述的方法，其中，相应的多个
RF
实例中的
RF
实例的数目等于相应的多个
MAC
中的
MAC
的数目
。17.
如权利要求
16
所述的方法，其中，所述
AIC
包括一组列缓冲器，其中，所述一组列缓冲器中的每个列缓冲器与所述
PE
阵列中的
PE
列相关联，并且每个列缓冲器包括与
RF
实例的数目相等数目的条目
。18.
如权利要求
17
所述的方法，还包括：实现时间
‑
空间复用方案，以在加载路径上递送数个数据单元到多个
PE
中的每个
PE
，其中，数据单元的数目等于每个列缓冲器的条目的数目
。19.
如权利要求
14
‑
18
所述的方法，其中，相应的多个
RF
实例的每个
RF
包括各自的输入特征图谱
(IF)
和各自的滤波器
(FL)
，并且所述方法包括：将各个
IF
和各个
FL
馈送到相应的多个
MAC
中的相应
MAC
中；并且使得所述相应
MAC
基于各个
IF
和各个
FL
生成各自的输出特征图谱
(OF)。20.
如权利要求
14
‑
19
所述的方法，其中，相应的多个
RF
实例的每个
RF
包括各自的输入特征图谱
(IF)
和各自的滤波器
(FL)
，其中，各个
IF
和各个
FL
被馈送到相应的多个
MAC
中的相应
MAC
中，并且所述相应
MAC
基于
IF
和
FL
生成各自的输出特征图谱
(OF)。21.
如权利要求
19
‑
20
所述的方法，还包括：使得所述相应的多个
MAC
中的每个
MAC
与所述相应的多个
MAC
中的每个其他
MAC
独立且同时地在属于同一
OF
的各个
IF
和各个
FL
上操作，以生成各个
OF
中的各个部分和
(pSum)。22.
如权利要求
19
‑
21
所述的方法，其中，所述相应的多个
MAC
中的每个
MAC
被配置为在各个
IF
和各个
FL
上操作，以生成各个
OF
中的各个部分和
(pSum)
，其中，每个
MAC
与所述相应的多个
MAC
中的每个其他
MAC
独立且同时地操作
。23.
如权利要求
21
‑
22
所述的方法，其中，每个
PE
还包括加法器树，并且所述方法包括：操作所述加法器树，以从各个
OF
获得各个
pSum
并且生成单个
OF
点
。24.
如权利要求
19
‑
20
所述的方法，还包括：使得所述相应的多个
MAC
中的每个
...

【专利技术属性】
技术研发人员：阿纳布，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人