当前位置: 首页 > 专利查询>英特尔公司专利>正文

数据流深度神经网络硬件加速器的性能缩放制造技术

技术编号:39722023 阅读:8 留言:0更新日期:2023-12-17 23:27
本公开的实施例针对的是增强硬件

【技术实现步骤摘要】
【国外来华专利技术】数据流深度神经网络硬件加速器的性能缩放
[0001]相关申请
[0002]本申请要求
2021
年4月
30
日提交的美国申请
17/246,341
号的优先权,在此通过引用将该美国申请的内容全部并入



[0003]本公开概括而言涉及硬件
(HW)
加速器的领域,更具体而言,涉及用于以下功能的技术和配置:缩放
HW
加速器的每瓦性能和每面积性能,并且基于数据中的激活和权重稀疏度的水平来动态地缩放活跃乘法与累加
(multiply

and

accumulate

MAC)
的数目,以提高
HW
加速器中的资源效率


技术介绍

[0004]机器学习
(Machine learning

ML)
体系结构通常基于人工神经网络
(artificial neural network

ANN)
,其灵感来自生物大脑中的信号处理
。ANN
已经并且将继续被采用作为广泛的
中的基础技术解决方案,例如计算机视觉

面部识别

话音识别

导航

市场研究

机器人,等等

因此,
ANN
的领域已经并且将继续快速增长,无论是在推理算法的发展方面,还是在硬件平台的发展方面,以实现不断演进的推理算法
。ANN
的网络层,例如深度神经网络
(deep neural network

DNN)
和深度学习卷积神经网络
(convolutional neural network

CNN)
,有许多可能的张量形状,其维度随着现有的
ANN
推理算法的修订和
/
或新的
ANN
推理算法的开发而不断变化

此外,虽然
ANN
在许多
ML
任务上提供了最先进的精度,但它是以高计算复杂度和增大的计算资源消耗为代价的

附图说明
[0005]通过以下结合附图的详细描述,将容易理解本公开,附图中相似的标号指代相似的结构元素

在附图中以示例方式而非限制方式图示了示例实现方式

[0006]图1图示了神经网络
(NN)
示例加速器体系结构


2a

2b
图示了具有空间阵列体系结构的示例加速器

图3图示了由可配置处理器元件阵列执行的示例张量操作

图4和图5图示了具有关联的固定调度计划的示例加速器

图6描绘了灵活
DNN
加速器的示例处理元件
(PE)
微体系结构

图7描绘了示例静态
MAC
缩放
PE
阵列

图8描绘了
MAC PE
缩放的示例


9a

9b
描绘了密集模式中的示例
SuperMAC PE。

10
描绘了密集模式中的示例
HyperMAC PE。

11
描绘了示例
SuperSparseMAC
微体系结构


12
描绘了静态
MAC
缩放仿真结果


13
描绘了动态
MAC
缩放技术的示例


14
描绘了动态
MAC
缩放技术的示例可扩展性


15
描绘了示例数据稀疏度水平估计器
(DSLE)
模块


16
描绘了动态
MAC
缩放仿真结果


17
图示了示例过程


18
图示了
(
一个或多个
)
计算系统的示例组件

具体实施方式
[0007]本公开描述了边缘和云计算节点中的
HW
加速器的资源消耗效率,并且提供边缘节
点中更长的电池寿命,同时高效地运行现代
ML/AI
工作负载

具体地,本公开为
HW
加速器提供最优的每秒万亿次操作
(tera

operations per second

TOPS)、
每瓦
TOPS(TOPS/W)
和每芯片和
/
或电路板面积
TOPS(TOPS/mm2)
,以及提供更快的计算速度
(
例如,时钟速率大于
10
千兆赫兹
(GHz)

/
或皮秒的内在计算速度
)。
如下趋势越来越明显:在诸如边缘计算节点和
/
或云计算节点之类的能量受限的设备中部署越来越多的硬件
(HW)
加速器,用于各种执行机器学习
(machine learning

ML)
和人工智能
(artificial intelligence

AI)
任务
(
例如,
ML/AI
预测和
/
或推理
)。
为了这些目的,具有小尺寸和
/
或面积并且以低能量消耗提供高性能的硬件加速器配置和布置,是最重要的

[0008]下文论述了用于缩放可用在资源受限设备中的
HW
加速器的每瓦性能和每面积性能的系统和配置

这些系统和配置在本文中被称为“静态乘法与累加
(MAC)
缩放”,有时也被称为“ScaleMAC”。
静态
MAC
缩放包括用于
HW
加速器的增强型乘法与累加
(MAC)
处理元件
(processing element

PE)
微体系结构

静态
MAC
缩放微体系结构在单个
PE
中智能地构造并且向
M

MAC(
其中
M<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种加速器集成电路
(AIC)
,包括:存储器电路;以及与所述存储器电路耦合的处理器电路,所述处理器电路包括处理元件
(PE)
的阵列,其中,所述
PE
的阵列的每个
PE
包括:相应的多个乘法与累加单元
(MAC)、
和被分割成多个寄存器堆
(RF)
实例的相应
RF。2.
如权利要求1所述的
AIC
,其中,相应的多个
RF
实例中的每个
RF
实例具有其自己的读取和写入端口
。3.
如权利要求1‑2所述的
AIC
,其中,相应的多个
RF
实例中的
RF
实例的数目等于相应的多个
MAC
中的
MAC
的数目
。4.
如权利要求3所述的
AIC
,其中,所述处理器电路还包括一组列缓冲器,其中,所述一组列缓冲器中的每个列缓冲器与所述
PE
阵列中的
PE
列相关联,并且每个列缓冲器包括与
RF
实例的数目相等数目的条目
。5.
如权利要求4所述的
AIC
,其中,所述处理器电路被布置为:实现时间

空间复用方案,以在加载路径上递送数个数据单元到多个
PE
中的每个
PE
,其中,数据单元的数目等于每个列缓冲器的条目的数目
。6.
如权利要求1‑5所述的
AIC
,其中,相应的多个
RF
实例的每个
RF
包括各自的输入特征图谱
(IF)
和各自的滤波器
(FL)
,其中,各个
IF
和各个
FL
将被馈送到相应的多个
MAC
中的相应
MAC
中,并且所述相应
MAC
基于
IF

FL
生成各自的输出特征图谱
(OF)。7.
如权利要求6所述的
AIC
,其中,所述相应的多个
MAC
中的每个
MAC
被配置为在各个
IF
和各个
FL
上操作,以生成各个
OF
中的各个部分和
(pSum)
,其中,每个
MAC
用于与所述相应的多个
MAC
中的每个其他
MAC
独立且同时地操作
。8.
如权利要求7所述的
AIC
,其中,每个
PE
还包括加法器树,该加法器树被配置为从各个
OF
获得各个
pSum
并且生成单个
OF

。9.
如权利要求6‑8所述的
AIC
,其中,所述相应的多个
MAC
中的每个
MAC
被配置为同时在以下各项上操作:驻留在各个
IF
子库组中的各个
IF

IF
点,以及属于驻留在多个
FL
子库组中的多个不同
OC

FL

。10.
如权利要求9所述的
AIC
,其中,所述相应的多个
MAC
中的每个
MAC
被配置为并行地在驻留在每个
MAC
内的相应
OC
上操作,并且按预定义的次数重复在各个
IF
上的操作
。11.
如权利要求6‑
10
所述的
AIC
,其中,所述存储器电路被布置为存储数据稀疏度水平估计器
(DSLE)
的程序代码,并且所述处理器电路被布置为操作所述
DSLE
以:接收各个
IF
和各个
FL
的稀疏度信息;基于所述稀疏度信息确定平均组合稀疏度值;并且激活或停用多个
PE
中的每个
PE
内的相应的多个
MAC
中的一个或多个
MAC。12.
如权利要求1‑
11
所述的
AIC
,其中,所述处理器电路被布置为对被输入到所述
PE
的阵列的输入数据执行零值压缩
(ZVC)。13.
如权利要求1‑
12
所述的
AIC
,其中,所述
AIC
被配置为执行如权利要求
14

37
中的任何一项或多项所述的方法
。14.
一种操作加速器集成电路
(AIC)
的方法,该方法包括:
定义处理元件
(PE)
的阵列;并且定义所述
PE
的阵列的每个
PE
以包括相应的多个乘法与累加单元
(MAC)
和被分割成多个寄存器堆
(RF)
实例的相应
RF。15.
如权利要求
14
所述的方法,其中,相应的多个
RF
实例中的每个
RF
实例具有其自己的读取和写入端口
。16.
如权利要求
14

15
所述的方法,其中,相应的多个
RF
实例中的
RF
实例的数目等于相应的多个
MAC
中的
MAC
的数目
。17.
如权利要求
16
所述的方法,其中,所述
AIC
包括一组列缓冲器,其中,所述一组列缓冲器中的每个列缓冲器与所述
PE
阵列中的
PE
列相关联,并且每个列缓冲器包括与
RF
实例的数目相等数目的条目
。18.
如权利要求
17
所述的方法,还包括:实现时间

空间复用方案,以在加载路径上递送数个数据单元到多个
PE
中的每个
PE
,其中,数据单元的数目等于每个列缓冲器的条目的数目
。19.
如权利要求
14

18
所述的方法,其中,相应的多个
RF
实例的每个
RF
包括各自的输入特征图谱
(IF)
和各自的滤波器
(FL)
,并且所述方法包括:将各个
IF
和各个
FL
馈送到相应的多个
MAC
中的相应
MAC
中;并且使得所述相应
MAC
基于各个
IF
和各个
FL
生成各自的输出特征图谱
(OF)。20.
如权利要求
14

19
所述的方法,其中,相应的多个
RF
实例的每个
RF
包括各自的输入特征图谱
(IF)
和各自的滤波器
(FL)
,其中,各个
IF
和各个
FL
被馈送到相应的多个
MAC
中的相应
MAC
中,并且所述相应
MAC
基于
IF

FL
生成各自的输出特征图谱
(OF)。21.
如权利要求
19

20
所述的方法,还包括:使得所述相应的多个
MAC
中的每个
MAC
与所述相应的多个
MAC
中的每个其他
MAC
独立且同时地在属于同一
OF
的各个
IF
和各个
FL
上操作,以生成各个
OF
中的各个部分和
(pSum)。22.
如权利要求
19

21
所述的方法,其中,所述相应的多个
MAC
中的每个
MAC
被配置为在各个
IF
和各个
FL
上操作,以生成各个
OF
中的各个部分和
(pSum)
,其中,每个
MAC
与所述相应的多个
MAC
中的每个其他
MAC
独立且同时地操作
。23.
如权利要求
21

22
所述的方法,其中,每个
PE
还包括加法器树,并且所述方法包括:操作所述加法器树,以从各个
OF
获得各个
pSum
并且生成单个
OF

。24.
如权利要求
19

20
所述的方法,还包括:使得所述相应的多个
MAC
中的每个
...

【专利技术属性】
技术研发人员:阿纳布
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1