存储器中计算/近存储器计算（CIM）电路架构制造技术

技术编号：27876385 阅读：25 留言：0更新日期：2021-03-31 00:52

一种存储器电路包括动态可配置的多个（X个）乘法累加（MAC）电路。MAC电路可基于输入向量的X个元素与权重向量的计算来计算输出，或者基于输入向量的单个元素与权重向量的计算来计算输出，其中每个元素具有一位或多位长度。第一存储器可保存具有宽度为X个元素的输入向量，而第二存储器可存储权重向量。MAC电路包括具有第一存储器的芯片上的MAC阵列。

全部详细技术资料下载

【技术实现步骤摘要】
存储器中计算/近存储器计算（CIM）电路架构
描述一般涉及存储器中计算/近存储器计算（compute-in/near-memory）（CIM），并且更特别的描述涉及用公共CIM硬件在矩阵-矩阵计算和矩阵-向量计算之间进行动态切换。
技术介绍
已经在机器学习上特别是使用深度学习技术构建了计算机人工智能（AI）。通过深度学习，被组织为神经网络的计算系统计算输入数据与现有计算的数据匹配的统计可能性。神经网络涉及多个互连的处理节点，这些节点使数据分析能够将输入与“受训练的”数据进行比较。受训练的数据涉及对已知数据的性质进行计算分析，以开发用于比较输入数据的模型。某些深度学习应用，诸如应用单批量或小批量MLP（多层感知器）、RNN（递归神经网络）和LSTM（长短期存储器——具有反馈的递归神经网络）的那些应用，通常执行矩阵-向量（MxV）乘法，其中神经元激活的向量（或窄矩阵）与神经网络权重矩阵相乘。其它深度学习应用，诸如应用CNN（卷积神经网络，诸如用于图像处理、视频处理或二维（2D）图像的计算或分类）或大批量MLP的那些应用，一般被映射到矩阵-矩阵（MxM）乘法，其中矩阵与神经网络权重矩阵相乘。通过使用乘法累加（multiply-accumulate）（MAC）算术单元的阵列来执行对于MxV和MxM两者的点积运算。MAC单元的二维（2D）脉动阵列（systolicarray）能为MxM运算提供具有良好性能和数据重复使用的硬件解决方案。一维（1D）计算阵列方法比2D脉动阵列更适合最大化向量元素的数据重复使...

【技术保护点】
1.一种用于乘法累加（MAC）运算的设备，包括：/n第一存储器，所述第一存储器用于提供具有宽度为X个元素的输入向量；以及/n具有所述第一存储器的芯片上的乘法累加（MAC）阵列，所述MAC阵列包括：/n第二存储器，所述第二存储器用于存储权重向量；以及/nX个MAC电路，所述X个MAC电路动态地可配置成：基于所述输入向量的所述X个元素与所述权重向量的计算来计算输出，或者基于所述输入向量的单个元素与所述权重向量的计算来计算所述输出。/n

【技术特征摘要】
20190927 US 16/5866481.一种用于乘法累加（MAC）运算的设备，包括：
第一存储器，所述第一存储器用于提供具有宽度为X个元素的输入向量；以及
具有所述第一存储器的芯片上的乘法累加（MAC）阵列，所述MAC阵列包括：
第二存储器，所述第二存储器用于存储权重向量；以及
X个MAC电路，所述X个MAC电路动态地可配置成：基于所述输入向量的所述X个元素与所述权重向量的计算来计算输出，或者基于所述输入向量的单个元素与所述权重向量的计算来计算所述输出。

2.如权利要求1所述的设备，其中所述MAC阵列在具有所述第一存储器的公共存储器管芯上，其中所述第一存储器是处理器的高速缓存存储器。

3.如权利要求1所述的设备，其中所述MAC阵列在具有所述第一存储器的公共存储器管芯上，其中所述第一存储器是处理器的高速暂存存储器。

4.如权利要求1所述的设备，其中所述MAC阵列在具有所述第一存储器的片上系统内，其中所述第一存储器是处理器的高速缓存存储器。

5.如权利要求1所述的设备，其中所述MAC阵列在具有所述第一存储器的片上系统内，其中所述第一存储器是处理器的高速暂存存储器。

6.如权利要求1到5中任一项所述的设备，所述MAC阵列进一步包括：
复用器（mux），所述mux用于在所述第一存储器和所述MAC阵列之间提供替代路径；以及
mux控制器，所述mux控制器用于控制所述mux在所述替代路径之间进行选择。

7.如权利要求6所述的设备，其中所述mux控制器针对一维（1D）MxV计算要控制所述mux以用于一个输入向量元素到所有X个MAC电路。

8.如权利要求6所述的设备，其中所述mux控制器针对二维（2D）MxM计算要控制所述mux以用于X个不同的输入向量元素分别到所述X个MAC电路。

9.如权利要求1到8中任一项所述的设...

【专利技术属性】
技术研发人员：HE苏姆布尔，陈耕和，P克纳格，R库马尔，R克里什纳墨菲，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人