具有深度学习加速器和随机存取存储器的芯片上系统技术方案

技术编号:36171094 阅读:49 留言:0更新日期:2022-12-31 20:22
描述了与深度学习加速器和存储器相关的系统、装置和方法。集成电路可经配置有:中央处理单元;深度学习加速器,其经配置以执行具有矩阵操作数的指令;随机存取存储器,其经配置以存储可由所述深度学习加速器执行的人工神经网络的第一指令和可由所述中央处理单元执行的应用程序的第二指令;所述随机存取存储器、所述深度学习加速器和所述中央处理单元之间的一个或连接;以及到外部外围总线的输入/输出接口。在所述深度学习加速器正执行所述第一指令以根据所述人工神经网络将传感器数据转换为推断结果的同时,所述中央处理单元可使用来自所述人工神经网络的推断结果执行所述应用程序。应用程序。应用程序。

【技术实现步骤摘要】
【国外来华专利技术】具有深度学习加速器和随机存取存储器的芯片上系统
[0001]相关申请案
[0002]本申请案要求2020年4月9日提交且名称为“具有深度学习加速器和随机存取存储器的芯片上系统(SYSTEM ON A CHIP WITH DEEP LEARNING ACCELERATOR AND RANDOM ACCESS MEMORY)”的第16/845,002号美国专利申请案的优先权,所述美国专利申请案的全部公开内容特此以引用的方式并入本文中。


[0003]本文公开的至少一些实施例大体上涉及集成电路装置,且更具体地但不限于具有用于人工神经网络(ANN)的加速器的集成电路装置,所述ANN例如是通过机器学习和/或深度学习配置的ANN。

技术介绍

[0004]人工神经网络(ANN)使用神经元网络来处理到所述网络的输入,且产生从所述网络的输出。
[0005]举例来说,网络中的每一神经元接收一组输入。到神经元的输入中的一些可以是网络中的某些神经元的输出;且到神经元的输入中的一些可以是提供到神经网络的输入。网络中的神经元当中的输入/输出关系表示网络中的神经元连接性。
[0006]举例来说,每一神经元可分别针对其输入具有偏置、激活函数和一组突触权重。激活函数可以呈阶跃函数、线性函数、对数S型(log

sigmoid)函数等形式。网络中的不同神经元可以具有不同激活函数。
[0007]举例来说,每一神经元可产生其输入与其偏置的加权和,且接着产生作为加权和的函数的输出,所述输出是使用神经元的激活函数计算出的。
[0008]ANN的输入与输出之间的关系一般来说由ANN模型限定,所述ANN模型包含表示网络中的神经元的连接性的数据,以及每一神经元的偏置、激活函数和突触权重。基于给定ANN模型,计算装置可经配置以从到网络的给定输入集合计算网络的输出。
[0009]举例来说,可基于相机输入产生到ANN网络的输入;且来自ANN网络的输出可为例如事件或对象等项目的识别。
[0010]一般来说,可使用监督方法来训练ANN,其中调整ANN中的参数以最小化或减少与相应输入相关联或由相应输入产生的已知输出与通过将输入应用于ANN而产生的所计算输出之间的误差。监督学习/训练方法的实例包含强化学习和具有误差校正的学习。
[0011]替代地或组合地,可使用无监督方法来训练ANN,其中由给定一组输入产生的精确输出在训练完成之前是未知的。可训练ANN将项分类成多个类别,或将数据点分类成集群。
[0012]可以采用多种训练算法用于复杂的机器学习/训练范例。
[0013]深度学习使用机器学习的多个层以从输入数据逐渐地提取特征。举例来说,较低层可经配置以识别图像中的边缘;且较高层可经配置以基于使用较低层检测到的边缘识别图像中所捕获的项目,例如人脸、物件、事件等。深度学习可经由人工神经网络(ANN)实施,
例如深度神经网络、深度信念网络、递归神经网络和/或卷积神经网络。
[0014]深度学习已应用于许多应用领域,例如计算机视觉、语音/音频辨识、自然语言处理、机器翻译、生物信息学、药物设计、医疗图像处理、游戏等。
附图说明
[0015]实施例是借助于实例而非限制在附图的图中来说明的,在附图中相似参考指示类似元件。
[0016]图1示出根据一个实施例的具有经配置的深度学习加速器和随机存取存储器的集成电路装置。
[0017]图2示出根据一个实施例的经配置以执行矩阵

矩阵运算的处理单元。
[0018]图3示出根据一个实施例的经配置以执行矩阵

向量运算的处理单元。
[0019]图4示出根据一个实施例的经配置以执行向量

向量运算的处理单元。
[0020]图5示出根据一个实施例的经配置以向经训练的人工神经网络自主地应用输入的深度学习加速器和随机存取存储器。
[0021]图6示出根据一个实施例的使深度学习加速器和随机存取存储器配置有单独存储器存取连接的集成电路装置。
[0022]图7示出根据一个实施例的具有带相机接口的深度学习加速器和随机存取存储器的集成电路装置。
[0023]图8示出根据一个实施例的芯片上系统。
[0024]图9示出根据一个实施例的在集成电路装置中实施的方法。
具体实施方式
[0025]本文公开的至少一些实施例提供通用集成电路装置,其经配置以用减少的能量消耗和计算时间执行人工神经网络(ANN)的计算。集成电路装置包含深度学习加速器(DLA)和随机存取存储器。集成电路装置可经配置有单独连接以用于对随机存取存储器的同时存取。集成电路装置可具有相机接口,其经配置以直接从一或多个相机接收图像数据作为对实施于集成电路装置中的人工神经网络(ANN)的输入。此外,集成电路装置可包含中央处理单元(225)以形成芯片上系统。
[0026]深度学习加速器(DLA)包含一组通用可编程硬件计算逻辑,其经专门化和/或优化以执行并行向量和/或矩阵计算,包含但不限于向量和/或者矩阵的乘法和累加。
[0027]此外,深度学习加速器(DLA)可包含一或多个算术逻辑单元(ALU)以对整数二进制数执行算术和逐位运算。
[0028]深度学习加速器(DLA)可经由一组指令进行编程,以执行人工神经网络(ANN)的计算。
[0029]对向量和矩阵运算的深度学习加速器(DLA)的粒度对应于可在由深度学习加速器(DLA)执行一个指令期间在其上操作的向量/矩阵的最大单元。在对向量/矩阵操作数执行预定义操作的指令期间,深度学习加速器(DLA)可以并行操作向量/矩阵操作数的元素,以减少与存储器/数据存取相关联的执行时间和/或能量消耗。对深度学习加速器(DLA)的粒度的向量/矩阵操作数的操作可用作构建块以对较大大小的向量/矩阵实施计算。
[0030]典型/实际人工神经网络(ANN)的实施涉及具有大于深度学习加速器(DLA)的操作粒度的大小的向量/矩阵操作数。为了使用深度学习加速器(DLA)实施此类人工神经网络(ANN),涉及较大大小的向量/矩阵操作数的计算可分解为深度学习加速器(DLA)的粒度的向量/矩阵操作数的计算。深度学习加速器(DLA)可以通过指令进行编程,以执行涉及大型向量/矩阵操作数的计算。举例来说,在响应于指令而操控深度学习加速器(DLA)的粒度的向量和矩阵时的深度学习加速器(DLA)的原子计算能力可经编程以在人工神经网络(ANN)中实施计算。
[0031]在一些实施方案中,深度学习加速器(DLA)不具有典型中央处理单元(CPU)的一些逻辑运算能力。然而,深度学习加速器(DLA)可经配置有充足逻辑单元以处理提供到人工神经网络(ANN)的输入数据且根据针对深度学习加速器(DLA)产生的一组指令产生人工神经网络(ANN)的输出。因此,深度学习加速器(DLA)可在中央处理单元(CPU)或另一处理器的极少帮助或无帮助的情况下执行人工神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,其包括:集成电路封装,其包括衬底且围封所述装置;中央处理单元,其配置于所述衬底上;至少一个处理单元,其配置于所述衬底上且经配置以执行具有矩阵操作数的指令;随机存取存储器,其经由所述衬底耦合到所述至少一个处理单元和所述中央处理单元且经配置以存储:人工神经网络的矩阵;能够由所述至少一个处理单元执行以实施所述人工神经网络的指令;以及至少一个应用程序,其经编程以供所述中央处理单元执行;以及接口,其经由所述衬底耦合到所述中央处理单元和所述随机存取存储器且能够耦合到所述装置外部的总线。2.根据权利要求1所述的装置,其进一步包括:中介层,其附连到所述衬底,其中所述中央处理单元经由所述中介层耦合到所述至少一个处理单元或所述随机存取存储器或这两者。3.根据权利要求1所述的装置,其中所述至少一个处理单元经配置以在所述随机存取存储器中存储来自所述人工神经网络的输出作为对所述应用程序的输入;且所述中央处理单元包含存储器控制器,所述存储器控制器经配置以将在所述应用程序的执行期间分配的逻辑存储器映射到所述随机存取存储器中的物理存储器。4.根据权利要求3所述的装置,其中所述存储器控制器经配置以通过所述中央处理单元与所述随机存取存储器之间的第一连接从随机存取存储器加载第一指令以供所述至少一个处理单元执行。5.根据权利要求4所述的装置,其中所述至少一个处理单元经配置以通过到所述随机存取存储器的第二连接从所述随机存取存储器加载矩阵操作数。6.根据权利要求4所述的装置,其中所述中央处理单元包含至少一个算术逻辑单元(ALU);且所述存储器控制器经配置以通过所述中央处理单元与所述随机存取存储器之间的所述第一连接从随机存取存储器加载第二指令以供所述至少一个ALU执行。7.根据权利要求1所述的装置,其进一步包括:第一集成电路裸片,其上配置有深度学习加速器,所述深度学习加速器具有所述至少一个处理单元、控制单元、经配置以存储矩阵操作数的本地存储器,以及到所述随机存取存储器的存储器接口;以及至少一个第二集成电路裸片,其上配置有所述随机存取存储器。8.根据权利要求7所述的装置,其进一步包括:第三集成电路裸片,其上配置有所述中央处理单元;其中所述存储器接口通过硅穿孔(TSV)连接到所述至少一个第二集成电路裸片中的所述随机存取存储器;其中所述中央处理单元通过硅穿孔(TSV)连接所述至少一个第二集成电路裸片中的所述随机存取存储器;且其中所述至少一个第二集成电路裸片堆叠于所述第一集成电路裸片与所述第二集成电路裸片之间。
9.根据权利要求7所述的装置,其中所述中央处理单元配置于所述第一集成电路上;且所述中央处理单元和所述深度学习加速器共享到所述随机存取存储器的接口。10.根据权利要求9所述的装置,其中所述中央处理单元和所述深度学习加速器进一步共享逻辑电路以从所述随机存取存储器加载指令。11.根据权利要求7所述的装置,其进一步包括:第四集成电路裸片,其上配置有电线;其中所述第一集成电路裸片中的所述深度学习加速器和所述至少第二集成电路裸片中的所述随机存取存储器是使用所述第四集成电路裸片中的所述电线和来自所述第四集成电路裸片的硅穿孔(TSV)连接的。12.根据权利要求11所述的装置,其进一步包括:第三集成电路裸片,其上配置有所述中央处理单元;其中所述第一集成电路裸片、所述至少第二集成电路裸片和所述第三集成电路裸片堆叠于所述第四集成电路裸片上且使用单独组的硅穿孔(TSV)连接到所述第四集成电路。13.根...

【专利技术属性】
技术研发人员:P
申请(专利权)人:美光科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1