具有深度学习加速器和随机存取存储器的边缘服务器制造技术

技术编号:36171111 阅读:10 留言:0更新日期:2022-12-31 20:22
描述了与深度学习加速器和存储器相关的系统、装置和方法。边缘服务器可以使用具有以下的集成电路装置实施:深度学习加速器,其配置成执行具有矩阵操作数的指令;随机存取存储器,其配置成存储可由所述深度学习加速器执行的人工神经网络的第一指令和可由中央处理单元执行的服务器应用程序的第二指令;以及到计算机网络上的通信装置的接口。所述中央处理单元可以是所述集成电路装置的一部分,或者可以连接到所述集成电路装置。所述服务器应用程序可配置成基于所述人工神经网络的输出和经由总线或有线或无线局域网从一或多个本地装置接收到的输入,通过所述计算机网络提供服务。通过所述计算机网络提供服务。通过所述计算机网络提供服务。

【技术实现步骤摘要】
【国外来华专利技术】具有深度学习加速器和随机存取存储器的边缘服务器
[0001]相关申请
[0002]本申请要求于2020年4月9日提交且标题为“具有深度学习加速器和随机存取存储器的边缘服务器(EDGE SERVER WITH DEEP LEARNING ACCELERATOR AND RANDOM ACCESS MEMORY)”的第16/845,007号美国专利申请的优先权,所述申请的全部公开内容特此以引用的方式并入本文中。


[0003]本文公开的至少一些实施例大体上涉及边缘服务器,且更具体地但不限于使用具有用于人工神经网络(ANN)的加速器的集成电路装置实施的边缘服务器,所述ANN例如是通过机器学习和/或深度学习配置的ANN。

技术介绍

[0004]人工神经网络(ANN)使用神经元网络来处理所述网络的输入,且产生所述网络的输出。
[0005]例如,网络中的每个神经元接收一组输入。神经元的一些输入可以是网络中某些神经元的输出;并且神经元的一些输入可以是提供给神经网络的输入。网络中神经元之间的输入/输出关系表示网络中的神经元连接性。
[0006]例如,每个神经元可针对其输入具有相应的偏置、激活函数和一组突触权重。激活函数可呈阶跃函数、线性函数、对数S型函数等形式。网络中的不同神经元可以具有不同的激活函数。
[0007]例如,每个神经元可产生其输入和其偏置的加权和,然后产生为加权和的函数的输出,所述输出是使用神经元的激活函数计算的。
[0008]ANN输入和输出之间的关系通常由ANN模型定义,所述ANN模型包含表示网络中神经元的连接性的数据,以及每个神经元的偏置、激活函数和突触权重。基于给定的ANN模型,计算装置可配置成从网络的一组给定输入计算网络的输出。
[0009]例如,可基于相机输入产生ANN网络的输入;并且ANN网络的输出可以是对例如事件或对象等事项的识别。
[0010]一般来说,ANN可以使用受监督方法训练,其中ANN中的参数经调整以最小化或减少与相应输入相关联或由相应输入产生的已知输出与经由向ANN应用输入所产生的计算出的输出之间的误差。受监督学习/训练方法的实例包含强化学习和错误校正学习。
[0011]替代地或组合地,可以使用无监督方法来训练ANN,其中由给定的一组输入产生的确切输出在训练完成之前是未知的。可以训练ANN,以将事项分类成多个类别,或将数据点分类成聚类。
[0012]可以将多个训练算法用于复杂机器学习/训练范例。
[0013]深度学习使用多层机器学习从输入数据中逐步提取特征。例如,较低层可配置成识别图像中的边缘;并且较高层可配置成基于使用较低层检测到的边缘来识别图像中捕获
的项目,例如面部、对象、事件等。深度学习可以经由人工神经网络(ANN)实施,例如深度神经网络、深度信念网络、递归神经网络和/或卷积神经网络。
[0014]深度学习已应用于许多应用领域,例如计算机视觉、语音/音频辨识、自然语言处理、机器翻译、生物信息学、药物设计、医学图像处理、游戏等。
附图说明
[0015]在附图的各图中作为实例而非限制示出了实施例,在附图中,相似的参考标号指示类似的元件。
[0016]图1示出根据一个实施例的具有经配置的深度学习加速器和随机存取存储器的集成电路装置。
[0017]图2示出根据一个实施例的配置成执行矩阵

矩阵操作的处理单元。
[0018]图3示出根据一个实施例的配置成执行矩阵

向量操作的处理单元。
[0019]图4示出根据一个实施例的配置成执行向量

向量操作的处理单元。
[0020]图5示出根据一个实施例的配置成向经过训练的人工神经网络自主地应用输入的深度学习加速器和随机存取存储器。
[0021]图6示出根据一个实施例的使深度学习加速器和随机存取存储器配置有单独的存储器存取连接的集成电路装置。
[0022]图7示出根据一个实施例的具有带相机接口的深度学习加速器和随机存取存储器的集成电路装置。
[0023]图8示出根据一个实施例的芯片上系统。
[0024]图9示出根据一个实施例的配置有边缘服务器的用户装置。
[0025]图10示出根据一个实施例实施的边缘服务器。
[0026]图11示出根据一个实施例的在边缘服务器中实施的方法。
具体实施方式
[0027]本文公开的至少一些实施例提供了一种通用集成电路装置,其配置成以减少的能量消耗和计算时间执行人工神经网络(ANN)的计算。集成电路装置包含深度学习加速器(DLA)和随机存取存储器。集成电路装置可配置有用于同时存取随机存取存储器的单独连接。集成电路装置可具有相机接口,其配置成直接从一或多个相机接收图像数据作为在集成电路装置中实施的人工神经网络(ANN)的输入。此外,集成电路装置可包含中央处理单元(225),以形成芯片上系统。这种集成电路装置可用于实施边缘服务器,以在靠近数据源的位置处处理数据。
[0028]深度学习加速器(DLA)包含一组通用可编程硬件计算逻辑,其经专门化和/或优化以执行并行向量和/或矩阵计算,包含但不限于向量和/或者矩阵的乘法和累加。
[0029]此外,深度学习加速器(DLA)可包含一或多个算术逻辑单元(ALU),用于对整数二进制数执行算术和逐位操作。
[0030]深度学习加速器(DLA)可经由一组指令进行编程,以执行人工神经网络(ANN)的计算。
[0031]对向量和矩阵进行操作的深度学习加速器(DLA)的粒度对应于在深度学习加速器
(DLA)执行一个指令期间可以操作的向量/矩阵的最大单元。在执行用于向量/矩阵操作数上的预定义操作的指令期间,向量/矩阵操作数的元素可以通过深度学习加速器(DLA)并行操作,从而减少与存储器/数据存取相关联的执行时间和/或能量消耗。深度学习加速器(DLA)粒度的向量/矩阵操作数上的操作可用作构建块,以实施对更大大小的向量/矩阵的计算。
[0032]典型/实际人工神经网络(ANN)的实施涉及大小大于深度学习加速器(DLA)的操作粒度的向量/矩阵操作数。为了使用深度学习加速器(DLA)实施此类人工神经网络(ANN),涉及大小较大的向量/矩阵操作数的计算可以分解成深度学习加速器(DLA)粒度的向量/矩阵操作数的计算。深度学习加速器(DLA)可以经由实行涉及大向量/矩阵操作数的计算的指令进行编程。例如,在响应于指令而操纵深度学习加速器(DLA)粒度的向量和矩阵时深度学习加速器(DLA)的原子计算能力可以编程成实施人工神经网络(ANN)的计算。
[0033]在一些实施方案中,深度学习加速器(DLA)缺乏典型中央处理单元(CPU)的一些逻辑操作能力。然而,深度学习加速器(DLA)可以配置有足够的逻辑单元来处理提供给人工神经网络(ANN)的输入数据,并根据为深度学习加速器(DLA)产生的一组指令来产生人工神经网络(ANN)的输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,其包括:收发器;中央处理单元,其耦合到所述收发器;至少一个处理单元,其与所述收发器耦合且配置成执行具有矩阵操作数的指令;随机存取存储器,其配置成存储:人工神经网络的矩阵;能够由所述至少一个处理单元执行以实施所述人工神经网络的指令;以及服务器应用程序,其经编程以供所述中央处理单元执行,以使用所述人工神经网络通过连接到所述收发器的计算机网络提供服务;以及集成电路封装,其至少围封所述至少一个处理单元和所述随机存取存储器。2.根据权利要求1所述的设备,其中所述集成电路封装进一步围封所述中央处理单元。3.根据权利要求2所述的设备,其中所述收发器配置成使用局域网、无线局域网或无线个域网的协议与一或多个装置通信。4.根据权利要求3所述的设备,其中所述收发器配置成存储从所述一或多个装置接收到的数据作为所述人工神经网络的输入;所述至少一个处理单元配置成执行所述指令以产生输出并将所述输出存储在所述随机存取存储器中;并且在所述中央处理单元中执行的所述服务器应用程序基于所述输出提供所述服务。5.根据权利要求4所述的设备,其中在所述中央处理单元中执行的所述服务器应用程序配置成将所述输出提供到所述一或多个装置。6.根据权利要求5所述的设备,其中在所述中央处理单元中执行的所述服务器应用程序配置成基于所述输出产生警报、通知或针对查询的响应或其任何组合。7.根据权利要求6所述的设备,其中在所述中央处理单元中执行的所述服务器应用程序配置成通过电信网络、蜂窝通信网络或互联网或其任何组合将所述输出传输到计算机系统。8.根据权利要求1所述的设备,其进一步包括:网络接口卡、路由器、物联网中心、无线计算机网络存取点或蜂窝通信网络基站或其任何组合的电路系统;其中所述收发器耦合到所述电路系统。9.根据权利要求1所述的设备,其进一步包括:印刷电路板,其中围封在所述集成电路封装内的电路系统和所述收发器经由所述印刷电路板连接;端口,其配置在所述印刷电路板上且适于连接到局域网。10.根据权利要求1所述的设备,其进一步包括:一或多个传感器,其配置成提供数据作为所述人工神经网络的输入;以及用户界面。11.根据权利要求9所述的设备,其进一步包括:到配置在主机装置中的总线的接口。12.根据权利要求11所述的设备,其中所述总线符合通用串行总线(USB)、串行高级技术附件(SATA)总线或外围组件互连高速(PCIe)的协议。
13.根据权利要求1所述的设备,其中所述至少一个处理单元包含配置成对指令的两个矩阵操作数进行操作的矩阵

矩阵单元;其中所述矩阵

矩阵单元包含配置成并行操作的多个矩阵

向量单元;其中所述多个矩阵

向量单元中的每一个包含配置成并行操作的多个向量

【专利技术属性】
技术研发人员:P
申请(专利权)人:美光科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1