具有集成随机存取存储器的深度学习加速器中的优化传感器融合制造技术

技术编号:37624755 阅读:24 留言:0更新日期:2023-05-18 12:16
描述与深度学习加速器及存储器相关的系统、装置及方法。例如,一种集成电路装置可经配置以执行具有矩阵操作数的指令,且经配置有随机存取存储器。所述随机存取存储器经配置以存储分别来自多个传感器的多个输入、人工神经网络的参数及可由深度学习加速器执行以执行矩阵计算以产生所述人工神经网络的输出的指令,所述输出包含单独地使用所述传感器产生的第一输出及使用所述传感器的组合产生的第二输出。出。出。

【技术实现步骤摘要】
【国外来华专利技术】具有集成随机存取存储器的深度学习加速器中的优化传感器融合
[0001]相关申请案
[0002]本申请案主张2020年8月6日申请的且标题为“具有集成随机存取存储器的深度学习加速器中的优化传感器融合(OPTIMIZED SENSOR FUSION IN DEEP LEARNING ACCELERATOR WITH INTEGRATED RANDOM ACCESS MEMORY)”的序列号为16/987,090的美国专利申请案的优先权,所述申请案的全部公开内容特此以引用的方式并入本文中。


[0003]本文公开的至少一些实施例大体上涉及传感器融合,且更特定来说(但不限于)涉及经由用于人工神经网络(ANN)(例如通过机器学习及/或深度学习配置的ANN)的加速器实施的传感器融合。

技术介绍

[0004]人工神经网络(ANN)使用神经元网络来处理到网络的输入且从网络产生输出。
[0005]举例来说,网络中的每一神经元接收一组输入。到神经元的输入中的一些可为网络中某些神经元的输出;且到神经元的输入中一些可为提供到神经网络的输入。网络中神经元当中的输入/输出关系代表网络中的神经元连接性。
[0006]举例来说,每一神经元针对其输入可分别具有偏倚、激活函数及一组突触权重。激活函数可呈阶跃函数、线性函数、对数S型函数等的形式。网络中的不同神经元可具有不同激活函数。
[0007]举例来说,每一神经元可产生其输入与其偏倚的加权和,且接着产生使用神经元的激活函数来计算的随加权和而变的输出。
[0008]ANN的输入与输出之间的关系通常由ANN模型定义,所述ANN模型包含代表网络中神经元的连接性以及每一神经元的偏倚、激活函数以及突触权重的数据。基于给定ANN模型,计算装置可经配置以从到网络的一组给定输入计算网络的输出。
[0009]举例来说,可基于相机输入产生到ANN网络的输入;且来自ANN网络的输出可为对项目的识别,所述项目例如事件或对象。
[0010]一般来说,可使用监督方法来训练ANN,其中ANN中的参数经调整以最小化或减小与相应输入相关联或源自相应输入的已知输出与经由将输入应用于ANN产生的计算输出之间的误差。监督学习/训练方法的实例包含强化学习及具有误差校正的学习。
[0011]替代地或组合地,可使用无监督方法来训练ANN,其中在训练完成之前不知晓从一组给定输入产生的准确输出。ANN可经训练以将项目分类为多个类别,或者将数据点分类为集群。
[0012]可将多个训练算法用于复杂的机器学习/训练范例。
[0013]深度学习使用多层机器学习逐步从输入数据提取特征。举例来说,较低层可经配置以识别图像中的边缘;且较高层可经配置以基于使用较低层检测到的边缘来识别图像中
捕获的项目,例如人脸、对象、事件等。深度学习可经由人工神经网络(ANN)实施,例如深度神经网络、深度信念网络、递归神经网络及/或卷积神经网络。
[0014]深度学习已应用于许多应用领域,例如计算机视觉、语音/音频辨识、自然语言处理、机器翻译、生物信息学、药物设计、医学图像处理、游戏等。
附图说明
[0015]在附图的图式中通过实例而非限制的方式说明实施例,其中相似参考指示类似元件。
[0016]图1展示具有根据一个实施例配置的深度学习加速器及随机存取存储器的集成电路装置。
[0017]图2展示根据一个实施例的经配置以执行矩阵

矩阵运算的处理单元。
[0018]图3展示根据一个实施例的经配置以执行矩阵

向量运算的处理单元。
[0019]图4展示根据一个实施例的经配置以执行向量

向量运算的处理单元。
[0020]图5展示根据一个实施例的经配置以自主地将输入应用于经训练人工神经网络的深度学习加速器及随机存取存储器。
[0021]图6到8说明在根据一些实施例配置的深度学习加速器及随机存取存储器中实施的传感器融合。
[0022]图9展示根据一个实施例的传感器融合的方法。
具体实施方式
[0023]本文公开的至少一些实施例提供一种集成电路,其经配置以使用人工神经网络(ANN)以减少的能量消耗及计算时间执行传感器融合。集成电路包含深度学习加速器(DLA)及随机存取存储器。随机存取存储器具有经配置以分别从多个传感器接收传感器数据的多个部分。随机存取存储器包含经配置以存储用于深度学习加速器(DLA)的指令的另外部分。所述指令具有矩阵操作数,且经配置以由深度学习加速器(DLA)执行,以实施人工神经网络(ANN)的矩阵计算。可由编译器从人工神经网络(ANN)的描述产生指令来处理多个传感器的传感器数据。训练人工神经网络(ANN)中的至少一者以基于多于一个传感器的传感器数据来产生输出。可由编译器通过减少或消除人工神经网络(ANN)中的重叠处理及/或通过协调单独地从不同传感器导出的中间结果的时序来优化指令。从人工神经网络(ANN)组合来自多个传感器的输入数据产生的传感器融合结果可推动更高级别的智能预测。
[0024]深度学习加速器(DLA)包含一组可编程硬件计算逻辑,其经专门化及/或经优化以执行并行向量及/或矩阵计算,包含(但不限于)向量及/或矩阵的乘法及累加。
[0025]此外,深度学习加速器(DLA)可包含一或多个算术逻辑单元(ALU)以对整数二进制数执行算术及逐位运算。
[0026]深度学习加速器(DLA)可经由一组指令进行编程以执行人工神经网络(ANN)的计算。
[0027]对向量及矩阵进行操作的深度学习加速器(DLA)的粒度对应于在由深度学习加速器(DLA)执行一个指令期间可操作的向量/矩阵的最大单元。在用于对向量/矩阵操作数的预定义操作的指令的执行期间,向量/矩阵操作数的元素可由深度学习加速器(DLA)并行操
作,以减少与存储器/数据存取相关联的执行时间及/或能量消耗。对深度学习加速器(DLA)的粒度的向量/矩阵操作数的操作可用作构建块以实施对更大大小的向量/矩阵的计算。
[0028]典型/实用人工神经网络(ANN)的实施涉及具有大于深度学习加速器(DLA)的操作粒度的大小的向量/矩阵操作数。为使用深度学习加速器(DLA)实施此人工神经网络(ANN),可将涉及较大大小的向量/矩阵操作数的计算分解为深度学习加速器(DLA)的粒度的向量/矩阵操作数的计算。深度学习加速器(DLA)可经由指令编程以实行涉及大向量/矩阵操作数的计算。举例来说,深度学习加速器(DLA)在响应于指令操纵深度学习加速器(DLA)的粒度的向量及矩阵时的原子计算能力可经编程以实施人工神经网络(ANN)中的计算。
[0029]在一些实施方案中,深度学习加速器(DLA)缺乏典型中央处理单元(CPU)的一些逻辑运算能力。然而,深度学习加速器(DLA)可配置有足够的逻辑单元来处理提供到人工神经网络(ANN)的输入数据,且根据为深度学习加速器(DLA)产生的一组指令来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:在装置中,接收分别来自多个传感器的多个输入;由所述装置通过处理分别来自所述多个传感器的所述多个输入使用人工神经网络的多个第一部分来产生分别对应于所述多个传感器的多个第一输出;以及由所述装置通过处理来自所述多个传感器的所述多个输入的组合来根据所述人工神经网络的第二部分来产生第二输出,所述人工神经网络的所述第二部分经配置以减少与所述人工神经网络的所述第一部分的重叠处理。2.根据权利要求1所述的方法,其中所述装置包含多个接口;且所述接收包含分别经由所述多个接口与所述多个所述传感器之间的多个串行连接来并行地接收来自所述多个传感器的所述多个输入。3.根据权利要求2所述的方法,其进一步包括:向所述装置的随机存取存储器写入应用程序的指令;由所述装置的中央处理单元执行所述应用程序的所述指令,以基于所述人工神经网络的至少一个输出来产生应用程序输出;以及经由所述至少一个接口将所述应用程序输出传达到外围装置。4.根据权利要求3所述的方法,其中所述多个传感器包含至少两个成像装置;且所述第一输出包含从分别来自所述多个传感器的所述多个输入辨识的特征;且所述第二输出包含使用所述第一输出中的所述特征的组合确定的对象的识别或分类。5.根据权利要求4所述的方法,其中来自所述多个传感器中的每一者的输入包含所述对象的图像数据;所述第一输出包含分别使用所述多个传感器确定的所述对象的识别或分类。6.一种装置,其包括:随机存取存储器;至少一个接口,其经配置以接收分别来自多个传感器的多个输入;以及至少一个处理单元,其与所述随机存取存储器及所述至少一个接口耦合且经配置以执行具有矩阵操作数的指令以实施人工神经网络的矩阵计算,所述人工神经网络具有多个第一部分及第二部分,所述多个所述第一部分经配置以处理分别来自所述多个传感器的所述多个输入以产生分别对应于所述多个传感器的第一输出,且所述第二部分经配置以处理所述多个输入的组合以产生第二输出,其中所述人工神经网络的所述第二部分经配置以减少与所述人工神经网络的所述第一部分的重叠处理。7.根据权利要求6所述的装置,其中所述至少一个接口包含多个接口,所述多个接口经配置以并行地接收来自所述多个传感器的所述多个输入。8.根据权利要求7所述的装置,其中所述多个接口经配置以分别经由多个串行连接来连接到所述多个传感器。9.根据权利要求8所述的装置,其中来自所述多个传感器中的每一者的输入包含对象的图像数据;所述第一输出包含分别使用所述多个传感器确定的所述对象的识别或分类;且所述第二输出包含使用所述多个传感器的组合确定的所述对象的识别或分类。10.根据权利要求8所述的装置,其中所述第一输出包含从分别来自所述多个传感器的所述多个输入辨识的特征;且所述第二输出包含使用所述第一输出中的所述特征的组合确
定的对象的识别或分类。11.根据权利要求8所述的装置,其中所述多个传感器包含至少两个成像装置。12.根据权利要求8所述的装置,其进一步包括:中央处理单元,其经配置以执行存储在所述随机存取存储...

【专利技术属性】
技术研发人员:P
申请(专利权)人:美光科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1