【技术实现步骤摘要】
【国外来华专利技术】用于神经网络的块之间的重叠数据的存储器管理
[0001]至少一个实施例涉及用于执行和促进人工智能的处理资源。例如,至少一个实施例涉及用于链接神经网络层中的块之间的重叠数据的辅助缓冲器。
技术介绍
[0002]在许多情况下,深度学习推理的大部分计算工作都基于数学运算,这些运算通常可以分为四个部分:卷积、激活、池化和归一化。这些运算有一些共同的特点,使它们特别适合硬件实现:它们的存储器访问模式是可预测的并且易于并行化。
附图说明
[0003]图1是根据至少一些实施例的具有用于在由固定功能电路执行的链接层之间平铺的重叠数据缓冲器的加速器核心的框图;
[0004]图2A是图示根据至少一种实现方式的持久权重选项的图;
[0005]图2B是图示根据至少一种实现方式的持久特征选项的图;
[0006]图3是图示根据至少一些实施例的具有两个链接硬件层的加速器电路的图,该加速器电路在重叠数据的两个通路之间使用辅助缓冲器;
[0007]图4是图示根据至少一些实施例的具有四个链接硬件层的加速器电路的图,该加速器电路在三个通路之间使用重叠数据缓冲器;
[0008]图5是图示根据至少一些实施例的使用硬件指令在通路之间存储和获取块中的重叠数据的两个卷积层的图;
[0009]图6是根据至少一些实施例的识别输出块的一部分并将其存储在辅助缓冲器中的方法的流程图;
[0010]图7是根据至少一些实施例的深度学习加速器(DLA)系统的框图;以及
[0011]图8是根据至少一些实 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种加速器电路,包括:主缓冲器;辅助缓冲器;存储器接口,用于耦合到外部存储器设备;以及一个或更多个处理单元,耦合到所述主缓冲器、所述辅助缓冲器和所述存储器接口,其中所述一个或更多个处理单元用于在对应于多个块的多个通路中执行对应于神经网络的多个链接层的指令,其中所述指令在由所述一个或更多个处理单元在第一通路中执行时,使所述一个或更多个处理单元:从所述主缓冲器接收输入特征图的第一输入块,其中所述输入特征图的大小超过所述主缓冲器的存储容量,其中所述输入特征图至少包括所述第一输入块和第二输入块;对所述第一输入块执行第一操作以获得第一输出块;将所述第一输出块存储在所述主缓冲器中;将所述第一输出块的一部分识别为对应于所述第一输入块与所述第二输入块之间的重叠数据;以及将所述第一输出块的所述部分存储在所述辅助缓冲器中。2.根据权利要求1所述的加速器电路,其中,当所述指令在所述第一通路之后的第二通路中由所述一个或更多个处理单元执行时,使所述一个或更多个处理单元进一步:从所述主缓冲器接收所述第二输入块的一部分;对所述第二输入块的所述部分执行所述第一操作以获得第二输出块的部分;从所述辅助缓冲器中检索所述第一输出块的所述部分;以及将所述第一输出块的所述部分作为所述第二输出块的一部分存储在所述主缓冲器中。3.根据权利要求2所述的加速器电路,其中,所述指令在由所述一个或更多个处理单元执行时,使所述一个或更多个处理单元进一步:在所述第一通路中,从所述主缓冲器检索所述第一输出块,对所述第一输出块执行第二操作以获得第三输出块,以及将所述第三输出块存储在所述主缓冲器中;以及在所述第二通路中,从所述主缓冲器中检索所述第二输出块;对所述第二输出块执行所述第二操作以获得第四输出块;以及将所述第四输出块存储在所述主缓冲器中。4.根据权利要求3所述的加速器电路,其中,所述一个或更多个处理单元包括:第一固定功能引擎,用于处理所述多个链接层中的第一层类型,其中所述第一固定功能引擎用于接收所述第一输入块,对所述第一输入块执行所述第一操作,存储所述第一输出块,接收所述第二输入块的所述部分,对所述第二输入块的所述部分执行所述第一操作,检索所述第一输出块的所述部分,以及存储所述第二输出块;以及第二固定功能引擎,用于处理所述多个链接层的第二层类型,其中所述第二固定功能引擎用于检索所述第一输出块,对所述第一输出块执行所述第二操作,存储所述第三输出块,检索所述第二输出块,对所述第二输出块执行所述第二操作,以及存储所述第四输出
块。5.根据权利要求3所述的加速器电路,其中,所述一个或更多个处理单元包括:第一固定功能引擎,用于处理所述多个链接层中的第一层类型,其中所述第一固定功能引擎用于接收所述第一输入块,对所述第一输入块执行所述第一操作,存储所述第一输出块,接收所述第二输入块的所述部分,对所述第二输入块的所述部分执行所述第一操作,检索所述第一输出块的所述部分,存储所述第二输出块,检索所述第一输出块,对所述第一输出块执行所述第二操作,存储所述第三输出块,检索所述第二输出块,对所述第二输出块执行所述第二操作,以及存储所述第四输出块。6.根据权利要求2所述的加速器电路,其中,所述指令在所述第二通路中由所述一个或更多个处理单元执行时,使所述一个或更多个处理单元进一步:将所述第二输出块的部分识别为对应于所述第一输入块与所述第三输入块之间的重叠数据;以及将所述第二输出块的所述部分存储在所述辅助缓冲器中。7.根据权利要求6所述的加速器电路,其中,所述输入特征图包括所述第一输入块、所述第二输入块和第三输入块,其中所述指令在所述第二通路之后的第三通路中由所述一个或更多个处理单元执行时,使所述一个或更多个处理单元进一步:从所述主缓冲器接收所述第三输入块的部分;对所述第三输入块的所述部分执行所述第一操作以获得第三输出块的部分;从所述辅助缓冲器中检索所述第二输出块的所述部分;以及将所述第二输出块的所述部分作为所述第三输出块的一部分存储在所述主缓冲器中。8.根据权利要求1所述的加速器电路,还包括内部存储器设备,所述内部存储器设备包括所述主缓冲器和所述辅助缓冲器,其中所述主缓冲器是所述内部存储器设备的被保留为第一级(L1)存储器的第一区域,其中所述辅助缓冲器是所述内部存储器设备的被保留为第二级(L2)存储器的第二区域,并且其中所述外部存储器设备被保留为第三级(L3)存储器。9.根据权利要求1所述的加速器电路,其中,所述一个或更多个处理单元包括卷积引擎或池化引擎中的至少一种。10.深度学习加速器DLA核心,包括:寄存器文件,用于存储与包括多个层的神经网络的至少一部分相关联的配置信息;存储器接口,用于耦合到外部存储器设备;卷积缓冲器,其中所述卷积缓冲器包括保留区...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。