一种支持不同精度累加结果写回硬件的方法及装置制造方法及图纸

技术编号：35605041 阅读：23 留言：0更新日期：2022-11-16 15:27

本发明专利技术公开了一种支持不同精度累加结果写回硬件的方法及装置，涉及数据处理技术领域，包括：构建多个运算单元组成的二维脉动阵列；读取本地局部存储器中的北向数据，预加载在矩阵乘法加速单元中从北向南传输；读取本地局部存储器中的西向数据，加载在矩阵乘法加速单元中从西向东传输；对西向数据和北向数据进行乘加操作；累加器缓冲接收矩阵乘法加速单元最南侧的一行运算单元传输下来的累加结果，完成所有中间结果累加；将缓存结果写回至本地局部存储器。本发明专利技术运算精度灵活可配，支持多种精度运算，同时累加结果写回电路支持写回精度灵活可配。灵活可配。灵活可配。

全部详细技术资料下载

【技术实现步骤摘要】
一种支持不同精度累加结果写回硬件的方法及装置

[0001]本专利技术涉及数据处理
，特别是涉及一种支持不同精度累加结果写回硬件的方法及装置。

技术介绍

[0002]深度学习神经网络(Neutral Networks)面向应用，分为训练(training)和推理(inference)两个方向，均涉及多层网络运算，而每层网络包含大量的卷积与矩阵乘运算，对硬件运算处理能力提出了超高要求。推理和训练对运算量和数据精度要求均有所不同，前者运算量相对较少，数据精度要求较低；而训练对运算量和数据精度要求均比较高，所以针对推理的数据运算加速方式不再适用于训练数据的运算加速。
[0003]脉动阵列(Systolic Array)是常用的一种加速神经网络中矩阵乘和卷积运算的结构，各个处理单元(Processing Element, PE)与相邻处理单元相连，构建成一个二维运算阵列，数据在相邻处理单元间传输，减少了各处理单元直接访存需求，以数据流驱动方式实现运算加速。通过数据重用，减少对输入/输出数据的存取次数，进而降低访存带宽需求。可以有效解决运算速度远高于访存速度的访存瓶颈问题，访存一次可以在整个脉动阵列中流动并驱动运算多拍，通过多拍运算掩盖访存延迟，提高了运算性能，减少了访存带宽与访存开销。
[0004]例如：Google的TPU(Tensor Processing Unit)处理器，采用256*256个Cell单元构建超大脉动阵列，实现卷积运算加速，每个Cell单元固定支持8bit字节*8bit字节+16bi...

【技术保护点】

【技术特征摘要】
1.一种支持不同精度累加结果写回硬件的方法，其特征在于，包括：在矩阵乘法加速单元中构建由多个同构的运算单元组成的二维脉动阵列；读取本地局部存储器中的北向数据，预加载在矩阵乘法加速单元中从北向南传输；读取本地局部存储器中的西向数据，加载在矩阵乘法加速单元中从西向东传输；在矩阵乘法加速单元中对西向数据和北向数据进行乘加操作；累加器缓冲接收矩阵乘法加速单元最南侧的一行运算单元传输下来的累加结果，完成所有中间结果累加；将累加器缓冲中的缓存结果写回至本地局部存储器中。2.根据权利要求1所述的一种支持不同精度累加结果写回硬件的方法，其特征在于，在矩阵乘法加速单元中构建由多个同构的运算单元组成的二维脉动阵列时，阵列构建方式包括：由一个行数为16行，列数为16列的阵列单元组成的阵列；和/或由两个行数为8行，列数为8列的阵列单元组成的阵列。3.根据权利要求1所述的一种支持不同精度累加结果写回硬件的方法，其特征在于，读取本地局部存储器中的北向数据，预加载在矩阵乘法加速单元中从北向南传输，具体包括：采用北向数据加载读取本地局部存储器中的北向数据，将北向数据预加载在矩阵乘法加速单元中最北侧一行，每次加载一行；北向数据在二维脉动阵列中按行从北向南传输。4.根据权利要求1所述的一种支持不同精度累加结果写回硬件的方法，其特征在于，读取本地局部存储器中的西向数据，加载在矩阵乘法加速单元中从西向东传输，具体包括：通过西向数据整形与加载读取本地局部存储器中的西向数据，并进行整形后缓存；将西向数据加载在矩阵乘法加速单元中最西侧一列，每次加载一列；西向数据在二维脉动阵列中按列从西向东传输。5.根据权利要求1所述的一种支持不同精度累加结果写回硬件的方法，其特征在于，在矩阵乘法加速单元中对西向数据和北向数据进行乘加操作，具体包括：西向数据到达运算单元后与缓存在运算单元内部的北向数据进行乘法运算；乘法结果与北边运算...

【专利技术属性】
技术研发人员：谭弘兵，吴铁彬，谢军，郝子宇，王迪，
申请(专利权)人：无锡江南计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人