一种基于特征图稀疏性的卷积神经网络加速器制造技术

技术编号：29158122 阅读：29 留言：0更新日期：2021-07-06 22:58

本发明专利技术公开了一种基于特征图稀疏性的卷积神经网络加速器。所述卷积神经网络加速器包括输入特征图编码模块、权重编码模块、数据流控制模块、稀疏矩阵计算模块和总线；总线分别连接数据流控制模块、输入特征图编码模块、权重编码模块和稀疏矩阵计算模块；输入特征图编码模块根据特征图中的0元素，对特征图编码；权重编码模块根据输入特征图编码模块的编码信息，为稀疏矩阵计算模块提供对应的权重数据；数据流控制模块根据寄存器信息控制其余模块的工作模式；稀疏矩阵计算模块使用输入特征图编码模块和权重编码模块提供的数据进行卷积计算。本发明专利技术可以将加速器切换为利用权重中的稀疏性，可以灵活应用，对稀疏权重加以支持。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征图稀疏性的卷积神经网络加速器
本专利技术涉及卷积神经网络硬件加速器领域，属于集成电路硬件加速
，具体涉及一种基于特征图稀疏性的卷积神经网络加速器。
技术介绍
近年来人工智能技术迅速发展，深度神经网络在自然语言处理、计算机视觉等方面取得了重大的突破。随着移动设备的普及和物联网的出现，在移动设备或者物联网设备上部署神经网络的需求与日俱增。然而，算法中大量的数据移动与其计算复杂性对终端设备的功耗以及性能带来的巨大的挑战，阻碍了CNN算法在智能手机、智能汽车、智能家居领域的应用部署。目前已经出现许多对于CNN算法进行硬件加速的方法，设计在灵活性与乘法器利用效率等方面都表现很好，但是这些设计都无法突破卷积层的算力需求限制，或者是通过引导模型在训练时将权重稀疏化，然后利用权重的稀疏性进行计算，然后对模型进行稀疏化引导需要额外的训练时间，不利于模型的直接部署。论文《AnEfficientHardwareAcceleratorforStructuredSparseConvolutionalNeuralNetworksonFPGAs》中，通过大规模查找表实现了对权重的0元素的利用，但是论文所采用的方法一方面需要消耗大量查找表资源，另一方面需要在神经网络模型训练阶段额外引导模型权重的产生0元素，不利于模型直接部署。同时，目前主流神经网络模型中，大量采用Relu激活函数(f(x)＝MAX(0,x))，使得特征图中出现大量0元素，当前方法并没有对这些0元素加以利用。
技术实现思路
本专利...

【技术保护点】
1.一种基于特征图稀疏性的卷积神经网络加速器，其特征在于，包括输入特征图编码模块、权重编码模块、数据流控制模块、稀疏矩阵计算模块和总线；/n总线分别连接数据流控制模块、输入特征图编码模块、权重编码模块和稀疏矩阵计算模块；输入特征图编码模块根据特征图中的0元素，对特征图编码；权重编码模块根据输入特征图编码模块的编码信息，为稀疏矩阵计算模块提供对应的权重数据；数据流控制模块根据寄存器信息控制其余模块的工作模式；稀疏矩阵计算模块使用输入特征图编码模块和权重编码模块提供的数据进行卷积计算，实现卷积神经网络加速器的功能。/n

【技术特征摘要】
1.一种基于特征图稀疏性的卷积神经网络加速器，其特征在于，包括输入特征图编码模块、权重编码模块、数据流控制模块、稀疏矩阵计算模块和总线；
总线分别连接数据流控制模块、输入特征图编码模块、权重编码模块和稀疏矩阵计算模块；输入特征图编码模块根据特征图中的0元素，对特征图编码；权重编码模块根据输入特征图编码模块的编码信息，为稀疏矩阵计算模块提供对应的权重数据；数据流控制模块根据寄存器信息控制其余模块的工作模式；稀疏矩阵计算模块使用输入特征图编码模块和权重编码模块提供的数据进行卷积计算，实现卷积神经网络加速器的功能。

2.根据权利要求1所述的一种基于特征图稀疏性的卷积神经网络加速器，其特征在于，数据流控制模块中的寄存器由外接的CPU通过总线进行配置，数据流控制模块根据寄存器配置信息中的卷积层计算参数，访问总线，读取输入特征图数据和权重数据，从而实现卷积计算，将输入特征图数据和权重数据对应灌入输入特征图编码模块和权重编码模块，并且将稀疏矩阵计算模块运算得到的输出特征图数据通过总线写回外部缓存；
同时，数据流控制模块根据输入特征图编码模块和稀疏矩阵计算模块的信息进行反压控制；
采用矩阵运算实现卷积，当稀疏矩阵计算模块经过多次矩阵运算结果并累加后，由数据流控制模块发出指令，控制稀疏矩阵计算模块将输出特征图数据依次输出。

3.根据权利要求2所述的一种基于特征图稀疏性的卷积神经网络加速器，其特征在于，所述数据流控制模块根据输入特征图编码模块和稀疏矩阵计算模块的信息进行反压控制，具体如下：
当输入特征图编码模块已经完成下一次矩阵计算所需数据的编码时，若稀疏矩阵计算模块没有完成本次数据计算，则使输入特征图编码模块暂停工作，直至稀疏矩阵计算模块完成本次计算；
而当稀疏矩阵计算模块完成本次计算时，若输入特征图编码模块未准备好下一次稀疏矩阵计算模块所需数据的编码时，则使稀疏矩阵计算模块暂停工作，直至输入特征图比那吗模块完成下一次运算所需数据的编码工作。

4.根据权利要求2所述的一种基于特征图稀疏性的卷积神经网络加速器，其特征在于，所述数据流控制模块，将卷积计算中的以滑窗为原子计算的计算模式，转换为以矩阵相乘计算为原子计算的计算模式；将卷积计算在输出特征图宽度、输出特征图高度、输出通道数、卷积核宽度、卷积核高度和输入通道数六个维度上的循环，通过循环之间的合并、拆分和调换次序三种方法，转换以矩阵与矩阵乘法为原子计算的计算模式；
所述计算模式在特征图宽度、输出特征图高度、输出通道数、卷积核宽度、卷积核高度和输入通道数六个维度中，在输入通道数和输出通道数的并行度为P，P表示每个单元存储的数据数量，稀疏矩阵计算模块中计算的矩阵尺寸为P*P矩阵。

5.根据权利要求4所述的一种基于特征图稀疏性的卷积神经网络加速器，其特征在于，原子计算进行的矩阵运算与传统计算流程不同，将传统计算流程的矩阵相乘Cnn＝Ann*Bnn计算时第一矩阵A的行向量与第二矩阵B的列向量对应相乘后累加的原子操作转换为，将第一矩阵A的...

【专利技术属性】
技术研发人员：秦华标，李嘉鑫，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人