一种量化MobileNet的硬件加速器及其设计方法技术

技术编号：32570975 阅读：25 留言：0更新日期：2022-03-09 16:58

本发明专利技术涉及一种量化MobileNet的硬件加速器及其设计方法，属于硬件加速及计算机视觉技术领域。包括顶层控制模块、存储器控制模块、逐点卷积模块、逐通道卷积模块及后处理模块；顶层控制模块与存储器控制模块、逐点卷积模块、逐通道卷积模块及后处理模块相连；存储器控制模块与逐点卷积模块、逐通道卷积模块及后处理模块相连。所述方法将输入数据与权重放入不同大小缓存，通过并行数可变的深度可分离卷积降低硬件使用并获得卷积结果，再通过后处理完成池化、跨层连接与地址生成，使得数据在连续地址上排布。所述方法解决了MobileNet缓存利用率低的问题、降低了耗时与资源消耗。降低了耗时与资源消耗。降低了耗时与资源消耗。

全部详细技术资料下载

【技术实现步骤摘要】
一种量化MobileNet的硬件加速器及其设计方法

[0001]本专利技术涉及一种量化MobileNet的硬件加速器及其设计方法，属于硬件加速设计及计算机视觉

技术介绍

[0002]深度神经网络已经成为了许多重要应用的一部分，尤其是在涉及到计算机视觉及语音处理等部分，传统模型无法对这些复杂应用进行良好的建模，而深度神经网络则可以完成良好的模型拟合。卷积神经网络根据生物对图像的感知过程演变而来，十分适合于计算机视觉任务，例如图像识别、图像分割等。近年来，许多不同的CNN模型被提出，提升了该类网络的不同部分性能，如计算复杂度，识别精度等。但这些提升带来的代价则是急剧上升的计算负载，存储负载以及带宽负载，例如在图像分类问题上，著名的ResNet50网络能够在ImageNet数据集上实现76.5％的top
‑
1准确率，但这种高准确率是以大量的运算以及内存操作为代价获取的，这导致这类网络只能在有着一定运算能力与存储空间的平台上运行，而极难部署或无法部署在小型移动平台上。尽管以MobileNet为代表的一系列效率型卷积神经网络以降低计算负载和权重大小为目标进行网络结构的重新设计，并且取得了显著的效果，但在一些边缘设备上仍旧面临着许多性能瓶颈，其中的一大问题便是存储问题。
[0003]随着智能社会的发展，我们希望在许多小型设备上也能实时运行高精度的神经网络模型以实现更多丰富的应用。但这些设备受限于成本、功耗等现实问题，计算能力与存储能力都十分有限，或许他们可以配备低功耗的廉价大容量片外存储(例如...

【技术保护点】

【技术特征摘要】
1.一种量化MobileNet的硬件加速器与外部存储器及控制器相连，包含顶层控制模块、存储器控制模块、逐通道卷积模块、后处理模块以及逐点卷积模块，其特征在于：逐通道卷积模块包含行缓存器子模块以及量化单元A；后处理模块包含池化子模块、跨层连接子模块与地址生成子模块；逐点卷积模块包含数据准备子模块、权重准备子模块、逐点卷积计算子模块与部分和累加子模块；逐点卷积计算子模块包括乘法阵列与可配置的加法器树，部分和累加子模块包括FIFO和量化单元B；顶层控制模块与存储器控制模块、逐点卷积模块、逐通道卷积模块及后处理模块相连；存储器控制模块与顶层控制模块、逐点卷积模块、逐通道卷积模块及后处理模块相连；逐点卷积模块与顶层控制模块、存储器控制模块、逐通道卷积模块及后处理模块相连；逐通道卷积模块与逐点卷积模块、顶层控制模块、存储器控制模块及后处理模块相连；逐通道卷积模块内部的连接方式为行缓存器子模块与量化单元A相连；逐点卷积模块内部的连接方式为数据准备子模块与逐点卷积计算子模块相连；权重准备子模块与逐点卷积计算子模块相连；逐点卷积计算子模块分别与数据准备子模块、权重准备子模块和部分和累加子模块相连；部分和累加子模块与逐点卷积计算子模块相连；其中，逐点卷积计算子模块内部的连接方式为乘法阵列与加法器树相连接；其中，部分和累加子模块内部的连接方式为FIFO和量化单元B相连接。2.依据权利要求1所述的硬件加速器，其特征在于：可配置的加法器树的工作过程为：按照顶层控制模块配置的输入输出通道并行数将乘法阵列的输出按照不同的通道并行度相加，从而达到输入输出通道并行度可配置。3.依据权利要求1所述的硬件加速器，其特征在于：顶层控制模块接收外部输入的控制信号启动硬件加速器，同时决定当前硬件加速器的状态，并根据当前状态通知存储器控制模块将当前输入输出缓存与其对应的最佳实际物理缓存相连接；通知逐点卷积模块本次运算对应的输入通道并行数与输出通道并行数；通知逐通道卷积模块当前运算需要进行补零的部分；通知后处理模块启用池化子模块、跨层连接子模块或地址生成子模块。4.依据权利要求1所述的硬件加速器，其特征在于：存储器控制模块根据顶层控制模块的指令将输入输出缓存对应至不同的实际物理缓存，送出或接收所需的数据与权重信息，并实现针对输入或输出缓存的乒乓缓存切换。5.依据权利要求1所述的硬件加速器，其特征在于：逐点卷积模块进行逐点卷积运算并完成部分累加和处理与量化操作，同时能够处理输入输出通道并行数不一致的运算请求；逐通道卷积模块进行对应位置补零与逐通道卷积运算并完成部分累加和处理与量化操作；后处理模块进行网络除卷积外的池化操作与跨层连接操作，同时对每一个输出结果生成对应的存储地址实现重排序。6.一种量化MobileNet的硬件加速器的设计方法，其特征在于：包括如下步骤：步骤1、顶层控制模块接收控制器传来的控制参数并初始化，并给存储器控制模块、逐点卷积模块、逐通道卷积模块及后处理模块发送指令；步骤2、存储器控制模块接收外部存储器的数据与权重，并根据顶层控制模块的指令选择接收输入数据与网络权重的顺序和对应存储位置，当存储器控制模块接收到的数据能满足单次运算过程时，跳至步骤3；步骤3、存储器控制模块向逐点卷积模块发送当前运算所需数据，同时存储器...

【专利技术属性】
技术研发人员：张延军，蔺彦儒，卢继华，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人