一种基于压缩神经网络的二阶段量化实现方法及装置制造方法及图纸

技术编号：34275283 阅读：12 留言：0更新日期：2022-07-24 17:00

本发明专利技术涉及一种基于压缩神经网络的二阶段量化实现方法及装置。该方法包括以下步骤：(1)根据神经网络的目标任务，使用CPU或GPU将神经网络模型训练至收敛。(2)根据目标任务所需的神经网络的压缩率，设置神经网络每层的目标稀疏度，逐阶段地对权值进行剪枝。(3)根据目标任务预设的量化位宽，二阶段地量化神经网络每层的权值，量化的第一阶段是聚类，使用聚类算法聚类神经网络每层的权值；第二阶段是放缩，根据目标任务预设的量化位宽，将得到的聚类中心放缩到定点数，最终结果以三元组的形式存储每层的权值矩阵。本发明专利技术能够减少模型所需的计算成本和存储成本，提升模型的推理速度，并且可以有效地弥补传统线性量化在低位宽下的精度损失。的精度损失。的精度损失。

A two-stage quantization method and device based on compressed neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于压缩神经网络的二阶段量化实现方法及装置

[0001]本专利技术涉及神经网络
，尤其涉及一种基于压缩神经网络的二阶段量化实现方法及装置。

技术介绍

[0002]深度神经网络在图像分类、目标检测、语音合成和语义分割等复杂的应用中具有很高的辨别能力。但是这些模型需要的大量计算成本和存储成本，使得它们无法很好的部署在边缘端设备。对于能够通过网络连接访问强大计算资源的项目，部署大型的神经网络可能不会产生资源紧张的问题。然而，对于嵌入式硬件平台上的边缘计算，由于安全、隐私和延迟等主要的考虑因素(例如智能传感器、穿戴设备、自动驾驶和无人驾驶飞行器跟踪)，使得它的推理必须在本地或网络边缘执行，因此可供使用的计算资源有限，同时这种计算受到严格的区域和功率限制。
[0003]为解决神经网络的计算成本和存储成本问题。研究者提出对神经网络进行压缩和量化。聚类是一种常用的神经网络压缩技术，该方法多用于将神经网络模型最大化地压缩，研究者通过在神经网络的权值矩阵中存储聚类标签，来将浮点数的权值矩阵转化为定点数，但聚类标签本身并不能用作计算，在网络推理时，仍使用的是浮点数的聚类中心。通过量化将浮点数权值转化为定点数权值的思想在上世纪90年代就被提出了，量化后的神经网络可以使用定点数计算来加速网络的推理。线性量化是一种常用的量化方法，该方法在8bit量化位宽上，不会造成神经网络模型推理准确率的明显下降，但是当使用线性量化将模型量化6bit以下，该网络模型会丧失推理能力。目前的边缘端设备，例如FPGA、ASIC等，可以通过自定义加...

【技术保护点】

【技术特征摘要】
1.一种基于压缩神经网络的二阶段量化实现方法，其特征在于，包括以下步骤：S1、根据神经网络的目标任务，使用CPU或GPU将神经网络模型训练至收敛；S2、根据目标任务所需的神经网络的压缩率，设置所述神经网络每层的目标稀疏度，逐阶段地对权值进行剪枝；S3、根据目标任务预设的量化位宽，二阶段地量化神经网络每层的权值；第一阶段是聚类，使用聚类算法聚类神经网络每层的权值；第二阶段是放缩，根据目标任务预设的量化位宽，将得到的聚类中心放缩到定点数，最终结果以三元组的形式存储每层的权值矩阵。2.根据权利要求1所述的基于压缩神经网络的二阶段量化实现方法，其特征在于，所述步骤S2中的根据目标任务所需的神经网络的压缩率，设置所述神经网络每层的目标稀疏度，具体包括：根据目标任务所需的神经网络的压缩率，除神经网络第一层外，设置所述神经网络其余每层的目标稀疏度；神经网络每层的目标稀疏度，由每层网络各自的所属的类型，以及该层网络所处在所述神经网络的深度决定。3.根据权利要求1所述的基于压缩神经网络的二阶段量化实现方法，其特征在于，所述步骤S2中的逐阶段地对权值进行剪枝，具体包括：根据所诉神经网络每层的目标稀疏度、初始稀疏度和预设的剪枝频率，确定每层网络本阶段所需剪枝的权值数M，其中M为正整数，将未剪枝的权值量级最小的M个权值确定为本阶段所需剪枝的权值，逐阶段地对神经网络每层的权值进行剪枝。4.根据权利要求1所述的基于压缩神经网络的二阶段量化实现方法，其特征在于，所述步骤S3中的二阶段地量化神经网络每层的权值，具体包括：第一阶段：根据目标任务所需的量化位宽，确定聚类中心数，使用粒子群聚类算法聚类经过剪枝后的权值矩阵，得到...

【专利技术属性】
技术研发人员：杨文鑫，支小莉，童维勤，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人