本发明专利技术公开了一种基于双注意力机制的稀疏剪枝方法,该方法在保证性能精度较好的条件下高效压缩网络模型大小和参数量。根据空间注意力和通道注意力理论,融合通道注意力和空间注意力机制模块筛选注意力位于网络模型中最佳结构,随后根据网络中不同权重所对应的掩码来选择性保留和剔除相对应权重,通过掩码矩阵来更新和完成剪枝操作,同时根据神经网络总体空间损失实时更新掩码矩阵和权重矩阵。通过Pytorch深度学习框架来不断更新网络权重,并根据掩码矩阵对神经网络进行剪枝操作。实验结果表明本方法在对公共数据集进行性能测试时识别准确率较高,并且网络中剔除了较多冗余参数,使得网络模型得到有效压缩。使得网络模型得到有效压缩。使得网络模型得到有效压缩。
【技术实现步骤摘要】
基于双注意力机制的稀疏剪枝方法
[0001]本专利技术属于人工智能、图像处理与人工神经网络与计算交叉领域,主题内容是一种融合通道注意力和空间注意力机制的剪枝方法,通过构造有效注意力机制模块来搭建高效网络架构,通过掩码矩阵来确定相应权重是否保留,该方法有效对网络架构进行压缩,从而获得精简网络。
技术介绍
[0002]网络压缩实际意义在于保证精度的情况下尽可能地减少模型计算量及参数量,减少模型运算时间,将模型深度控制在合理范围之内,便于实现模型的移植部署以满足实际应用需求。近些年来较为常见的网络压缩方法包含权重量化、知识蒸馏,网络剪枝。量化采用的思想是通过低精度参数或者各种参数量化方法减少冗余网络参数,有效提高网络训练速度及减小网络压缩空间,但该方法受限于软硬件配置且必须支持低精度计算,所以该方法不适合所有神经网络。就知识蒸馏而言,最为重要的环节是如何从教师网络中提取到能够有效指导学生网络进步的知识,进而将复杂、学习能力强的教师网络学到的特征通过蒸馏迁移至学习能力较弱的学生网络中来,但该方法需要有效设计教师和学生网络结构框架。知识蒸馏的使用场景受限于教师网络的应用场景,在网络实际应用中缺乏灵活性。
[0003]在基于模型压缩剪枝方向的研究中,Lecun等人采用泰勒多项式构造贡献度模型,求解剔除某些特定参数后对目标函数所造成的影响,但忽略了剔除大量参数时展开式中高次幂项的重要性;Han等人首次提出训练
‑
剪枝
‑
微调等经典剪枝策略,迭代剪枝与微调操作进行权重修剪,但会引来额外计算及时间复杂度问题。为解决上述问题,Liu等人选取BN层的尺度因子作为衡量通道剪枝指标,对尺度因子实施L1范数达到稀疏化,然后剔除掉数值较小对应的通道;Pool等人采用L1范数正则化衡量卷积核重要性,按绝对值数值大小次序剔除一定数量的卷积核,降低内存需求以适应资源受限设备下的应用。
技术实现思路
[0004]本文融合空间注意力机制和通道注意力机制,通过权重掩码方式对神经网络中的不同层间的权重进行稀疏化剪枝,通过空间损失变化情况来不断更新掩码矩阵及权重矩阵。通过仿真实验发现,此方法有效对网络模型进行压缩,且提高神经网络的识别精准度。
[0005]主要技术方案包括:融合通道和空间注意力机制模块,通过将通道和空间注意力模块融于原初始网络模型,利用注意力机制来模拟人类选择性注意方式,在网络模型中构造高效注意力结合模块,结合掩码矩阵与权重矩阵对神经网络进行剪枝操作,最终得到高效压缩模型。
[0006]实验仿真表明,融于注意力机制模型有效提取关键信息,同时基于剔除网络冗余参数时使得模型大小得到有效控制,有较高的识别精准度。
附图说明
[0007]下面是该方法主要的附图。
[0008]图1是本专利技术方法的流程图。
[0009]图2是融合通道和空间注意力机制模块图
[0010]图3是CIFAR10、CIFAR100数据集图。
[0011]图4是本文方法在数据集CIFAR10、CIFAR100条件下的测试图。
[0012]图5是神经网络架构模型图。
具体实施方式
[0013]下面结合附图和具体实施方式对本专利技术做进一步说明。
[0014]本专利技术的流程图如图1所示,基于双注意力机制的稀疏剪枝方法,该方法具体包括以下流程:
[0015]步骤一:构造高效注意力机制模块
[0016]通道注意力利用数据集中样本信息进行高效学习,使神经网络能够做出最佳判断,而空间注意力可以根据任务种类的不同学习到局部关键信息,提高神经网络的预测判别能力,通过将两者有效融合在一起,可以让网络自适应地学习到数据集中的关键信息。
[0017]当数据集被送入神经网络中,首先需对数据进行预处理,随后分双路送入平均池化层和最大池化层,经过池化层分别转化为权重向量。随后通过神经网络将权重向量转化为权重映射并进行激活,生成的特征输出图与初始特征图进行结合进行输出。
[0018]将上述输出转化成空间注意力的特征输入,分别经过平均和最大池化转化为特征权重,随后进行特征图堆叠,使得特征图中各部分的重要性程度得以表达,进而得到通道和空间注意力的图像特征。
[0019]步骤二:稀疏化网络剪枝操作
[0020]对神经元连接权重引入掩码{0,1}进行剪枝操作,0表示该权重被剔除,1表示相对应权重得以保留。
[0021]M代表掩码矩阵、W表示初始化权重矩阵,W
′
表示更新后的权重矩阵。
[0022]通过M
×
W=W
′
来不断调整掩码矩阵和权重矩阵。
[0023]当M
ij
=1时,表示其对应的权重参数没有被剔除;M
ij
=0时则表示相对应权重参数被剔除。
[0024]为有效剔除相关冗余参数及权重,可以将掩码0,1决策问题看成二元随机变量选取问题。
[0025]假设权重掩码m
i
收敛于1(即保留权重)概率为p,则掩码0的概率为1
‑
p。同时网络不同层与层之间的选择相互独立且不受影响,则上述问题的概率条件分布等同于伯努利分布:
[0026][0027]通过网络权重与掩码的结合可以一定程度上剔除冗余参数权重,控制网络模型大小。
[0028]鉴于初始化神经网络含有大量冗余参数,通过将离散掩码数量与随机变量进行密
切关联,使得剪枝网络的性能测试损失不断减小,并对于网络中所有参数进行稀疏度控制,使得离散掩码选择问题转化连续空间损失问题:
[0029][0030]w∈R
n p∈||p||0≤k
[0031]其中w∈R
n
表示网络层中所有参数,p∈通过不断更新权重参数矩阵和掩码矩阵使得两者进行结合,不断剔除网络中冗余参数,直至得到符合预期稀疏度或剪枝率条件下进行最小损失评估,筛选出符合条件的最佳网络模型。
[0032]方法测试
[0033]仿真实验选用公共数据集CIFAR10、CIFAR100,两个数据集中图片大小为32
×
32彩色图片,两者具有相同的训练和测试数据样本比例,并通过深度学习平台Pytorch进行剪枝策略训练,采用Matlab2018a软件进行实验结合可视化操作。
[0034]本方法从剪枝率和参数量、识别精度三方面来进行评估该方法的性能,剪枝率可以用来评价网络模型在剔除大量参数时是否能够保持较高性能优势,参数量在一定程度上反映网络模型的大小。
[0035]为了评估本文方法的剪枝效率,首先在基础网络架构中筛选出最佳注意力机制结合模块,随后根据掩码矩阵的不断更新来剔除原神经网络贡献程度较小的参数,同时在保证精度的预定范围内实现模型的精简化。利用数据集评估模型在压缩后性能表现情况,实现精度和资源最大化均衡。
[0036]图4为本方法Resnet32数据集上的测试数据。
[0037]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于双注意力机制的稀疏剪枝方法,其特征在于:该方法在保证性能精度较好的条件下高效压缩网络模型大小和参数量;根据空间注意力和通道注意力理论,融合通道注意力和空间注意力机制模块筛选注意力位于网络模型中最佳结构,随后根据网络中不同权重所对应的掩码来选择性保留和剔除相对应权重,通过掩码矩阵来更新和完成剪枝操作,同时根据神经网络总体空间损失实时更新掩码矩阵和权重矩阵;通过Pytorch深度学习框架来不断更新网络权重,并根据掩码矩阵对神经网络进行剪枝操作;实验结果表明本方法在对公共数据集进行性能测试时识别准确率较高,并且网络中剔除了较多冗余参数,使得网络模型得到有效压缩。2.根据权利要求1所述的一种基于双注意力机制的稀疏剪枝方法,其特征在于:该方法具体包括以下流程:步骤一:构造高效注意力机制模块1)通道注意力利用数据集中样本信息进行高效学习,使神经网络能够做出最佳判断,而空间注意力可以根据任务种类的不同学习到局部关键信息,提高神经网络的预测判别能力,通过将两者有效融合在一起,可以让网络自适应地学习到数据集中的关键信息;2)当数据集被送入神经网络中,首先需对数据进行预处理,随后分双路送入平均池化层和最大池化层,经过池化层分别转化为权重向量;随后通过神经网络将权重向量转化为权重映射并进行激活,生成的特征输出图与初始特征图进行结合进行输出;3)将上述输出转化成空间注意力的特征输入,分别经过平均和最大...
【专利技术属性】
技术研发人员:叶汉民,李志波,蒲立力,
申请(专利权)人:桂林理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。