一种基于动态裁剪的模型推理加速方法技术

技术编号:37844519 阅读:11 留言:0更新日期:2023-06-14 22:27
本发明专利技术提出一种基于动态裁剪的模型推理加速方法,该方法应用于模型推理阶段,首先训练优化好模型进行推理,然后输入数据计算模型当前层的通道注意力,之后根据注意力分布情况进行动态过滤,将作用小或不起作用的通道对应的下层卷积结果使用全0代替,屏蔽非必要的卷积运算,其余的通道正常进行卷积运算,最后每层的运算重复上一步骤完成整个模型的推理过程。推理过程中每层动态屏蔽部分卷积运算,使得整个模型推理速度得以提升。本发明专利技术提出的动态裁剪加速方法是根据输入数据不同,模型在推理过程中对于每个特征通道的侧重点不同,屏蔽低权重通道的卷积计算实现加速推理。低权重通道的卷积计算实现加速推理。低权重通道的卷积计算实现加速推理。

【技术实现步骤摘要】
一种基于动态裁剪的模型推理加速方法


[0001]本专利技术属于算法应用
,具体涉及一种基于动态裁剪的卷积神经网络模型推理加速方法。

技术介绍

[0002]高精度的深度学习模型往往存在运算量大,推理速度慢等缺点,尤其是在算力有限的嵌入式设备中,模型推理速度是限制其落地应用的主要瓶颈。现有模型裁剪技术一般是在使用模型前去除固定位置的卷积核,裁剪后模型的计算量降低一个固定值,模型推理速度相应提升固定的幅度,这种裁剪方法称为静态裁剪,即裁剪完成后模型推理过程的计算确定,且不因输入改变而改变。
[0003]由于深度学习网络模型为了拟合各个场景中的训练数据,需要大量的卷积核来构建适应所有训练数据的不同特征,而在一次推理过程中,输入只包含某一种场景,网络中只有极其少量的卷积核起作用,场景不同起作用的卷积核不同,因此在推理过程中模型存在动态的计算冗余,针对此问题,需要提出基于动态裁剪的模型推理加速方法。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术提出一种基于动态裁剪的模型推理加速方法,以解决模型在有限计算资源上加速推理、降低延迟的技术问题。
[0006](二)技术方案
[0007]为了解决上述技术问题,本专利技术提出一种基于动态裁剪的模型推理加速方法,该模型推理加速方法包括如下步骤:
[0008]S1.推理阶段输入数据,计算模型当前层的通道注意力
[0009]对于网络首层,进行正常的卷积激活运算,得到首层输出的多通道特征图;对于其余层的多通道特征输入,计算每个通道内数据的绝对值的平均值作为此通道的注意力值;对于每个通道遍历每个位置求取所有元素绝对值的平均值作为此特征通道的注意力值,所有多通道特征形成对应的注意力数组,计算如公式(1)所示:
[0010][0011]其中,q
i
表示第i个特征图的注意力值,w、h表示特征图的宽、高,表示第i个特征图中k行j列的值;
[0012]对于存在注意力机制的模型,不需要计算,直接使用注意力值;
[0013]S2.根据注意力屏蔽不重要通道对应的下层卷积运算
[0014]根据当前特征图的注意力进行动态筛选,依据公式(2)、(3)计算注意力数组的平均值与标准差,选取合适阈值;在下一层卷积运算中进行过滤,对于注意力大于阈值的通道正常运算不做改变,进行正常的卷积运算;对于注意力小于阈值的通道跳过其对应的卷积
运算,使用全0作为结果:
[0015][0016][0017]其中,μ为模型同一层特征通道对应注意力数组的平均值,δ为模型同一层特征通道对应注意力数组的标准差;
[0018]S3.每层依次进行步骤S1和S2,完成整个模型前向推理过程,得到模型结果。
[0019]进一步地,步骤S2中,使用μ

3*δ作为阈值。
[0020](三)有益效果
[0021]本专利技术提出一种基于动态裁剪的模型推理加速方法,该方法应用于模型推理阶段,首先训练优化好模型进行推理,然后输入数据计算模型当前层的通道注意力,之后根据注意力分布情况进行动态过滤,将作用小或不起作用的通道对应的下层卷积结果使用全0代替,屏蔽非必要的卷积运算,其余的通道正常进行卷积运算,最后每层的运算重复上一步骤完成整个模型的推理过程。推理过程中每层动态屏蔽部分卷积运算,使得整个模型推理速度得以提升。
[0022]本专利技术提出的动态裁剪加速方法是根据输入数据不同,模型在推理过程中对于每个特征通道的侧重点不同,屏蔽低权重通道的卷积计算实现加速推理。极端情况下,如输入图片全0,该方法会屏蔽99%以上的推理计算直接得到结果,这种在推理过程中计算量根据输入改变而改变的动态裁剪方法与现有静态裁剪方法不冲突,可以同时使用。
附图说明
[0023]图1为动态剪裁原理示意图;
[0024]图2为本专利技术实施例中通道注意力计算原理示意图法;
[0025]图3为本专利技术实施例中动态裁剪过程原理示意图。
具体实施方式
[0026]为使本专利技术的目的、内容和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。
[0027]如图1所示,对于不同的图像,同一模型推理过程中产生的中间特征图不同,图中深色通道表示起主要作用的特征图,其特点是包含信息丰富;浅色通道表示作用小或无作用的特征图,其主要特点是包含信息极少。对于不同的输入,起作用的特征图在通道中的分布不同,如图中标框通道所示。动态的屏蔽作用小或无作用的特征图可达到降低计算量加速模型的目的。
[0028]本实施例提出一种基于动态裁剪的模型推理加速方法,该模型推理加速方法具体包括如下步骤:
[0029]S1.推理阶段输入数据,计算模型当前层的通道注意力
[0030]对于网络首层,进行正常的卷积激活运算,得到首层输出的多通道特征图;对于其余层的多通道特征输入,计算每个通道内数据的绝对值的平均值作为此通道的注意力值,
如图2所示,方块表示特征图的一个通道,对于每个通道遍历每个位置求取所有元素绝对值的平均值作为此特征通道的注意力值,所有多通道特征形成对应的注意力数组,计算如公式(1)所示,其中,q
i
表示第i个特征图的注意力值,w、h表示特征图的宽、高,表示第i个特征图中k行j列的值;对于存在注意力机制的模型,不需要计算,直接使用注意力值。
[0031][0032]S2.根据注意力屏蔽不重要通道对应的下层卷积运算
[0033]根据当前特征图的注意力进行动态筛选,依据公式(2)、(3)计算注意力数组的平均值与标准差,选取合适阈值(推荐使用μ

3*δ作为阈值);在下一层卷积运算中进行过滤,对于注意力大于阈值的通道正常运算不做改变,进行正常的卷积运算;对于注意力小于阈值的通道跳过其对应的卷积运算,使用全0作为结果;
[0034][0035][0036]其中,μ为模型同一层特征通道对应注意力数组的平均值,δ为模型同一层特征通道对应注意力数组的标准差;
[0037]如图3所示,卷积核w1中白色部分对应特征图A中注意力值小于阈值的通道,此部分卷积计算在推理过程中将被屏蔽,依据输入数据,每次屏蔽不同部分的运算得到特征图B;卷积核w2中白色部分为依据特征图B的注意力进行动态屏蔽的运算,得到特征图C。在网络中每层屏蔽的计算不同。
[0038]S3.每层依次进行步骤S1和S2,完成整个模型前向推理过程,得到模型结果。
[0039]为对比模型动态裁剪前后的加速效果。采用轻量的分类网络进行对比,模型功能为图像分类,共3类(船、直升机、背景),网络结构如表1所示。
[0040]表1网络结构
[0041]模块输入输出卷积参数卷积+Relu1
×
128
×
12816
×
64
×
6416
×1×3×
3卷积+Rel本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态裁剪的模型推理加速方法,其特征在于,所述模型推理加速方法包括如下步骤:S1.推理阶段输入数据,计算模型当前层的通道注意力对于网络首层,进行正常的卷积激活运算,得到首层输出的多通道特征图;对于其余层的多通道特征输入,计算每个通道内数据的绝对值的平均值作为此通道的注意力值;对于每个通道遍历每个位置求取所有元素绝对值的平均值作为此特征通道的注意力值,所有多通道特征形成对应的注意力数组,计算如公式(1)所示:其中,q
i
表示第i个特征图的注意力值,w、h表示特征图的宽、高,表示第i个特征图中k行j列的值;对于存在注意力机制的模型,不需要计算,直接使用注意力值;S2.根据注...

【专利技术属性】
技术研发人员:李艺强吴钟建金代中陈陶王升哲罗镇宝关炜康朋新郑杰张毅崔雨勇赵径通
申请(专利权)人:西南技术物理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1