一种基于动态裁剪的模型推理加速方法技术

技术编号：37844519 阅读：11 留言：0更新日期：2023-06-14 22:27

本发明专利技术提出一种基于动态裁剪的模型推理加速方法，该方法应用于模型推理阶段，首先训练优化好模型进行推理，然后输入数据计算模型当前层的通道注意力，之后根据注意力分布情况进行动态过滤，将作用小或不起作用的通道对应的下层卷积结果使用全0代替，屏蔽非必要的卷积运算，其余的通道正常进行卷积运算，最后每层的运算重复上一步骤完成整个模型的推理过程。推理过程中每层动态屏蔽部分卷积运算，使得整个模型推理速度得以提升。本发明专利技术提出的动态裁剪加速方法是根据输入数据不同，模型在推理过程中对于每个特征通道的侧重点不同，屏蔽低权重通道的卷积计算实现加速推理。低权重通道的卷积计算实现加速推理。低权重通道的卷积计算实现加速推理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态裁剪的模型推理加速方法

[0001]本专利技术属于算法应用
，具体涉及一种基于动态裁剪的卷积神经网络模型推理加速方法。

技术介绍

[0002]高精度的深度学习模型往往存在运算量大，推理速度慢等缺点，尤其是在算力有限的嵌入式设备中，模型推理速度是限制其落地应用的主要瓶颈。现有模型裁剪技术一般是在使用模型前去除固定位置的卷积核，裁剪后模型的计算量降低一个固定值，模型推理速度相应提升固定的幅度，这种裁剪方法称为静态裁剪，即裁剪完成后模型推理过程的计算确定，且不因输入改变而改变。
[0003]由于深度学习网络模型为了拟合各个场景中的训练数据，需要大量的卷积核来构建适应所有训练数据的不同特征，而在一次推理过程中，输入只包含某一种场景，网络中只有极其少量的卷积核起作用,场景不同起作用的卷积核不同，因此在推理过程中模型存在动态的计算冗余，针对此问题，需要提出基于动态裁剪的模型推理加速方法。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术提出一种基于动态裁剪的模型推理加速方法，以解决模型在有限计算资源上加速推理、降低延迟的技术问题。
[0006](二)技术方案
[0007]为了解决上述技术问题，本专利技术提出一种基于动态裁剪的模型推理加速方法，该模型推理加速方法包括如下步骤：
[0008]S1.推理阶段输入数据，计算模型当前层的通道注意力
[0009]对于网络首层，进行正常的卷积激活运算，得到首层输出的多通道特征图；对于其余层...

【技术保护点】

【技术特征摘要】
1.一种基于动态裁剪的模型推理加速方法，其特征在于，所述模型推理加速方法包括如下步骤：S1.推理阶段输入数据，计算模型当前层的通道注意力对于网络首层，进行正常的卷积激活运算，得到首层输出的多通道特征图；对于其余层的多通道特征输入，计算每个通道内数据的绝对值的平均值作为此通道的注意力值；对于每个通道遍历每个位置求取所有元素绝对值的平均值作为此特征通道的注意力值，所有多通道特征形成对应的注意力数组，计算如公式(1)所示：其中，q
i
表示第i个特征图的注意力值，w、h表示特征图的宽、高，表示第i个特征图中k行j列的值；对于存在注意力机制的模型，不需要计算，直接使用注意力值；S2.根据注...

【专利技术属性】
技术研发人员：李艺强，吴钟建，金代中，陈陶，王升哲，罗镇宝，关炜，康朋新，郑杰，张毅，崔雨勇，赵径通，
申请(专利权)人：西南技术物理研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人