一种细粒度识别模型的压缩方法和设备技术

技术编号:26764804 阅读:41 留言:0更新日期:2020-12-18 23:41
本发明专利技术提出一种细粒度识别模型的压缩方法和设备,包括:步骤1、获取用于细粒度识别的深度神经网络模型;步骤2、对深度神经网络模型的缩放因子添加L1正则约束后进行训练;步骤3、在完成训练后,根据缩放因子对训练完成后的深度神经网络模型进行逐层剪枝处理;步骤4、对完成剪枝的深度神经网络模型进行调整以减小剪枝对模型带来的精度损失,得到调整后的深度神经网络模型。步骤5、重复执行步骤2‑步骤4,直到得到的深度神经网络模型符合预设模型剪枝阈值的条件,且将符合条件的深度神经网络模型作为最终模型。本方案通过多次根据缩放因子对训练完成后的深度神经网络模型进行逐层剪枝处理的方式,有效压缩了深度神经网络模型。

【技术实现步骤摘要】
一种细粒度识别模型的压缩方法和设备
本专利技术涉及细粒度识别
,特别涉及一种细粒度识别模型的压缩方法和设备。
技术介绍
细粒度识别是一种针对具有细微差异物体进行分类的图像分类任务,深度模型在细粒度识别任务表现出优异的性能。细粒度识别能够在细粒度级别完成图像分类任务,通常识别的对象是同一个大类之间的物体,比如鸟的分类、车型识别等。细粒度识别广泛应用在车型识别、智能货柜、植物识别等场景中。等提出多种细粒度的深度模型并取得了很好的效果。实际部署细粒度识别深度学习模型时,除了需要更精细粒度的准确率,还需要考虑模型运行时间复杂度和空间复杂度。在某些实际搭载的设备比如手机等终端设备,计算资源和存储资源有限,而度神经网络模型需要执行大量的浮点运算,并且有大量权重参数,比如ResNet50(ResidualNetwork,残差网络)需要执行5GFLOPs(GigaFloating-pointOperationsPerSecond,每秒10亿次的浮点运算数),有24M(Million,百万)个参数,这种情况严重制约了模型的实际应用。由此,如何降低模型运算处理的时间复杂度和空间复杂度,使得可以在终端设备上部署细粒度识别模型成为目前需要解决的技术问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提出了一种细粒度识别模型的压缩方法和设备,通过对细粒度识别模型的压缩,降低了模型运算处理的时间复杂度和空间复杂度,使得细粒度识别模型可以在终端设备上部署。具体的,本专利技术提出了以下具体的实施例:本专利技术实施例提出了一种细粒度识别模型的压缩方法,包括:步骤1、获取用于细粒度识别的深度神经网络模型;步骤2、对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练;步骤3、在完成训练后,根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理;步骤4、对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失,得到调整后的所述深度神经网络模型;步骤5、重复执行步骤2-步骤4,直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件,且将符合所述条件的所述深度神经网络模型作为最终模型。在一个具体的实施例中,所述深度神经网络模型为Bi-Attention模型;所述深度神经网络模型的骨干网络为ResNet50。在一个具体的实施例中,所述步骤1包括:通过样本数据采用弱监督学习方式训练得到用于细粒度识别的深度神经网络模型;其中,所述样本数据为设置有标签的图像。在一个具体的实施例中,一次所述训练所选取的样本数为偶数;所述步骤1包括:对每一次所述训练选的样本数据添加成对的混淆约束;通过添加成对的混淆约束后的每一批所述样本数据训练得到用于细粒度识别的深度神经网络模型。在一个具体的实施例中,所述深度神经网络模型包括:数据模块、卷积神经网络结构、注意力分支模块、损失函数计算模块;其中,所述数据模块用于处理所述深度神经网络模型训练和测试过程中的图像输入的批数据构造和预处理;所述卷积神经网络结构,用于对所述数据模块的图像进行特征提取;所述注意力分支模块,用于检测和提取包括特定特征的注意力区域;所述损失函数计算模块,用于计算所述深度神经网络模型在训练过中的损失函数。在一个具体的实施例中,所述缩放因子为网络BatchNormalization层中的缩放因子。本专利技术实施例还提出了一种细粒度识别模型的压缩设备,包括:获取模块、用于获取用于细粒度识别的深度神经网络模型;训练模块,用于对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练;剪枝模块,用于在完成训练后,根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理;调整模块,用于对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失,得到调整后的所述深度神经网络模型;迭代模块,用于重复执行依次执行训练模块、剪枝模块、调整模块,直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件,且将符合所述条件的所述深度神经网络模型作为最终模型。在一个具体的实施例中,所述深度神经网络模型为Bi-Attention模型;所述深度神经网络模型的骨干网络为ResNet50。在一个具体的实施例中,所述获取模块,用于:通过样本数据采用弱监督学习方式训练得到用于细粒度识别的深度神经网络模型;其中,所述样本数据为设置有标签的图像。在一个具体的实施例中,一次所述训练所选取的样本数为偶数;所述获取模块,用于:对每一次所述训练选的样本数据添加成对的混淆约束;通过添加成对的混淆约束后的每一批所述样本数据训练得到用于细粒度识别的深度神经网络模型。与现有技术相比,本方案具有以下效果:本方案通过多次根据所述缩放因子对训练完成后的深度神经网络模型进行逐层剪枝处理的方式,有效压缩了深度神经网络模型,提高了模型的压缩比,且基于L1正则化的网络剪枝方法在模型训练上与非压缩模型的训练相比没有引入过多的复杂度,并且不需要借助额外的运算库和硬件,性能上通过多次训练的方式达到理想的压缩比以减少模型的存储与计算消耗。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提出的一种细粒度识别模型的压缩方法的流程示意图;图2为本专利技术实施例提出的一种细粒度识别模型的压缩方法中Bi-Attention模型架构;图3为本专利技术实施例提出的一种细粒度识别模型的压缩方法中Attention分支网络结构图;图4为本专利技术实施例提出的一种细粒度识别模型的压缩方法的框架示意图;图5为本专利技术实施例提出的一种细粒度识别模型的压缩方法中训练过程中的损失函数曲线示意图;图6为本专利技术实施例提出的一种细粒度识别模型的压缩方法中训练过程中的准确率函数曲线示意图;图7为本专利技术实施例提出的一种细粒度识别模型的压缩设备的结构示意图。具体实施方式在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技本文档来自技高网...

【技术保护点】
1.一种细粒度识别模型的压缩方法,其特征在于,包括:/n步骤1、获取用于细粒度识别的深度神经网络模型;/n步骤2、对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练;/n步骤3、在完成训练后,根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理;/n步骤4、对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失,得到调整后的所述深度神经网络模型;/n步骤5、重复执行步骤2-步骤4,直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件,且将符合所述条件的所述深度神经网络模型作为最终模型。/n

【技术特征摘要】
1.一种细粒度识别模型的压缩方法,其特征在于,包括:
步骤1、获取用于细粒度识别的深度神经网络模型;
步骤2、对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练;
步骤3、在完成训练后,根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理;
步骤4、对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失,得到调整后的所述深度神经网络模型;
步骤5、重复执行步骤2-步骤4,直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件,且将符合所述条件的所述深度神经网络模型作为最终模型。


2.如权利要求1所述的方法,其特征在于,所述深度神经网络模型为Bi-Attention模型;所述深度神经网络模型的骨干网络为ResNet50。


3.如权利要求1所述的方法,其特征在于,所述步骤1包括:
通过样本数据采用弱监督学习方式训练得到用于细粒度识别的深度神经网络模型;其中,所述样本数据为设置有标签的图像。


4.如权利要求3所述的方法,其特征在于,一次所述训练所选取的样本数为偶数;
所述步骤1包括:
对每一次所述训练选的样本数据添加成对的混淆约束;
通过添加成对的混淆约束后的每一批所述样本数据训练得到用于细粒度识别的深度神经网络模型。


5.如权利要求1所述的方法,其特征在于,所述深度神经网络模型包括:数据模块、卷积神经网络结构、注意力分支模块、损失函数计算模块;其中,
所述数据模块用于处理所述深度神经网络模型训练和测试过程中的图像输入的批数据构造和预处理;
所述卷积神经网络结构,用于对所述数据模块的图像进行特征提取;
所述注意力分支...

【专利技术属性】
技术研发人员:尹继圣
申请(专利权)人:深圳感臻科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1