当前位置: 首页 > 专利查询>东南大学专利>正文

基于通道注意力模块的轻量级神经网络模型制造技术

技术编号:29934847 阅读:280 留言:0更新日期:2021-09-04 19:09
本发明专利技术公开了一种基于通道注意力模块的轻量级神经网络模型,该模型基本模块是由深度可分离卷积、逐点卷积以及通道注意力模块相互结合而成。利用深度可分离卷积替换标准卷积能够降低参数量与计算量,而逐点卷积能够实现跨通道之间图像特征信息的融合;最后引入通道注意力机制,一方面增加图像特征信息之间的交互,提升卷积效率,另一方面则能够通过学习图像全局信息来有选择性地加强包含有用信息的特征并抑制无用信息特征。基于此构建的轻量级神经网络模型DCCANet相比于目前主流轻量级神经网络模型,在COCO数据集目标检测与实例分割任务中,检测精度与实例分割精度以及响应速度都有了明显的提升。都有了明显的提升。都有了明显的提升。

【技术实现步骤摘要】
基于通道注意力模块的轻量级神经网络模型


[0001]本专利技术属于人工智能
,具体涉及神经网络模型的压缩与加速,以及轻量级神经网络模型结构的设计。本专利技术所提出的模型能够在图像分类、检测以及分割等图像领域被广泛的应用。

技术介绍

[0002]目前,随着深度学习技术的发展,关于神经网络模型的研究热点也进一步转变。初期研究方向集中于如何加深神经网络模型的深度,用于提取深层特征,并促进梯度的传播。而现在愈来愈多的应用场景具有落地需求,在硬件资源有限的条件下,如何降低神经网络模型的大小并加快识别响应速度,并保证其识别精度不会大幅度降低成为当下研究的热点之一。
[0003]关于神经网络模型的压缩与加速的研究,主流研究方法有:(1)参数修剪,是指删除网络模型中的一些冗余参数,降低网络的复杂度,提高模型的泛化能力;(2)网络精馏,是指利用大量未标记的迁移数据,通过训练,让小模型去拟合大模型,从而让小模型学到与大模型相似的函数映射;(3)低秩分解,则是利用矩阵或张量分解技术来分解深度网络模型中的卷积核;(4)模型量化,核心思想是利用较低的位(FP16、INT8)代替原始32位浮点型的参数,能够大幅提升模型的压缩率,但同时也会导致识别精度的明显降低;(5)设计紧凑型卷积,主要是对网络结构的改进与设计。基本思想通过将神经网络模型中的较大卷积核直接进行替换为紧凑型卷积核,能够保证感受野不变,并增加了模型非线性表达能力的情况下,大幅度降低模型的参数量,以及减少相应的计算量,从而实现了对模型的压缩。典型代表网络模型有SqueezeNet以及MobileNet等。在以上几个研究方法中,如何设计一种轻量级神经网络模型结构是当下研究的最大热点之一。
[0004]在轻量级神经网络结构的设计过程中,通常是利用组卷积,深度可分离卷积,以及逐点卷积来构建网络模型。其中MobileNet系列与ShuffleNet系列都取得了一定的成功,在图像分类,目标检测以及图像分割等领域任务中大放异彩。不仅大幅度降低了网络模型的复杂性,使其更容易部署在移动端,而且还能够保证模型仍然具有良好的识别精度。然而,在此基础上,如何能够进一步压缩与加速神经网络模型仍然充满了挑战。

技术实现思路

[0005]为了克服现有技术不足,本专利技术设计了一种基于通道注意力的轻量级神经网络模型DCCANet(Depthwise separable convolution combined with Channel Attention module)。利用深度可分离卷积,逐点卷积以及通道注意力模块之间的组合,能够有效提升卷积的效率。从而实现模型能够在较低的参数量与计算量情况下,仍然具有较高的识别准确率。
[0006]本专利技术所采用的技术方案包括如下步骤:
[0007]一种基于通道注意力模块的轻量级神经网络模型,包括多个结构重复网络模块;
所述网络模块包括依次连接的深度可分离卷积层、逐点卷积层、深度可分离卷积层和通道注意力层。
[0008]进一步的,所述深度可分离卷积层、逐点卷积层的卷积核大小分别为3x3、1x1。对于本结构具体而言,每个网络模块的内部卷积层按顺序组成结构如下:首先是一个卷积核大小为3x3的深度可分离卷积层,其输出紧接着是一个卷积核大小为1x1逐点卷积层。然后再用一个卷积核大小为3x3的深度可分离卷积对上一层的卷积输出进行卷积操作。最后再利用通道注意力层对深度可分离卷积后的输出特征做进一步增强,增强细微特征的提取能力,并且还能够增加通道之间特征信息的交互。模块内部的卷积通道数量采用了一种逐步扩张的方式。对于输入通道数为C的特征图,经首先过3x3深度可分离卷积后,通道数量仍然为C。其次在经过1x1卷积时,对其通道数量以2的倍数进行扩张。最后的深度可分离卷积层与通道注意力层均不改变其通道数量。
[0009]进一步的,所述通道注意力层利用全局池化将卷积输出的特征维度转化为1x1xC,其中C为特征图的通道数,再通过一维卷积进一步提取特征,并利用Sigmoid激活函数进行激活转化为C个数值,然后将其作为权重系数作用于C个特征通道。利用注意力机制来弥补深度可分离卷积的缺陷。通道注意力机制可以学习图像的全局信息,增强有用特征,抑制无用特征。并能够替换标准卷积,对深度可分离卷积输出后的特征信息做进一步的融合与交互,增强了模型的特征提取能力,提升卷积的效率,同时仍然保证了模型较低的参数量与计算量。
[0010]进一步的,在第一层的深度可分离卷积与第二层的逐点卷积层后,分别添加BN层以及Relu激活函数层。在第三层的深度可分离卷积层后添加BN层与线性激活函数层,相比于Relu激活函数,线性激活函数能够减少特征信息的丢失问题。
[0011]本专利技术与现有技术相比,具有以下优点:与其它轻量级神经网络模型相比较,在同等参数量的情况下,其特征提取能力更强,能够学习到更加深层的特征信息,因此,具有更高的识别准确率。而在性能接近的条件下,本专利技术具有更少的参数量与计算量,更加适用于具有实时性要求的应用场景。
附图说明
[0012]图1是本专利技术的网络模型结构图。
[0013]图2是MobileNetV2网络模型结构图。
[0014]图3是基于本专利技术的实例分割与检测结果与其它模型的对比图。
具体实施方式
[0015]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术做进一步详细说明应当理解,此处描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0016]基于通道注意力模块的轻量级神经网络模型,主要思想方法是:首先利用卷积核大小为3x3深度可分离卷积与卷积核大小为1x1的逐点卷积搭建基本网络。然后利用参数量与计算量更少的通道注意力模块来进一步增强深度可分离卷积输出通道特征信息之间的交互,提升卷积效率,并加强图像中细微特征的提取,从而具有较高的识别准确率。
[0017]如图1所示,是本专利技术的网络模型基本组成单元结构图。进一步的,每个网络模块内部共包含4个卷积层,其中顺序结构分别是卷积核大小为3x3的深度可分离卷积层,然后是卷积核大小为1x1的逐点卷积层,最后是一个卷积核大小为3x3的深度可分离卷积层,以及通道注意力模块。模块内部的卷积通道数量采用了一种逐步扩张的方式。对于输入通道数为C的特征图,经首先过3x3深度可分离卷积后,通道数量仍然为C。其次在经过1x1卷积时,对其通道数量以2的倍数进行扩张。最后的深度可分离卷积层与通道注意力层均不改变其通道数量。
[0018]进一步的,在每个模块内部,在第一层的深度可分离卷积与第二层的逐点卷积层后,分别添加BN层以及Relu激活函数层。在第三层的深度可分离卷积层后添加BN层与线性激活函数层,相比于Relu激活函数,线性激活函数能够减少特征信息的丢失问题。
[0019]相比于标准卷积,利用深度可分离卷积,能够降低卷积操作的参数量与计算量。而利用注意力模块可以对各通道的依赖性进行建模以提高网络的表示能力,并且能够对特征进行逐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于通道注意力模块的轻量级神经网络模型,其特征在于,包括多个结构重复网络模块;所述网络模块包括依次连接的深度可分离卷积层、逐点卷积层、深度可分离卷积层和通道注意力层。2.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型,其特征在于,第一层的深度可分离卷积层、第二层的逐点卷积层、第三层的深度可分离卷积层的卷积核大小分别为3x3、1x1、3x3。3.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型,其特征在于,所述网络模块内的特征通道数是通过逐点卷积网络层进行调整,以一种逐步扩张的方式增加特征通道数量。4.根...

【专利技术属性】
技术研发人员:张萌吕锋李国庆李娇杰
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1