一种轻量级多尺度注意力特征金字塔的设计方法技术

技术编号:38242097 阅读:9 留言:0更新日期:2023-07-25 18:04
本发明专利技术公开的一种轻量级多尺度注意力特征金字塔的设计方法,属于深度学习中的计算机视觉领域。本发明专利技术的内容为:设计了一种轻量级多尺度注意力特征金字塔结构,适用于图像分类、目标检测和语义分割网络,可以用更少的参数有效地增强多尺度特征图中的特征信息。本发明专利技术的实现方法为:将待检图片输入至骨干网络,得到多尺度特征图;压缩输入多尺度特征图的特征通道,并提取各个尺度特征图中关键的特征信息;使用全连接网络联合各尺度特征图的特征信息自动学习融合权重;最终根据网络学习到的权重动态融合多尺度特征图,得到输出特征图。本发明专利技术要解决的技术问题是设计更高效且轻量级的特征金字塔结构,提高特征金字塔增强多尺度特征图的能力。特征图的能力。特征图的能力。

【技术实现步骤摘要】
一种轻量级多尺度注意力特征金字塔的设计方法


[0001]本专利技术属于深度学习中的计算机视觉领域,尤其涉及一种轻量级多尺度注意力特征金字塔的设计方法。

技术介绍

[0002]随着卷积神经网络和深度学习的发展,基于卷积神经网络的计算机视觉技术已经成为了计算机视觉任务的主要方法,如图像分类、目标检测和语义分割任务。在这些任务中,为了保证结果对图片中不同尺度的物体的一致性,通常使用卷积神经网络从图片中提取多尺度特征图,并使用特征金字塔结构来融合不同尺度的特征图。高效融合多尺度特征图中的特征信息有利于提高网络的准确度。然而现有的特征金字塔相关研究都通过增加特征通路或重复堆叠使用特征金字塔的方式来增强多尺度特征之间的融合,显著地增加了网络的参数量,降低了网络的运行速度。因此研究如何以更少的参数有效地融合多尺度特征图,即研究轻量级的特征金字塔具有重要的现实意义。

技术实现思路

[0003]本专利技术的目的是提供一种轻量级多尺度注意力特征金字塔的设计方法,该方法的关键为利用全部尺度的输入特征图来逐个生成单个尺度的输出特征图。对于某一尺度的输出特征图,生成方式如下:通过压缩输入多尺度特征图的特征通道,提取各个尺度特征图中关键的特征信息;使用全连接网络联合各尺度特征图的特征信息自动学习融合权重;最终根据网络学习到的权重动态融合多尺度特征图,得到输出特征图。通过网络自动学习融合权重,可以充分利用各尺度特征图中的语义信息,提高多尺度特征的融合效率。
[0004]本专利技术是通过下述技术方案实现的。
[0005]本专利技术公开的一种轻量级多尺度注意力特征金字塔的设计方法,包括如下步骤:
[0006]步骤1:输入图片至由多层卷积神经网络组成的骨干网络,在骨干网络的不同阶段输出特征图,得到多尺度特征图;
[0007]步骤2:对特征金字塔的5个输出尺度逐个执行步骤3

7的特征融合操作;
[0008]步骤3:选定输出特征图尺度k,分别以相同的方式压缩各输入多尺度特征图,得到压缩后的多尺度特征图;
[0009]步骤4:使用无参方式提取压缩后的多尺度特征图中的特征向量;
[0010]步骤5:拼接各尺度特征图的特征向量,并使用多层全连接层学习融合权重;
[0011]步骤6:将输入的各尺度特征图缩放至输出尺度k;
[0012]步骤7:使用融合权重加权融合缩放至同一尺度的特征图,得到融合之后的尺度为k的输出特征图。
[0013]步骤1的实现方法为:
[0014]将输入图片标准化并输入骨干网络,在骨干网络多个输出阶段提取多尺度特征图{C3,C4,C5,C6,C7}。
[0015]进一步地,步骤2的实现方法为:
[0016]对于特征金字塔的5个输出尺度{3,4,5,6,7},分别执行下述步骤3至步骤7的多尺度特征图融合操作。其中输出尺度k表示输出特征图的分辨率为输入图片分辨率的1/2
k

[0017]进一步地,步骤3的实现方法为:
[0018]步骤3.1:选定输出特征图尺度k和特征图压缩比例R;
[0019]步骤3.2:为每个尺度的输入特征图构建一层卷积核为1
×
1的普通卷积,卷积层的输入通道数为特征图的通道数,输出通道数为输入通道数的1/R倍;
[0020]步骤3.3:将各个尺度的特征图输入至对应的1
×
1卷积层,得到通道压缩后的多尺度特征图{F3,F4,F5,F6,F7}。
[0021]进一步地,步骤4的实现方法为:
[0022]对于通道压缩后的各个尺度的特征图{F3,F4,F5,F6,F7},分别在特征图宽度和高度所在的维度求均值:
[0023][0024]其中,H为特征图的高度,W为特征图的宽度,F
i
(h,w)为特征图F
i
在(h,w)位置的特征向量,从而得到各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}。
[0025]进一步地,步骤5的实现方法为:
[0026]步骤5.1:拼接各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}为f;
[0027]步骤5.2:使用两层全连接层对f降维,得到降维后的特征向量f':
[0028]f

=FC(RELU(FC(f)))
[0029]其中FC为全连接层,RELU为激活函数。
[0030]步骤5.3:将特征向量f'输入SoftMax函数,得到各个尺度的特征图的融合权重{ω3,ω4,ω5,ω6,ω7}。
[0031]进一步地,步骤6的实现方法为:
[0032]步骤6.1:根据输出特征图的尺度k确定输出特征图的分辨率大小;
[0033]步骤6.2:使用最近邻插值算法将输入的多尺度特征图{C3,C4,C5,C6,C7}缩放至输出特征图的分辨率,得到统一尺度的特征图{C'3,C'4,C'5,C'6,C'7}。
[0034]进一步地,步骤7的实现方法为:
[0035]使用融合权重{ω3,ω4,ω5,ω6,ω7}将统一尺度之后的特征图{C'3,C'4,C'5,C'6,C'7}加权融合,得到尺度为k的输出特征图P
k

[0036][0037]本专利技术取得的技术效果有:
[0038]1.本专利技术公开的一种轻量级多尺度注意力特征金字塔的设计方法,精简了特征金字塔参数并增强了特征金字塔的特征融合能力,可用于增强图像分类、目标检测和语义分割网络的多尺度特征图,并提升网络速度。
[0039]2.本专利技术公开的一种轻量级多尺度注意力特征金字塔的设计方法,通过轻量级多特征融合模块融合多尺度特征图,可以接受任意数量、任意尺度的特征图作为输入,根据特征图压缩之后的特征向量自动学习融合权重并动态融合多尺度特征图,从而提高多尺度特
征图的融合效率。
附图说明
[0040]下面结合附图与实施例对本专利技术进一步说明,附图中:
[0041]图1是本专利技术的轻量级多尺度注意力特征金字塔结构示意图。图中,{C3,C4,C5,C6,C7}为骨干网络输出的多尺度特征图;{P3,P4,P5,P6,P7}为特征金字塔融合之后的多尺度特征图;轻量级多特征融合模块为本专利技术设计的多尺度特征图动态融合方法。
[0042]图2是本专利技术图1中的轻量级多特征融合模块示意图。图中,{C3,C4,C5,C6,C7}为输入的多尺度特征图;{F3,F4,F5,F6,F7}为经过1
×
1卷积层压缩特征通道之后的多尺度特征图;{f3,f4,f5,f6,f7}为经过全局池化后各尺度特征图的特征向量;f为{f3,f4,f5,f6,f7}拼接而成的特征向量;f'为降维后的特征向量;{C'3,C'4,C'5,C'6,C'7}为输入多尺度特征图被缩放至输出尺度的特征图;{ω3,ω4,ω5,ω6,ω7}为网络学习到的多尺度特征图融合权重;P5为融合后的输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于包括如下步骤:步骤1:输入图片至由多层卷积神经网络组成的骨干网络,在骨干网络的不同阶段输出特征图,得到多尺度特征图;步骤2:对特征金字塔的5个输出尺度逐个执行步骤3

7的特征融合操作;步骤3:选定输出特征图尺度k,分别以相同的方式压缩各输入多尺度特征图,得到压缩后的多尺度特征图;步骤4:使用无参方式提取压缩后的多尺度特征图中的特征向量;步骤5:拼接各尺度特征图的特征向量,并使用多层全连接层学习融合权重;步骤6:将输入的各尺度特征图缩放至输出尺度k;步骤7:使用融合权重加权融合缩放至同一尺度的特征图,得到融合之后的尺度为k的输出特征图。2.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤1的实现方法为:将输入图片标准化并输入骨干网络,在骨干网络多个输出阶段提取多尺度特征图{C3,C4,C5,C6,C7}。3.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤2的实现方法为:对于特征金字塔的5个输出尺度{3,4,5,6,7},分别执行下述步骤3至步骤7的多尺度特征图融合操作,其中输出尺度k表示输出特征图的分辨率为输入图片分辨率的1/2
k
。4.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤3的实现方法为:步骤3.1:选定输出特征图尺度k和特征图压缩比例R;步骤3.2:为每个尺度的输入特征图构建一层卷积核为1
×
1的普通卷积,卷积层的输入通道数为特征图的通道数,输出通道数为输入通道数的1/R;步骤3.3:将各个尺度的特征图输入至对应的1
×
1卷积层,得到通道压缩后的多尺度特征图{...

【专利技术属性】
技术研发人员:王少华戴亚平于淇玮
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1