上下文聚合网络以及基于该网络的图像实时语义分割方法技术

技术编号:34334405 阅读:24 留言:0更新日期:2022-07-31 02:41
本发明专利技术涉及一种用于实时语义分割的高效多尺度上下文聚合网络,包括下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意模块、通道注意模块和上采样模块,所述不对称卷积模块包括两个或三个不对称卷积单元,所述多分支不对称卷积模块包括三个多分支不对称卷积单元。本发明专利技术网络主干分支的编码器与解码器部分基本成对称关系。在解码器最后,对图像进行一次上采样操作,即可获得原始分辨率图像。最后一次上采样模块即为分类卷积,其输出为原始分辨率大小的最终预测结果,将预测结果与对应的语义标签进行对比,目标函数设置为交叉熵损失函数,就可得到训练好的网络模型。使用这个训练好的网络模型,方便进行图像语义分割的结果预测。割的结果预测。割的结果预测。

Context aggregation network and image real-time semantic segmentation method based on this network

【技术实现步骤摘要】
上下文聚合网络以及基于该网络的图像实时语义分割方法


[0001]本专利技术属于计算机视觉、模式识别
,涉及一种高效多尺度上下文聚合网络以及基于该网络的图像实时语义分割方法,用于给图像的每一个像素进行分类。

技术介绍

[0002]目前,计算机视觉领域的一大关键问题是语义分割,它是图像像素级别的分类,即对一张图像上的各个像素进行分类,同一类别的像素将被划分为一类,并被标注上相应的标签。语义分割在自动驾驶系统的道路场景识别与理解,无人机应用时着陆点的判断和众多可穿戴设备中,都起着关键性的作用。语义分割模型的设计通常围绕着降低网络结构复杂性,缩短模型运行时间展开,不断提高模型分割精度仍是目前该领域的有待解决的主要问题。
[0003]基于深度卷积神经网络的方法是目前进行图像语义分割的主流方法,它采用的是一种编码

解码的结构。编码器对图像进行下采样,可获取图像的抽象语义信息,解码器对图像进行上采样,需要对下采样后的图像进行上采样,以输出原始图像分辨率的预测图片。现阶段的语义分割网络结构大体可以包含两种,一种是深度网络结构,另一种是轻量化网络结构。深度网络结构,采用了VGGNet,ResNet作为主要架构,其主要目标为提高模型分割精度,因而忽略了模型运行的效率,大量的参数给设备造成了计算负担,还增加了运行时间,不适合在计算资源有限的边界设备中使用,也不适合在需要进行实时语义分割的场所中应用。考虑到在实际生活中应用的可靠性,研究者们更多地把目光放在了轻量级语义分割上。轻量级语义分割采用轻量化网络结构模型,大大减少了模型的参数,缩短了模型训练和预测的时间,然而却在一定程度上降低了模型的分割精度。因此,如何在模型分割精度和推理速度之间取得平衡,设计出既能保证分割精确度,又能具有较高的推理速度,适用于小内存容量的边界电子设备的图像语义分割网络模型成为图像分割领域的重要问题。
[0004]随着深度学习技术的不断发展,人们对深度卷积也有了更深的研究,逐渐涌现出了分解卷积、空洞卷积、分组卷积、逐点卷积以及深度方向可分离卷积等各种卷积,这些都是对于标准二维卷积的扩展与改进。不对称卷积,即分解卷积,是将一个标准卷积核为k的卷积,分解为两个k
×
1和1
×
k的一维卷积。它将一个二维计算分解为了两个一维计算的和,大大降低了模型的计算量。空洞卷积,在卷积核的元素之间加入了一些零元素来扩大卷积核,它可以扩大感受野,并且捕捉多尺度的上下文信息。
[0005]近年来,注意力机制也在深度学习领域逐渐得到了广泛的应用。它可以分为通道注意力机制和空间注意力机制。通道注意力模块,就是通过网络计算出输入图像各个通道的权重,对特征进行校正,保留有价值的特征,剔除没价值的特征,从而达到提高特征表示能力的目的。空间注意力模块,是对通道注意力的补充,可以在基于通道的方向上,找到聚集信息最多的位置,关注有价值的位置,压制无价值的位置。
[0006]检索发现,CN113486897A的中国专利公开了一种卷积注意力机制上采样解码的语义分割方法,该方法通过空洞卷积深度神经网络提取特征,增大特征提取感受野;通过卷积
segmentation on high

resolution images,”in Proc.Eur.Conf.Comput.Vis.(ECCV),2018,pp.405

420.
[0019][12]S.Hao,Y.Zhou,Y.Guo,and R.Hong,“Bi

direction context propagation network for real

time semantic segmentation,”arXiv preprint arXiv:2005.11034,2020.
[0020][13]C.Yu,C.Gao,J.Wang,G.Yu,C.Shen,and N.Sang,“Bisenet v2:Bilateral network with guided aggregation for real

time semantic segmentation,”arXiv preprint arXiv:2004.02147,2020.
[0021][14]Gao,G.,et al."MSCFNet:A Lightweight Network With Multi

Scale Context Fusion for Real

Time Semantic Segmentation,"IEEE Trans.Intelligent Transportation Systems.(TITS),July,2021.

技术实现思路

[0022]本专利技术的目的在于,针对现有技术存在的缺陷,提出一种高效多尺度上下文聚合网络以及基于该网络的图像实时语义分割方法,该方法采用了轻量化的对称编码

解码结构,并将所有的卷积换成了不对称卷积和空洞卷积,还加入了空间注意模块和通道注意模块,在模型精度和推理速度之间取得了很好的平衡。
[0023]为了达到以上目的,本专利技术提供一种上下文聚合网络,包括下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意力模块、通道注意力模块和上采样模块,所述不对称卷积模块包括两个或三个不对称卷积单元,所述多分支不对称卷积模块包括三个多分支不对称卷积单元。
[0024]本专利技术相较于卷积注意力机制上采样解码的语义分割方法,在参数量上实现了大幅度的减少,运行速度也提升了很多,在使用其少量计算量的情况下,获得该结构难以获得的分割精度。
[0025]本专利技术进一步的采用如下技术方案:
[0026]优选地,所述不对称卷积模块在聚合网络的编码器部分分为第一编码器不对称卷积模块和第二编码器不对称卷积模块,第一编码器不对称卷积模块包含三个不对称卷积单元,其卷积核为3,第二编码器不对称卷积模块包含两个不对称卷积单元,其卷积核为5;所述不对称卷积模块在聚合网络的解码器部分分为第一解码器不对称卷积模块和第二解码器不对称卷积模块,第一解码器不对称卷积模块由两个不对称卷积单元组成,其卷积核为5,第二解码器不对称卷积模块由两个不对称卷积单元组成,其卷积核为3。
[0027]这样,不对称卷积模块以不对称卷积单元为基础,包含了两个不对称卷积,并在两个不对称卷积中间加入了通道注意力机制(见图2)。
[0028]优选地,所述多分支不对称卷积单元包含四个不对称卷积分支,每个不对称卷积分支采用不对称空洞卷积,其卷积核分别为3,5,7,9,扩张率均为2。
[0029]上述四个分支的融合采用等级特征融合的方式。使用四个卷积核大小不同的卷积核,相当于以多个比例捕捉全局的上下文,可以获得更加丰富的语义信息。空洞卷积可以扩大图像的感受野。而空洞卷积的弊端在于会引起网格伪影,使用等级特征融合的方法可以消除这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种上下文聚合网络,其特征在于:包括下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意模块、通道注意模块和上采样模块,所述不对称卷积模块包括两个或三个不对称卷积单元,所述多分支不对称卷积模块包括三个多分支不对称卷积单元。2.根据权利要求1所述一种上下文聚合网络,其特征在于:所述不对称卷积模块在聚合网络的编码器部分分为第一编码器不对称卷积模块和第二编码器不对称卷积模块,第一编码器不对称卷积模块包含三个不对称卷积单元,其卷积核为3,第二编码器不对称卷积模块包含两个不对称卷积单元,其卷积核为5;所述不对称卷积模块在聚合网络的解码器部分分为第一解码器不对称卷积模块和第二解码器不对称卷积模块,第一解码器不对称卷积模块由两个不对称卷积单元组成,其卷积核为5,第二解码器不对称卷积模块由两个不对称卷积单元组成,其卷积核为3。3.根据权利要求1所述一种上下文聚合网络,其特征在于:所述多分支不对称卷积单元包含四个不对称卷积分支,每个不对称卷积分支采用不对称空洞卷积,其卷积核分别为3,5,7,9,扩张率均为2。4.根据权利要求1所述一种上下文聚合网络,其特征在于:所述下采样模块包含一个卷积层和一个池化层,所述卷积层的核为3
×
3,所述池化层的步幅为2;所述上采样模块包含一个核为3
×
3,步幅为2的反卷积层。5.基于权利要求1至4任一项所述上下文聚合网络的图像实时语义分割方法,其特征在于,包括以下步骤:步骤1、构建基于轻量级对称网络的实时语义分割网络模型,包含下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意模块、通道注意模块、上采样模块;步骤2、初始输入图像输入到下采样模块进行第一次下采样,以提取出初始图像的特征,并且将其图像分辨率变为1/2,F1=Down(F
in
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,F
in
表示输入图像,Down表示降采样率为2的降采样模块,F1表示对初始图像进行第一次降采样率为2的下采样后的输出;然后,对经过第一次下采样后的图像,使用编码器的第一个不对称卷积模块进行处理,F
13
=C1×3(C3×1(C1×3(C3×1(C1×3(C3×1(F1))))))
ꢀꢀꢀꢀꢀ
(8)其中,F1表示对初始图像进行第一次降采样率为2的下采样后的输出,C3×1表示卷积核为3
×
1的卷积操作,C1×3表示卷积核为1
×
3的卷积操作,F
13
表示编码器第一个不对称卷积模块的输出;步骤3、将编码器第一个不对称卷积模块的输出F
13
与1/2分辨率图像经过空间注意力模块处理后的输出Y1进行第一次特征融合,F
c1
=Concat(F
13
,Y1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,Concat表示Concatenate级联操作,F
c1
表示第一次特征融合后的输出特征图;步骤4、将第一次特征融合后的输出特征图输送到通道注意模块进行处理,F
CAM1
=CAM(F
c1
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中,CAM表示通道注意力模块,F
CAM1
表示第一个通道注意模块的输出;再将第一个通道注意模块的输出输送至下采样模块进行第二次下采样,以提取输出特征图像的特征,
F2=Down(F
CAM1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)其中,Down表示降采样率为2的降采样模块,F2表示图像经过第二次下采样之后得到的1/4分辨率的输出;然后,使用编码器的第二个不对称卷积模块对经过第二次下采样后的图像进行处理,F
22
=C1×5(C5×1(C1×5(C5×1(F2))))
ꢀꢀꢀꢀꢀꢀꢀ
(12)其中,C5×1表示卷积核为5
×
1的卷积操作,C1×5表示卷积核为1
×
5的卷积操作,F
22
表示编码器第二个不对称卷积模块的输出;步骤5、将编码器第二个不对称卷积模块的输出F
22
与1/4分辨率图像经过空间注意力模块处理后的输出Y2进行第二次特征融合,F
c2
=Concat(F
22
,Y2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)其中,Y2表示1/4分辨率图像经过空间注意力模块处理后的输出,F
c2
表示第二次特征融合后的输出;步骤6、将第二次特征融合后的输出特征图输送到通道注意模块进行处理,F
CAM2
=CAM(F
c2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)其中,F
CAM2
表示第二个通道注意力模块的输出;再将第二个通道注意模块的输出输送至下采样模块进行第三次下采样,以提取输出特征图像的特征,F3=Down(F
CAM2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)其中,F3表示图像经过第三次下采样之后得到的1/8分辨率的输出;然后,使用多分支不对称卷积模块对经过第三次下采样后的图像进行处理,F
31
=PFCU1(F3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(32)F
32
=PFCU2(F
31
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(33)F
33
=PFCU3(F
32
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(34)其中,PFCU1表示第一个多分支不...

【专利技术属性】
技术研发人员:张梦纯高广谓徐国安吴飞岳东
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1