一种二维图像语义分割方法技术

技术编号:31237809 阅读:17 留言:0更新日期:2021-12-08 10:23
本发明专利技术公开了一种二维图像语义分割方法,包括:输入二维图像;将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图;将第二特征图和第三特征图通过金字塔池化操作获得第四特征图和第五特征图;使用特征融合模块将第一特征图、第三特征图、第四特征图和第五特征图进行融合;将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。本发明专利技术融合了网络的多层特征,特征信息更充分,对网络进行精度补偿,改善目标的边缘分割效果,实现更精细的图像语义分割。实现更精细的图像语义分割。实现更精细的图像语义分割。

【技术实现步骤摘要】
一种二维图像语义分割方法


[0001]本专利技术涉及计算机视觉领域,特别涉及一种二维图像语义分割方法。

技术介绍

[0002]语义分割是计算机视觉中一个重要的分支领域,其目的是为图像中的每个像素标记类别标签,对图像进行像素级别的分类,从而表示该像素的语义信息,采用学习到的算法模型预测同分布新图像的每个像素标签,将不同类别的对象分割出来。语义分割作为图像理解、图像生成等计算机视觉研究前沿领域的基础环节,在自动驾驶、遥感图像分析、机器人传感、医疗图像等方面有着广泛的应用,其具有重要的研究意义和应用价值。
[0003]全卷积神经网络FCN是语义分割的开创之作,实现了端到端的像素级别分类,但多次下采样和反卷积操作导致图像部分信息丢失,缺乏空间一致性。全局卷积网络GCN使用大的卷积核连接特征图和每个像素,使像素与特征图的结合更加紧密,主要提升了目标内部的准确率,对边界范围的影响较小。DeepLab系列网络的核心是使用空洞卷积扩大了感受野,但是网络在解码过程中仅融合一个尺度编码特征,导致部分细节信息丢失,最终分割结果不够精细。金字塔场景解析网络PSPNet开创性地引入金字塔池化模块(Pyramid Pooling Module,PPM),其通过对不同区域的上下文信息进行聚合,提高网络使用全局上下文信息的能力,但其对小目标物体处理得不够理想,边缘分割得不够精准。
[0004]现有的大部分语义分割方法需要解决的关键问题如下:语义标签预测不准确,易混淆类别难以有效区分,图像边缘轮廓细化不佳,分割目标与背景之间的边缘信息易损失。

技术实现思路

[0005]为了解决上述问题中的至少一个而提出了本专利技术。本专利技术一种二维图像语义分割方法包括:输入二维图像,其包括用于网络训练的图像数据集和待分割图像;将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图;将第二特征图和第三特征图通过金字塔池化操作获得第四特征图和第五特征图;使用特征融合模块将第一特征图、第三特征图、第四特征图和第五特征图进行融合;将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。
[0006]优选的,所述训练过程采用联合损失方式,总损失为交叉熵损失(Cross Entropy Loss)与集合相似度损失(Dice Loss)之和。所述第一特征图为浅层特征,包含丰富的空间位置信息。所述第二特征图和第三特征图为较深层特征,包含丰富的语义信息。所述金字塔池化操作聚合不同区域的上下文信息,提高获取全局信息的能力。所述第四特征图和第五特征图融合了不同层次的特征,包含丰富的全局上下文信息。
[0007]优选的,所述特征融合模块首先将输入特征进行通道堆叠(concatenate)操作,然后使用三个膨胀率分别为1、2、3的3
×
3空洞卷积融合输入特征,同时保留局部细节,最后将三个并行卷积后的特征使用相加操作和1
×
1卷积操作进行加强特征融合。所述特征融合模块将包含丰富位置信息的第一特征图、包含丰富语义信息的第三特征图、包含丰富全局上
下文信息的第四特征图和第五特征图进行融合以获得更加丰富的图像特征。
[0008]本专利技术与现有技术相比的优点在于,本专利技术一种二维图像语义分割方法使用特征融合模块融合了多种有效特征,并加入感受野模块增大感受野,对网络进行精度补偿,改善目标的边缘分割效果,细化分割图像的边缘轮廓,实现更精细的图像语义分割。
附图说明
[0009]图1是本专利技术一种二维图像语义分割方法的步骤流程图。
[0010]图2是本专利技术一种二维图像语义分割方法的网络框图。
[0011]图3是本专利技术一种二维图像语义分割方法的特征融合模块结构图。
[0012]图4是本专利技术一种二维图像语义分割方法的感受野模块结构图。
[0013]图5是本专利技术一种二维图像语义分割方法的图像分割流程图。
[0014]图6是不同模型在Pascal

VOC2012数据集上的语义分割可视化结果图。
具体实施方式
[0015]下面结合附图和具体实施方式对本专利技术进一步详细说明。
[0016]图1是本专利技术一种二维图像语义分割方法的步骤流程图,首先,输入二维图像,其包括用于模型训练的图像数据集和待分割图像。其次,将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图,其中第一特征图为浅层特征,包含丰富的空间位置信息,而第二特征图和第三特征图为深层特征,包含丰富的语义信息。其次,将第二特征图和第三特征图通过金字塔池化操作获得包含丰富全局上下文信息的第四特征图和第五特征图。然后,使用特征融合模块将包含丰富位置信息的第一特征图、包含丰富语义信息的第三特征图、包含丰富全局上下文信息的第四特征图和第五特征图进行融合以获得更加丰富的图像特征。最后,将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。
[0017]图2是本专利技术一种二维图像语义分割方法的网络框图,如图2所示,本专利技术的主干特征提取网络以ResNet50为例,输入图片通过主干特征提取网络ResNet50获得CONV3_x、CONV4_x、CONV5_x三层特征,三层特征通过1
×
1卷积降维后分别对应所述的第一特征图(FM1)、第二特征图(FM2)和第三特征图(FM3),其中,第一特征图为浅层特征,包含丰富的空间位置信息,而第二特征图和第三特征图为较深层特征,包含丰富的语义信息。将第二特征图和第三特征图通过金字塔池化模块(Pyramid Pooling Module,PPM)获得丰富的上下文特征,而包含丰富空间位置信息的第一特征图则不使用金字塔池化操作,避免池化操作导致图像丰富的空间位置信息丢失,最后将得到多种特征使用特征融合模块融合后经过感受野模块进一步提高感受野以获得更加精细的分割结果。
[0018]更具体的,金字塔池化模块(Pyramid Pooling Module,PPM)是网络的核心部分,如图2中的PPM所示,其将输入特征图以1
×
1、2
×
2、3
×
3、6
×
6四种尺度分成不同层级,每个层级具有不同大小的子区域,通过池化操作获取每个子区域的特征,将不同层级的特征上采样后进行通道堆叠(concatenate)操作,得到包含局部和全局上下文信息的特征。
[0019]更具体的,如图2所示,主干特征提取网络ResNet50的CONV3_x、 CONV4_x 、CONV5_x三层特征经过1
×
1卷积降维后作为解码器的输入,三层特征在输入到解码器之前均使用1
×
1卷积进行通道降维的主要目的是减少计算量,降维后的三层特征分别对应第一特征图(FM1)、第二特征图(FM2)和第三特征图(FM3)。将第二特征图(FM2)和第三特征图(FM3)经过金字塔池化模块(PPM)获得包含局部和全局上下文信息的第四特征图(FM4)和第五特征图(FM5)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二维图像语义分割方法,其特征在于,包含以下步骤:输入二维图像,其包括用于网络训练的图像数据集和待分割图像;将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图;将第二特征图和第三特征图通过金字塔池化操作获得第四特征图和第五特征图;使用特征融合模块将第一特征图、第三特征图、第四特征图和第五特征图进行融合;将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。2.根据权利要求1所述的一种二维图像语义分割方法,其特征在于,所述训练过程采用联合损失方式,总损失为交叉熵损失(Cross Entropy Loss)与集合相似度损失(Dice Loss)之和。3.根据权利要求1所述的一种二维图像语义分割方法,其特征在于,所述第一特征图为浅层特征,包含丰富的空间位置信息。所述第二特...

【专利技术属性】
技术研发人员:徐锋陈国栋聂瑜梁志强陈妍洁郭中远张文凯李瑾
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1