一种图像语义分割模型及分割方法技术

技术编号:38281198 阅读:18 留言:0更新日期:2023-07-27 10:29
本发明专利技术公开了一种图像语义分割模型,由设计的混合的注意力聚焦方法与注意力矫正残差模块(ARRM)、混合特征整合模块(MFFM)构成,整体采用深度监督方式训练,合理加入可变形卷积,结合构建的多尺度空间注意力模块(MSP)与双池化注意力模块(DPA)进行联合优化,解决了小目标特征分割难的问题。为了体现模型在下游任务上的优异表现,采用迁移学习的方式完成了在不同数据集之间的训练,扩大了模型的适用范围。最后,在骨干网络中加入分组卷积大大减少了计算成本,合理的网络深度与内部模块设计在保证分割效果的前提下解决了分割模型训练成本高的问题。本高的问题。本高的问题。

【技术实现步骤摘要】
一种图像语义分割模型及分割方法


[0001]本专利技术涉及图像处理
,具体涉及一种图像语义分割模型及分割方法。

技术介绍

[0002]图像分割是图像处理中的一项关键技术,是计算机视觉领域重要的组成部分,通过图像分割能进一步对图像进行更高层次的分析和理解。它将图像细分为不同的子区域,是一个像素级的图像解析过程。目前主要分为语义分割、实例分割和全景分割,他们根据将目标实体划分为不同类别、不同实体、以及二者的结合体进行区分。
[0003]语义分割是图像分割领域中最基础、最重要的内容,它将同一类的像素点归为一类,精确地对像素点实现分类,广泛应用在无人驾驶、无人机自主巡航、医学影像处理、卫星遥感图像处理以及其他数字图像处理等领域。早期,传统方法率先实现图像的精准分割,主要包括基于阈值、边缘、区域的分割,以及结合了一些特定理论工具的算法,比如:基于形态学的分割、混合遗传算法、基于小波分析和变化的分割技术等;还有一些结合了机器学习的方法,比如:FCM聚类、区域水平集等。虽然,这些传统图像分割方法可以达到一定的分割精度,但仍依靠先验知识,对复杂目标分割的鲁棒性较差,细粒度信息提取能力较弱,无法很好地应用到现实生活场景。
[0004]近年来,深度学习得到了快速发展,并在图像分割领域取得了较为优秀的表现。凭借着深度学习模型快速、高效的执行能力与强大的泛化性能,可以在保证时间和空间效率的前提下达到高精度级别的分割。经典的全卷积网络(Fully Convolutional Networks,FCN),为了在进行像素级分割时更好地判断图像中每个像素点的精确类别,增大感受野而设计,但由于反复的卷积堆叠丧失了对图像细节的关注;而后一些基于FCN的改进网络日益增多,比如:基于编码器

解码器结构的U

Net、基于空洞金字塔池化ASPP的DeeplabV3系列网络、基于Transformer和U

Net的结合体TransUNet等,但这些模型存在着一些缺陷:U

Net系列网络通过残差跳连完成跨层信息保留,整合了高、低层特征信息,打破了信息丢失、不同层信息零交互的局面,但带来了较多的信息冗余和噪声,这些无用信息很大程度上降低了模型的分割能力;DeeplabV3系列网络通过加入空洞卷积金字塔池化ASPP扩大感受野,但针对一些小目标对象分割效果较差。面对不同分割任务,空洞卷积带来了不必要的感受野,不具有普适性,并且,模型整体计算成本消耗较大;Transformer系列的分割网络大多与U

Net进行结合实现分割任务,已取得良好效果,但Transformer训练的时间长、算力成本高、数据需求量大,不适用于数据集稀缺的生物医学图像分割领域。综上所述,在应用
,分割任务还存在着一些局限性:
[0005](1)大多数分割算法都局限于单一领域应用,同一个分割模型针对不同分割目标比如在遥感图像、自动抠图、无人驾驶,以及生物医学图像分割等领域没有很好的普适性,对于不同模态2D、3D等图像信息不能同时呈现较好的分割性能;
[0006](2)形态分布、大小差距过大的分割目标,分割效果有显著差异,比如在分割遥感图像时针对不同大小的街道、楼房都可以达到较好的分割效果,但是对于街道中的小车、树
林这些轮廓较小的目标分割效果较差,不能很好地定位,并且在目标边界部位的分割更加模糊,不易处理;
[0007](3)由于分割精度的要求,分割网络普遍较深、较广,内部结构复杂,导致模型参数量和计算量巨大,在推理过程中效率极低,而针对某些特定场景比如无人驾驶、卫星遥感观测中需要实时对目标进行分割和评价,对模型的时间、空间成本和推理速度有着很高的要求,现有的大部分分割模型在时间效率和分割精度上不能达到很好的平衡。

技术实现思路

[0008]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种训练成本低、适用范围宽、分割性能好的图像语义分割模型。
[0009]为了解决上述技术问题,本专利技术采用了的技术方案:
[0010]一种图像语义分割模型,包括特征提取模块、特征融合模块和深度监督训练模块;从不同层次对特征进行提取、融合和监督,以提高模型的性能和泛化能力;
[0011]特征提取模块由六层STDC骨干卷积层组成,包括阶段1至阶段6,每一层都包括多个基本模块和不同的注意力模块以及尺寸不同的跳连,以及ARRM模块进行特征注意力矫正筛选;设计思路是针对不同特征层使用不同的注意力机制,而不是简单地整合通道和空间注意力模块;对于低层特征,使用多尺度空间注意力机制MSP模块,通过三个不同的池化层提取的空间信息;对于高层特征,使用通道注意力机制,实现对语义信息的针对性筛选,通过不同尺寸的跳连实现特征保留,从而优化结果;
[0012]特征融合模块将阶段3特征和整合后的阶段5特征输入MFFM模块进行融合,实现高层语义信息和低层空间信息的提取与结合,提高分割性能,此外,考虑到部分分割目标存在边界模糊的特点,本模型从加强提取边界信息的能力、自适应调整模型感受野的角度入手,在MFFM模块中引入了可变形卷积,可变形卷积在普通卷积后微调像素点的方向,实现卷积核的自适应扩张;实验结果表明:可变形卷积的加入进一步优化了预测边界与标签的重合程度,但过多使用会导致负优化。
[0013]深监督训练模块受UNet++和UNet3+启发,经过对比试验,深度监督训练模块采用三个层级的特征进行上采样,即阶段5特征、经过重塑的阶段6特征以及通过MFFM模块融合的阶段3特征和阶段5特征,将这三个特征作为分割头的输入,并采用加权平均的方式获得最终的输出结果;这种深度监督方法有助于解决训练过程中的梯度消失问题,同时提高了分割的准确性和稳定性;
[0014]MSP模块用于将输入特征分别在通道维度上做AvgPooling,Strip

Pooling和MaxPooling,通过三条池化路径获得分割目标在空间维度上丰富的特征信息;然后在通道上堆叠,再通过卷积调整通道数为1,使用sigmoid激活函数进行归一化得到空间注意力权重,最后将空间注意力权重与原特征矩阵点乘,同样需要跳连保留原始信息。条纹池化的加入使模块获取到目标特征周围水平,垂直维度的上下文信息,通过条带形的池化核使模型很好地在离散分布的区域之间建立长距离依赖关系,提取到比传统方形池化核更丰富的信息,MSP模块的计算如下:
[0015]MSP=σ(Conv3×3(Concat(AvgPool(F
input
),StripPool(F
input
),MaxPool(F
input
))))
ꢀꢀ
(1)
[0016][0017]其中σ表示Sigmoid激活函数;Concat表示通道拼接操作;
[0018]ARRM模块包括一个DoublePooling

Attention模块和残差跳连,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像语义分割模型,其特征在于:包括特征提取模块、特征融合模块和深度监督训练模块;特征提取模块由六层STDC骨干卷积层组成,包括阶段1至阶段6,每一层都包括多个基本模块和不同的注意力模块以及尺寸不同的跳连,以及ARRM模块进行特征注意力矫正筛选;对于低层特征,使用多尺度空间注意力机制MSP模块,通过三个不同的池化层提取的空间信息;对于高层特征,使用通道注意力机制,实现对语义信息的针对性筛选,通过不同尺寸的跳连实现特征保留,从而优化结果;特征融合模块将阶段3特征和整合后的阶段5特征输入MFFM模块进行融合,实现高层语义信息和低层空间信息的提取与结合,提高分割性能,在MFFM模块中引入了可变形卷积,可变形卷积在普通卷积后微调像素点的方向,实现卷积核的自适应扩张;深度监督训练模块采用三个层级的特征进行上采样,即阶段5特征、经过重塑的阶段6特征以及通过MFFM模块融合的阶段3特征和阶段5特征,将这三个特征作为分割头的输入,并采用加权平均的方式获得最终的输出结果;MSP模块用于将输入特征分别在通道维度上做AvgPooling,Strip

Pooling和MaxPooling,通过三条池化路径获得分割目标在空间维度上丰富的特征信息;然后在通道上堆叠,再通过卷积调整通道数为1,使用sigmoid激活函数进行归一化得到空间注意力权重,最后将空间注意力权重与原特征矩阵点乘,MSP模块的计算如下:MSP=σ(Conv3×3(Concat(AvgPool(F
input
),StripPool(F
input
),MaxPool(F
input
))))
ꢀꢀ
(1)其中σ表示Sigmoid激活函数;Concat表示通道拼接操作;ARRM模块包括一个DoublePooling

Attention模块和残差跳连,先将输入特征图通过一个3
×
3卷积降维,经过两个并联的MaxPooling和AvgPooling后,再经过一个共享MLP层将通道压缩和扩张,最后将两个输出结果进行逐元素相加,通过BN层和sigmoid激活函数后得到相应的注意力矫正权重矩阵,经过与原特征矩阵点乘后再与原特征矩阵跳连,得到输出结果,ARRM模块的计算如下:F
input'
=RELU(BN(Conv3×3(F
input
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)F
Maxpool
=MLP(MaxPool(F
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)F
Avgpool
=MLP(AvgPool(F
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)(5)其中F
input
表示输入的原始特征图,F
input'
表示经过卷积调整通道数后的新特征,MaxPool和AvgPool分别表示最大池化和平均池化操作,MLP表示共享的多层感知机,BN表示批量归一化,RELU和σ表示不同的激活函数,和分别表示逐元素求和、点乘;DPA为双池化注意力模块;MFFM模块包括含有MSP模块与SE模块的混合注意力机制和可变形卷积,输入端由低层级特征和高层语义特征组成;低层特征处理时需要将输入的低层级特征通过MSP模块;高层
...

【专利技术属性】
技术研发人员:肖汉光时心怡宋旺旺薛旭枫曹刘洋李玉麟
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1