一种图像语义分割模型及分割方法技术

技术编号：38281198 阅读：29 留言：0更新日期：2023-07-27 10:29

本发明专利技术公开了一种图像语义分割模型，由设计的混合的注意力聚焦方法与注意力矫正残差模块(ARRM)、混合特征整合模块(MFFM)构成，整体采用深度监督方式训练，合理加入可变形卷积，结合构建的多尺度空间注意力模块(MSP)与双池化注意力模块(DPA)进行联合优化，解决了小目标特征分割难的问题。为了体现模型在下游任务上的优异表现，采用迁移学习的方式完成了在不同数据集之间的训练，扩大了模型的适用范围。最后，在骨干网络中加入分组卷积大大减少了计算成本，合理的网络深度与内部模块设计在保证分割效果的前提下解决了分割模型训练成本高的问题。本高的问题。本高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像语义分割模型及分割方法

[0001]本专利技术涉及图像处理
，具体涉及一种图像语义分割模型及分割方法。

技术介绍

[0002]图像分割是图像处理中的一项关键技术，是计算机视觉领域重要的组成部分，通过图像分割能进一步对图像进行更高层次的分析和理解。它将图像细分为不同的子区域，是一个像素级的图像解析过程。目前主要分为语义分割、实例分割和全景分割，他们根据将目标实体划分为不同类别、不同实体、以及二者的结合体进行区分。
[0003]语义分割是图像分割领域中最基础、最重要的内容，它将同一类的像素点归为一类，精确地对像素点实现分类，广泛应用在无人驾驶、无人机自主巡航、医学影像处理、卫星遥感图像处理以及其他数字图像处理等领域。早期，传统方法率先实现图像的精准分割，主要包括基于阈值、边缘、区域的分割，以及结合了一些特定理论工具的算法，比如：基于形态学的分割、混合遗传算法、基于小波分析和变化的分割技术等；还有一些结合了机器学习的方法，比如：FCM聚类、区域水平集等。虽然，这些传统图像分割方法可以达到一定的分割精度，但仍依靠先验知识，对复杂目标分割的鲁棒性较差，细粒度信息提取能力较弱，无法很好地应用到现实生活场景。
[0004]近年来，深度学习得到了快速发展，并在图像分割领域取得了较为优秀的表现。凭借着深度学习模型快速、高效的执行能力与强大的泛化性能，可以在保证时间和空间效率的前提下达到高精度级别的分割。经典的全卷积网络(Fully Convolutional Networks,FCN)，为了在进行像素级分...

【技术保护点】

【技术特征摘要】
1.一种图像语义分割模型，其特征在于：包括特征提取模块、特征融合模块和深度监督训练模块；特征提取模块由六层STDC骨干卷积层组成，包括阶段1至阶段6，每一层都包括多个基本模块和不同的注意力模块以及尺寸不同的跳连，以及ARRM模块进行特征注意力矫正筛选；对于低层特征，使用多尺度空间注意力机制MSP模块，通过三个不同的池化层提取的空间信息；对于高层特征，使用通道注意力机制，实现对语义信息的针对性筛选，通过不同尺寸的跳连实现特征保留，从而优化结果；特征融合模块将阶段3特征和整合后的阶段5特征输入MFFM模块进行融合，实现高层语义信息和低层空间信息的提取与结合，提高分割性能，在MFFM模块中引入了可变形卷积，可变形卷积在普通卷积后微调像素点的方向，实现卷积核的自适应扩张；深度监督训练模块采用三个层级的特征进行上采样，即阶段5特征、经过重塑的阶段6特征以及通过MFFM模块融合的阶段3特征和阶段5特征，将这三个特征作为分割头的输入，并采用加权平均的方式获得最终的输出结果；MSP模块用于将输入特征分别在通道维度上做AvgPooling,Strip
‑
Pooling和MaxPooling，通过三条池化路径获得分割目标在空间维度上丰富的特征信息；然后在通道上堆叠，再通过卷积调整通道数为1，使用sigmoid激活函数进行归一化得到空间注意力权重，最后将空间注意力权重与原特征矩阵点乘，MSP模块的计算如下：MSP＝σ(Conv3×3(Concat(AvgPool(F
input
),StripPool(F
input
),MaxPool(F
input
))))
ꢀꢀ
(1)其中σ表示Sigmoid激活函数；Concat表示通道拼接操作；ARRM模块包括一个DoublePooling
‑
Attention模块和残差跳连，先将输入特征图通过一个3
×
3卷积降维，经过两个并联的MaxPooling和AvgPooling后，再经过一个共享MLP层将通道压缩和扩张，最后将两个输出结果进行逐元素相加，通过BN层和sigmoid激活函数后得到相应的注意力矫正权重矩阵，经过与原特征矩阵点乘后再与原特征矩阵跳连，得到输出结果，ARRM模块的计算如下：F
input'
＝RELU(BN(Conv3×3(F
input
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)F
Maxpool
＝MLP(MaxPool(F
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)F
Avgpool
＝MLP(AvgPool(F
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)(5)其中F
input
表示输入的原始特征图，F
input'
表示经过卷积调整通道数后的新特征，MaxPool和AvgPool分别表示最大池化和平均池化操作，MLP表示共享的多层感知机，BN表示批量归一化，RELU和σ表示不同的激活函数，和分别表示逐元素求和、点乘；DPA为双池化注意力模块；MFFM模块包括含有MSP模块与SE模块的混合注意力机制和可变形卷积，输入端由低层级特征和高层语义特征组成；低层特征处理时需要将输入的低层级特征通过MSP模块；高层
...

【专利技术属性】
技术研发人员：肖汉光，时心怡，宋旺旺，薛旭枫，曹刘洋，李玉麟，
申请(专利权)人：重庆理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人