一种基于语义分割的金字塔跨层融合解码器制造技术

技术编号:38011617 阅读:29 留言:0更新日期:2023-06-30 10:32
本发明专利技术公开了一种基于金字塔跨层融合解码器的图像语义分割方法,通过对解码器结构进行优化,利用RCE能够从特征金字塔中生成丰富的上下文信息,提升模型的表征能力,并通过Fusion Block将ViT Adapter编码器中的跨层融合扩展应用到解码器中,实现上下文信息和空间信息的交互融合,从而提升语义分割的效果。从而提升语义分割的效果。从而提升语义分割的效果。

【技术实现步骤摘要】
一种基于语义分割的金字塔跨层融合解码器


[0001]本专利技术涉及图像处理
,具体涉及一种基于语义分割的金字塔跨层融合解码器。

技术介绍

[0002]按照日常生活中对事物的分类标准(即语义标准),对输入图像的每一个像素点进行分类,并根据分类的结果赋予图像每个像素各自所属分类的颜色,即给图像上色。由于同一分类被标记上同一颜色,相对于输入图像而言,像是从输入图像中分离(或分割)出来,故该技术被称为语义分割。至于如何产生语义分割图像,则是语义分割模型的任务,标准的语义分割模型具有编码器

解码器架构,编码器用于特征表示学习,而解码器用于进行编码器产生的特征表示的像素级分类。现有的语义分割模型可分为两类:基于CNN和基于Transformer的语义分割模型。
[0003]基于CNN的语义分割模型:基于CNN的分割模型从卷积的特性来看可以分为两类:基于膨胀卷积和基于普通卷积。
[0004]其中,基于膨胀卷积的模型有:PSPNet
[13]对金字塔层进行常规卷积,捕捉多尺度语义信息;DeepLab系列
[3

6]采用不同膨胀率的并行扩张卷积(不同膨胀卷积捕捉不同尺度的上下文信息)。最近的工作
[17

20]提出了多种扩展解码器,例如,DenseASPP
[14]采用更大膨胀率的膨胀卷积,覆盖更大感受野,其他一些研究
[6,18]构建编解码器结构,利用多分辨率特征作为多尺度上下文。DANet
[2]和OCNet
[17]通过聚合上下文像素的表示来增强每个像素的表示,其中上下文由所有像素组成,与全局的上下文不同,这些工作考虑了基于自注意力方案
[27]的像素之间的关系或相似度,并以相似性为权重进行加权聚合,且其中依旧是通过膨胀卷积来获取更大的感受野,融合语义信息。
[0005]基于普通卷积的模型有:FCN
[1]、FPN
[8]和UperNet
[7]等,其中FCN是语义分割模型的开山之作,通过金字塔特征图之间的上采样、拼接操作实现各层之间特征的融合;而FPN则是通过金字塔特征图之间的上采样、特征线性相加实现各层之间的融合;UperNet是通过金字塔池化模块实现特征的自适应聚合,来提升模型的表征能力。
[0006]基于Transformer的分割模型已经彻底改变神经语言处理技术,并在计算机视觉方面非常成功。ViT
[26]是第一个用于图像分类的端到端视觉变压器,它通过将输入的图像转化成一个序列,并将其附加到一个类标记上。DeiT
[18]通过蒸馏的方式,引入了一种教师

学生的训练策略,提高ViT的训练效率。除了序列到序列的模型结构外,PVT
[19]和Swin Transformer
[11]的出现,引起了人们对Vision Transformer的兴趣。ViT也被应用到解决下游任务和密集型预测的问题中,特别是由ViT驱动的并行语义分割方向有着不错的性能。SETR
[21]将ViT作为编码器,并对输出的Patch Embedding进行上采样,以对像素进行分类。与SETR不同,Swin Transformer和ViT Adapter
[9]是将CNN的思想运用到Transformer上(模型的主体依旧是Transformer);SwinTransformer保留了传统的卷积神经网络编码器输出特征图的金字塔结构,金字塔结构的保留能够结合传统神经网络的解码器,从而实现基于
Transformer的视觉下游任务;ViT Adapter作为卷积神经网络和ViT Transformer融合的产物,用于弥补ViT和视觉特异性变压器之间的性能差距。在不改变ViT结构的情况下,通过设计空间先验模块(Spatial Prior Module)和两个特征交互模块(Spatial Feature Injector和Multi

Scale Feature Extractor)提取多尺度特征信息。
[0007]基于CNN的语义分割模型中,基于膨胀卷积的模型中膨胀卷积的出现会导致语义分割模型的解码器特征图的尺寸增加,进而导致模型后续注意力机制的计算量增加。而基于普通卷积的模型中,FCN和FPN由于深层和浅层之间特征信息的差异,简单的连续上采样并不能够使得深层特征与浅层特征更好的融合,且该融合并未引入注意力机制,缺乏全局的特征信息。而UperNet的模型模型复杂度受编码器特征金字塔的特征通道限制,导致模型本身的计算量和浮点运算量增加。
[0008]基于Transformer的语义分割模型中,由于CNN和Transformer是两种不同的模型结构,很多基于膨胀卷积的模型架构无法在Transformer上使用。由于ViT Transformer关注的是特征之间的相似性,缺乏空间上连续性的先验知识,导致模型的表征能力降低。而Swin Transformer和ViT Adapter尽管将空间上连续性的先验知识考虑在内,但特征金字塔的特征维度过高,导致模型的参数量和浮点计算量增加。
[0009]参考文献:
[0010][1]J.Long,E.Shelhamer and T.Darrell,"Fully convolutional networks for semantic segmentation,"2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015,pp.3431

3440,doi:10.1109/CVPR.2015.7298965.
[0011][2]J.Fu et al.,"Dual Attention Network for Scene Segmentation,"2019IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019,pp.3141

3149,doi:10.1109/CVPR.2019.00326.
[0012][3]Chen,L.,Papandreou,G.,Kokkinos,I.,Murphy,K.P.,&Yuille,A.L.(2015).Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs.CoRR,abs/1412.7062.
[0013][4]Chen,L.,Papandreou,G.,Kokkinos,I.,Murphy,K.P.,&Yuille,A.L.(2018).DeepLab:Semantic Image Segmentation with Deep Convoluti本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于金字塔跨层融合解码器的图像语义分割方法,其特征在于,具体过程为:S1、输入图像;S2、数据预处理;S3、将经过步骤S2处理的图像送入编码器,产生原始的特征金字塔F1、F2、F3、F4;S4、将步骤S2.4所得原始的特征金字塔送入金字塔跨层融合解码器;在金字塔跨层融合解码器中,原始的特征金字塔首先经过增强的上下文嵌入RCE和融合模块Fusion block后产生特征金字塔F
1*
、F
2*
、F
3*
、F
4*
;然后F
1*
、F
2*
、F
3*
、F
4*
送入FCFPN,输出最终的语义分割结果;其中FCFPN为不带池化金字塔模块的UperNet解码器;具体过程为:S4.1、构造空间信息:通过编码器本身具有的空间特征即F2、F3和F4作为空间信息,即其中H
i
、W
i
分别是特征图F
i
,i=2,3,4的高度和宽度,D是嵌入维度,该值与增强的上下文嵌入RCE形成的上下文信息维度相同;S4.2、生成上下文信息:直接利用编码器输出的特征图F
i
,i=(2,3,4),先通过卷积核大小为1
×
1的卷积Conv来压缩通道;接着,将F2、F4分别上采样和下采样到F3的尺寸,此时形成的F
′2、F
′3、F
′4的尺寸相同,再通过一个卷积核大小为1
×
1的卷积Conv,并执行Flatten操作,从而形成了上下文信息其中D是嵌入维度;S4.3、融合模块包括注射器、提取器、跨窗口注意力模块Swin Block三部分,其中注射器和提取器就是ViT Adapter中的空间特征注射器和多尺度特征提取器,注射器将空间信息的特征注意力融合到上下文信息中,而提取器将上下文...

【专利技术属性】
技术研发人员:张颂扬任歌张亮林鸿
申请(专利权)人:郑州计量先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1