一种端到端的基于transformer的弱监督语义分割方法技术

技术编号：40296500 阅读：28 留言：0更新日期：2024-02-07 20:45

本发明专利技术涉及一种端到端的基于transformer的弱监督语义分割方法，将图像输入预先构建并训练好的语义分割网络中，生成分割结果图；该语义分割网络包括：特征编码模块：将输入图像处理为具有空间权重参数的特征图，包括MixTransformer主干编码网络，类激活图CAM生成子模块，PAR后处理子模块，伪掩膜生成子模块，以及语义亲和信息提取子模块；注意力信息提取模块：将transformer编码器中的自注意力模块输出的注意力图经过FFN网络后生成交叉注意力图和patch注意力图。本发明专利技术能够提高分割网络全局特征的提取能力，增加语义分割精度，同时端到端的网络能够减少多阶段训练的复杂性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其是涉及一种端到端的基于transformer的弱监督语义分割方法。

技术介绍

1、弱监督语义分割作为解决全监督语义分割中数据集标注工作量大的一种方法，主要采用生成类激活图(cam)的方法产生伪掩膜作为后续以全监督方式进行分割模型训练的标签，有效解决了全监督语义分割对数据集像素级标签的依赖性。

2、但是，目前的方法多数采用多阶段分割的方法，在执行分割任务时需要分阶段训练不同的模型，比较耗时耗力，本专利技术所提出的方法是一种单阶段的端到端的模型，能够大大减少训练模型的复杂性。同时针对采用传统的卷积神经网络进行图像分割所带来的全局特征信息丢失的问题，本专利技术采用transformer作为主干网络，能够有效保留图像的全局信息，提高分割精度。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种一种端到端的基于transformer的弱监督语义分割方法，该专利技术能够减少多阶段训练带来的复杂性，同时提高网络全局特征信息的提取能力，增加语义分割精度。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种端到端的基于transformer的弱监督语义分割方法，用于减少多阶段训练带来的复杂性，同时提高网络全局特征信息的提取能力，增加语义分割精度，主要包括特征编码模块、注意力信息提取模块以及特征解码模块。

4、所述特征编码模块主要包括transformer主干编码网络、类激活图生成、伪掩膜生

5、将图像输入mixtransformer为主干的编码器进行特征提取，通过transformer中的自注意力模块提取注意力信息，将注意力图进行维度变换和归一化得到语义亲和信息；

6、将transformer输出的最后一层的特征图与权重矩阵进行运算得到类激活图，然后利用后处理方法如par等进行精细化，最后通过设置阈值方式来进行伪掩膜的生成；

7、所述注意力信息提取模块主要包括对初步注意力图进行处理，生成交叉注意力图和patch注意力图两个步骤：

8、将编码网络输出的注意力图进过平均池化和全连接层进行维度变换，同时将编码网络中的注意力权重信息提取出来，将得到的注意力图与该权重矩阵进行运算得到具有权重信息的注意力图；

9、将上述具有权重信息的注意力图进行维度变换及切片从而获取其中的交叉注意力图和patch注意力图。

10、所述特征解码模块主要通过上采样的方式来进行分割结果的输出：

11、将transformer编码网络输出的特征图依次由小及大进行插值上采样，将尺寸最小的特征图上采样至上阶段尺寸稍大的特征图大小，然后与之进行融合，重复上述步骤直到输出的特征图与原始输入图像尺寸一样。

12、与现有技术相比，本专利技术具有以如下有益效果：

13、1、本专利技术通过将采用编码-解码的网络结构，将图像输入编码器进行特征提取后及其他处理后，配以相应的解码网络进行上采样直接得到分割结果，大大减少了多阶段语义分割执行的复杂性。

14、2、本专利技术通过将传统卷积神经网络替换为以transformer为骨干的主干网络。大大改善了卷积神经网络丢失全局特征信息的缺陷，有利于提升分割结果的精度。

本文档来自技高网...

【技术保护点】

1.一种端到端的基于transformer的弱监督语义分割方法，其特征在于，将图像输入预先构建并训练好的语义分割网络中，生成语义分割结果；

2.根据权利要求1所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述MixTransformer主干编码网络包括四个分层block，将输入图像一次输入四个block可以得到四个不同维度和大小的特征图，所述每个block都包括一个自注意力模块和一个前馈网络模块，至此完成transformer的特征编码工作。

3.根据权利要求1或2所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述自注意力模块的计算方法为：Q、K和V分别代表Query、Key和Value矩阵：

4.根据权利要求1或2所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述初步类激活图的生成使用MixTransformer特征编码器输出的最后一层特征图与对应权重进行加权求和计算得到，将生成的类激活图进行后处理再按阈值进行背景和目标类的划分得到伪掩膜。

...

【技术特征摘要】

1.一种端到端的基于transformer的弱监督语义分割方法，其特征在于，将图像输入预先构建并训练好的语义分割网络中，生成语义分割结果；

2.根据权利要求1所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述mixtransformer主干编码网络包括四个分层block，将输入图像一次输入四个block可以得到四个不同维度和大小的特征图，所述每个block都包括一个自注意力模块和一个前馈网络模块，至此完成transformer的特征编码工作。

3.根据权利要求1或2所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述自注意力模块的计算方法为：q、k和v分别代表query、key和value矩阵：

4.根据权利要求1或2所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述初步类激活图的生成使用mixtransformer特征编码器输出的最后一层特征图与对应权重进行加权求和计算得到，将生成的类激活图进行后处理再按阈值进行背景和目标类的划分得到伪掩膜。

5.根据权利要求3所述的一种端到端的基于transformer的弱监督语义分割方法，其特征在于，所述初步类激活图的生成使用mixtransformer特征...

【专利技术属性】
技术研发人员：王霜，胡智焕，张卫东，董宏丽，禹鑫燚，吴迪，陈宏田，胡小波，郭东生，何星，
申请(专利权)人：海南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人