一种基于注意力调节的弱监督语义分割方法技术

技术编号:39405967 阅读:9 留言:0更新日期:2023-11-19 15:58
本发明专利技术公开了一种基于注意力调节的弱监督语义分割方法,探索Transformer在弱监督语义分割任务中的应用。基于Transformer的方法会使用注意力对类激活图进行优化,然而由于部分类与块之间的注意力存在错误,导致优化之后得到的类激活图存在不完全激活问题。针对此问题,本发明专利技术提出了一种新颖的弱监督语义分割框架,在该框架中设计了一个注意力调节策略,根据块与块之间的注意力来调节类与块之间的注意力,调节后的注意力可以激活更多的目标区域。在PASCAL VOC 2012数据集和MS COCO 2014数据集上与最新的方法进行比较,本发明专利技术方法均取得了最优的结果。取得了最优的结果。取得了最优的结果。

【技术实现步骤摘要】
一种基于注意力调节的弱监督语义分割方法


[0001]本专利技术属于图像分割
,具体涉及一种基于注意力调节的弱监督语义分割方法。

技术介绍

[0002]语义分割是计算机视觉领域一个基础而又具有挑战性的任务之一,其研究目的是对图像中的每个像素点进行分类,并将其分配给特定的语义类别。语义分割在许多领域具有广泛的应用,如图像识别、自动驾驶、医学图像分析、场景理解和视频分析等,它可以帮助计算机更好地理解图像中的内容,从而实现自动化的场景理解和决策。近年来由于深度学习方法的蓬勃发展,语义分割也取得了显著的进展,其中全监督的语义分割模型被广泛应用并取得了优秀的性能。然而训练全监督的语义分割模型往往需要大规模的像素级标注数据,而像素级标注数据的获取往往难度大且耗时耗力。为了解决这个问题,许多工作开始采用弱监督语义分割技术。旨在使用边界框标注、点标注、涂鸦标注或图像级标注等弱标注训练语义分割网络。其中图像级标注是最方便获取的标注,在弱监督语义分割中得到了广泛的研究。
[0003]虽然图像级标注的获取非常方便,但是图像级标注存在一个问题,即它不能提供足够的位置监督信息,因为它仅给出一张图像中包含的对象类别信息,并没有指出对象类别在图像中具体的位置信息。类激活图(CAM)的发展提供了一种只使用图像级标注来获取位置信息的有效方法。对于图像级标注的弱监督语义分割,大多数现有方法通常使用以下流程来解决:1)使用图像级标注训练卷积神经网络(CNN),从中生成类激活图以获得种子区域;2)对种子区域进行一定约束的扩展以获得伪标签;3)使用伪标签作为真实标签来训练全监督语义分割网络。但是卷积神经网络产生的类激活图存在一个问题,即它倾向于激活一个局部的有辨别力的区域,而忽略了完整的对象范围,导致不完全激活问题。目前有研究证明这是由于卷积神经网络的固有特性导致的,即卷积神经网络中的卷积操作只能捕获小范围的特征依赖性,无法探索全局特征关系,这导致激活对象区域过小,从而影响生成的伪标签质量,最终导致难以取得理想的弱监督语义分割结果。
[0004]目前,Transform在许多计算机视觉任务中取得了巨大的成功,这主要得益于其本身的注意力机制。Transformer的注意力机制可以对全局特征关系进行建模,并克服卷积神经网络的上述缺点。故一些研究者们开始使用Transformer进行弱监督语义分割的研究,它们通常利用Transformer结构进行图像特征提取并生成类激活图,之后使用注意力对类激活图进行优化得到较为完整的类激活图。虽然现有基于Transformer的弱监督语义分割方法通常使用注意力对类激活图进行优化,但是由于Transformer生成的注意力中部分类与块之间注意力存在误差,导致类激活图在经过注意力优化后仍然不能够完整地激活对象区域。

技术实现思路

[0005]本专利技术的目的是解决弱监督语义分割中目标区域不能够被完全激活的问题,提供了一种基于注意力融合的弱监督语义分割方法,生成更加完整且准确的覆盖目标区域的类激活图,通过类激活图来生成较高质量的像素级伪标签进行语义分割网络的训练,提高网络的语义分割性能。
[0006]技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:一种基于注意力调节的弱监督语义分割方法,包括以下步骤:
[0007]步骤1,数据准备:获取标注图像数据集,并将数据集划分为训练集、验证集和测试集;
[0008]步骤2,数据预处理:对图像进行随机水平翻转以及颜色抖动处理,对图像进行归一化处理,并进行随机裁剪,将裁剪后的图像作为弱监督语义分割模型的输入;
[0009]步骤3,模型搭建:采用在ImageNet上预训练的DeiT

S作为模型的主干,构建弱监督语义分割模型;
[0010]步骤4,模型训练:使用Adam优化器优化弱监督语义分割模型,同时使用训练集对模型进行设定周期的训练,损失函数使用多标签交叉熵损失,训练好的模型生成类激活图;
[0011]步骤5,根据类激活图的值对每个像素位置分配一个类别生成像素级伪标签,然后使用像素级伪标签对语义分割网络DeeplabV2进行训练;将验证集和测试集中的图片输入到训练好的模型中得到最终的分割图。
[0012]进一步的,步骤3中模型搭建包括:
[0013]步骤3.1,搭建基于注意力融合的弱监督语义分割框架,将预处理后的图像分割成N个不重叠的块,然后通过线性映射构造N个块令牌,并将C个类令牌与N个块令牌拼接得到框架的输入令牌;
[0014]步骤3.2,将输入令牌输入到框架中的Transfomer编码层,得到输出令牌;然后从输出令牌中提取最后N个块令牌组成输出块令牌Tp_out,并对其进行重组以及卷积操作得到初始类激活图Original

CAM;
[0015]步骤3.3,输入令牌经过Transfomer编码层时注意力模块对输入令牌进行注意力计算产生注意力Attention,计算公式如下:
[0016][0017]其中Q和K分别表示输入令牌在经过Transformer编码层时通过线性投影得到的Quary矩阵及Key矩阵,T表示矩阵转置,d
k
表示缩放因子;
[0018]步骤3.4,Attention进一步划分为类到块注意力A
c2p
和块到块注意力A
p2p
,然后通过块与块之间的注意力A
p2p
对类与块之间的注意力A
c2p
进行调节;
[0019]步骤3.5,使用类到块注意力A
c2p
和块到块注意力A
p2p
对初始类激活图进行优化。
[0020]进一步的,类到块注意力A
c2p
和块到块注意力A
p2p
表示如下:
[0021]A
c2p
=Attention[1:C,C+1:C+N][0022]A
p2p
=Attention[C+1:C+N,C+1:C+N][0023]调节类c与块i之间的注意力,过程如下:
[0024]首先,根据各个块与块i之间的注意力对各个块按照注意力值从大到小的顺序进
行排序,并选择排序后排名前p%的块;
[0025]然后,将类c与选择的块之间的注意力取出并进行计算,获得类c与块i之间的注意力调节因子:
[0026][0027]其中,r(c,i)表示A
c2p
中类c与块i之间的注意力调节因子,c∈{1,2,

,C}表示数据集类别总数,i,j表示块,i∈{1,2,

,N},j∈U,U表示与块i之间注意力最大的前p%个块的集合,S表示U中块的数量;A
c2p
(c,j)表示表示类c与块j间的注意力;
[0028]接下来将注意力调节因子r(c,i)加到类c与块i之间的注意力中进行调节:
[0029]A
c2p
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力调节的弱监督语义分割方法,其特征在于,包括以下步骤:步骤1,数据准备:获取标注图像数据集,并将数据集划分为训练集、验证集和测试集;步骤2,数据预处理:对图像进行随机水平翻转以及颜色抖动处理,对图像进行归一化处理,并进行随机裁剪,将裁剪后的图像作为弱监督语义分割模型的输入;步骤3,模型搭建:采用在ImageNet上预训练的DeiT

S作为模型的主干,构建弱监督语义分割模型;步骤4,模型训练:使用Adam优化器优化弱监督语义分割模型,同时使用训练集对模型进行设定周期的训练,损失函数使用多标签交叉熵损失,训练好的模型生成类激活图;步骤5,根据类激活图的值对每个像素位置分配一个类别生成像素级伪标签,然后使用像素级伪标签对语义分割网络DeeplabV2进行训练;将验证集和测试集中的图片输入到训练好的模型中得到最终的分割图。2.根据权利要求1所述的基于注意力调节的弱监督语义分割方法,其特征在于,步骤3中模型搭建包括:步骤3.1,搭建基于注意力融合的弱监督语义分割框架,将预处理后的图像分割成N个不重叠的块,然后通过线性映射构造N个块令牌,并将C个类令牌与N个块令牌拼接得到框架的输入令牌;步骤3.2,将输入令牌输入到框架中的Transfomer编码层,得到输出令牌;然后从输出令牌中提取最后N个块令牌组成输出块令牌Tp_out,并对其进行重组以及卷积操作得到初始类激活图Original

CAM;步骤3.3,输入令牌经过Transfomer编码层时注意力模块对输入令牌进行注意力计算产生注意力Attention,计算公式如下:其中Q和K分别表示输入令牌在经过Transformer编码层时通过线性投影得到的Quary矩阵及Key矩阵,T表示矩阵转置,d
k
表示缩放因子;步骤3.4,Attention进一步划分为类到块注意力A
c2p
和块到块注意力A
p2p
,然后通过块与块之间的注意力A
p2p
对类与块之间的注意力A
c2p
进行调节;步骤3.5,使用类到块注意力A
c2p
和块到块注意力A
p2p
对初始类激活图进行优化。3.根据权利要求2所述的基于注意力调节的弱监督语义分割方法,其特征在于,类到块注意力A
c2p<...

【专利技术属性】
技术研发人员:苏京峰李军侠
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1