一种基于文本驱动的高效弱监督语义分割方法及装置制造方法及图纸

技术编号：37259205 阅读：9 留言：0更新日期：2023-04-20 23:34

本发明专利技术公开了一种基于文本驱动的高效弱监督语义分割方法及装置，包括如下步骤：(1)将图片和对应的类别名输入预训练好的视觉

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本驱动的高效弱监督语义分割方法及装置

[0001]本专利技术属于计算机视觉中的图像语义分割领域，尤其是涉及一种基于文本驱动的高效弱监督语义分割方法及装置。

技术介绍

[0002]语义分割是计算机视觉领域中的一个重要任务，其目的是为图像中的每一个像素分配对应的语义标签，如汽车、人、天空等。传统的有监督的语义分割模型需要像素级别的标签作为输入，但是这种像素级的标注成本十分昂贵，需要大量的人力投入和标注时间。为此，人们提出弱监督语义分割来降低标注成本。本专利技术中的弱监督语义分割指的是只使用图片级别的标注来自动生成像素级别的语义标签(伪标签)。
[0003]现有的弱监督语义分割方法大多遵循一种三阶段的范式：(1)使用图片级别的标注在特定的数据集上训练一个分类模型，根据分类模型，为每个训练图像生成一些种子区域。这一步通常是通过计算分类模型的类激活图来实现的；(2)通过将语义信息从种子区域传播到整个图像来生成伪标签。这一步通常需要训练额外的语义一致性网络或者借助显著性图作为辅助来实现。(3)基于得到的像素级别的伪标签，训练最终的语义分割模型。这一步主要是为了验证生成的伪标签的质量。
[0004]然而，上述三阶段的范式效率较低，其需要在不同阶段训练不同的模型，训练成本高。因此有一些工作提出端到端的模型来提高效率，比如2020年发表在计算机视觉和模式识别会议Conference on Computer Vision and Pattern Recognition的文章《Single
‑
S...

【技术保护点】

【技术特征摘要】
1.一种基于文本驱动的高效弱监督语义分割方法，其特征在于，包括如下步骤：(1)将图片和对应的类别名输入预训练好的视觉
‑
语言模型，使用基于梯度的类激活映射得到初始的类激活图；(2)基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进；(3)使用条件随机场对改进后的类激活图进行后处理，得到语义分割的伪标签；(4)利用生成的伪标签训练语义分割模型，并利用训练好的语义分割模型对待分割的图片进行语义分割。2.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，步骤(1)中，采用在大规模图像
‑
文本对数据上预训练好的视觉
‑
语言模型，其包括一个图像编码器和一个文本编码器，在将类名输入文本编码器之前，对类别名称采用提示词和同义词融合的方式进行扩充。3.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，步骤(1)中，使用基于梯度的类激活映射时，将softmax引入类激活映射，当前类别c的分类分数Y
c
经过softmax处理后得到概率分数s
c
，利用概率分数s
c
计算梯度，得到新的权重如下：通过对特征图进行加权求和得到初始的类激活图，公式为：其中，表示连接第k个特征图和当前类别c的权重，Z代表特征图中的像素个数，Y
c
代表当前类别c的分类分数，Y
c
’
代表第c
’
种类别的分类分数，代表特征图上位于(i,j)位置的激活值，s
c
’
代表Y
c
’
经过softmax函数处理之后的概率分数，ReLU激活函数用于去掉对当前类别没有正面影响的特征。4.根据权利要求3所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，经过softmax处理后得到概率分数S
c
的公式为：式中，c
’
代表第c
’
种类别，C代表总类别数。5...

【专利技术属性】
技术研发人员：林钰淇，陈铭浩，蔡登，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人