当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于文本驱动的高效弱监督语义分割方法及装置制造方法及图纸

技术编号:37259205 阅读:9 留言:0更新日期:2023-04-20 23:34
本发明专利技术公开了一种基于文本驱动的高效弱监督语义分割方法及装置,包括如下步骤:(1)将图片和对应的类别名输入预训练好的视觉

【技术实现步骤摘要】
一种基于文本驱动的高效弱监督语义分割方法及装置


[0001]本专利技术属于计算机视觉中的图像语义分割领域,尤其是涉及一种基于文本驱动的高效弱监督语义分割方法及装置。

技术介绍

[0002]语义分割是计算机视觉领域中的一个重要任务,其目的是为图像中的每一个像素分配对应的语义标签,如汽车、人、天空等。传统的有监督的语义分割模型需要像素级别的标签作为输入,但是这种像素级的标注成本十分昂贵,需要大量的人力投入和标注时间。为此,人们提出弱监督语义分割来降低标注成本。本专利技术中的弱监督语义分割指的是只使用图片级别的标注来自动生成像素级别的语义标签(伪标签)。
[0003]现有的弱监督语义分割方法大多遵循一种三阶段的范式:(1)使用图片级别的标注在特定的数据集上训练一个分类模型,根据分类模型,为每个训练图像生成一些种子区域。这一步通常是通过计算分类模型的类激活图来实现的;(2)通过将语义信息从种子区域传播到整个图像来生成伪标签。这一步通常需要训练额外的语义一致性网络或者借助显著性图作为辅助来实现。(3)基于得到的像素级别的伪标签,训练最终的语义分割模型。这一步主要是为了验证生成的伪标签的质量。
[0004]然而,上述三阶段的范式效率较低,其需要在不同阶段训练不同的模型,训练成本高。因此有一些工作提出端到端的模型来提高效率,比如2020年发表在计算机视觉和模式识别会议Conference on Computer Vision and Pattern Recognition的文章《Single

Stage Semantic Segmentation From Image Labels》和同年发表在Proceedings of the AAAI Conference on Artificial Intelligence的文章《Reliability does matter:An end

toend weakly supervised semantic segmentation approach》提出了单阶段的方法,大大地简化了生成伪标签的流程。2022年发表在计算机视觉和模式识别会议Conference on Computer Vision and Pattern Recognition的文章《Learning Affinity from Attention:End

to

End Weakly

Supervised Semantic Segmentation with Transformers》使用视觉transformer来端到端地生成和改进伪标签,在减少训练代价的同时,进一步提升了语义分割的效果。这类单阶段的方法虽然简便,但是效果对比多阶段的方法还是有较大的差距。
[0005]因此,如何在不影响语义分割效果的前提下,尽可能地提高弱监督语义分割的效率,是一个值得研究的问题。

技术实现思路

[0006]本专利技术提供了一种基于文本驱动的高效弱监督语义分割方法及装置,通过引入基于视觉transformer架构的视觉

语言模型来高效地为语义分割生成高质量的伪标签,从而提高语义分割模型的分割效率和效果。
[0007]一种基于文本驱动的高效弱监督语义分割方法,包括如下步骤:
[0008](1)将图片和对应的类别名输入预训练好的视觉

语言模型,使用基于梯度的类激活映射得到初始的类激活图;
[0009](2)基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进;
[0010](3)使用条件随机场对改进后的类激活图进行后处理,得到语义分割的伪标签;
[0011](4)利用生成的伪标签训练语义分割模型,并利用训练好的语义分割模型对待分割的图片进行语义分割。
[0012]进一步地,步骤(1)中,采用在大规模图像

文本对数据上预训练好的视觉

语言模型,其包括一个图像编码器和一个文本编码器,在将类名输入文本编码器之前,对类别名称采用提示词和同义词融合的方式进行扩充。
[0013]使用基于梯度的类激活映射时,将softmax引入类激活映射,当前类别c的分类分数Y
c
经过softmax后得到概率分类分数s
c
,利用概率分数s
c
计算梯度,得到新的权重如下:
[0014][0015]通过对特征图进行加权求和得到初始的类激活图,公式为:
[0016][0017]其中,表示连接第k个特征图和当前类别c的权重,Z代表特征图中的像素个数,Y
c
代表当前类别c的分类分数,Y
c

代表第c

种类别的分类分数,代表特征图上位于(i,j)位置的激活值,s
c

代表Y
c

经过softmax函数处理之后的概率分数,ReLU激活函数用于去掉对当前类别没有正面影响的特征。
[0018]经过softmax处理后得到概率分数s
c
的公式为:
[0019][0020]式中,c

代表第c

种类别,C代表总类别数。
[0021]步骤(2)的具体过程为:
[0022](2

1)步骤(1)得到类激活图M
c
的同时,还得到了自注意力权重矩阵W
attn
;使用Sinkhorn正则化将自注意力权重归一化,使其行和列的和均为1,记为矩阵D,进而定义语义一致性矩阵A如下:
[0023][0024](2

2)为类激活图M
c
设定一个阈值,得到一些连通区域,取这些连通区域的外接矩形作为类别掩码,外接矩形包含了当前类别的像素位置;之后使用这些类别掩码对一致性矩阵A进行遮挡,使其只关注当前类别的像素;
[0025](2

3)使用遮挡后的一致性矩阵进行类激活图改进,过程如下:
[0026][0027]式中,M
c
和A分别代表类激活图和一致性矩阵,代表改进后的类激活图,B
c
代表外接矩形掩码,

代表哈达玛乘积,t代表迭代次数,vec()代表矩阵向量化。
[0028]步骤(3)中,使用条件随机场对改进后的类激活图进行后处理时,忽略掉伪标签中置信度较低的像素位置,在后续训练语义分割模型时,不参与损失函数的计算。
[0029]一种基于文本驱动的高效弱监督语义分割装置,包括:
[0030]类激活图生成模块,用于将图片和对应的类别名输入预训练好的视觉

语言模型,使用基于梯度的类激活映射得到初始的类激活图;
[0031]类激活图改进模块,用于基于视觉transfo本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本驱动的高效弱监督语义分割方法,其特征在于,包括如下步骤:(1)将图片和对应的类别名输入预训练好的视觉

语言模型,使用基于梯度的类激活映射得到初始的类激活图;(2)基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进;(3)使用条件随机场对改进后的类激活图进行后处理,得到语义分割的伪标签;(4)利用生成的伪标签训练语义分割模型,并利用训练好的语义分割模型对待分割的图片进行语义分割。2.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法,其特征在于,步骤(1)中,采用在大规模图像

文本对数据上预训练好的视觉

语言模型,其包括一个图像编码器和一个文本编码器,在将类名输入文本编码器之前,对类别名称采用提示词和同义词融合的方式进行扩充。3.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法,其特征在于,步骤(1)中,使用基于梯度的类激活映射时,将softmax引入类激活映射,当前类别c的分类分数Y
c
经过softmax处理后得到概率分数s
c
,利用概率分数s
c
计算梯度,得到新的权重如下:通过对特征图进行加权求和得到初始的类激活图,公式为:其中,表示连接第k个特征图和当前类别c的权重,Z代表特征图中的像素个数,Y
c
代表当前类别c的分类分数,Y
c

代表第c

种类别的分类分数,代表特征图上位于(i,j)位置的激活值,s
c

代表Y
c

经过softmax函数处理之后的概率分数,ReLU激活函数用于去掉对当前类别没有正面影响的特征。4.根据权利要求3所述的基于文本驱动的高效弱监督语义分割方法,其特征在于,经过softmax处理后得到概率分数S
c
的公式为:式中,c

代表第c

种类别,C代表总类别数。5...

【专利技术属性】
技术研发人员:林钰淇陈铭浩蔡登
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1