System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像分割方法、设备、集群、介质、程序产品和装置制造方法及图纸_技高网

图像分割方法、设备、集群、介质、程序产品和装置制造方法及图纸

技术编号:42628807 阅读:9 留言:0更新日期:2024-09-06 01:30
本申请的实施例提供了图像分割方法、电子设备、计算机集群、计算机可读存储介质、程序产品和装置。该方法包括使用图像分割模型的编码器生成图像集的训练图像的第一特征图,并且使用视觉语言模型的图像编码器来生成训练图像的第二特征图。该方法还包括基于第一特征图与第二特征图,来调整图像分割模型。该方案能够提供附加的域无偏知识来给图像分割模型的域自适应训练过程降噪,从而降低图像分割模型对训练数据风格的偏向性,提高所得模型的鲁棒性。

【技术实现步骤摘要】

本申请涉及信息,更具体地,涉及图像分割方法、电子设备、计算机存储介质和程序产品。


技术介绍

1、图像的语义分割是计算机视觉领域的基础任务之一,其通过对图像上的像素分类来分割图像区域。经训练的机器学习模型(诸如深度神经网络)在执行语义分割中取得了良好的效果,因此被越来越广泛地应用在该领域。

2、然而,为了获得具有足够性能的分割模型,训练机器学习模型的全监督方法需要使用大量标注图片来对模型进行训练。并且,针对图像的语义分割来训练机器学习模型需要数据具有像素级别的标注。对充足训练数据以及相应标注的依赖使得训练图像分割模型的代价十分昂贵,例如,仅人工标注一张图片就可能需要超过一小时的时间。


技术实现思路

1、本申请的实施例提供了一种图像分割方案。

2、在第一方面,提供了一种图像分割方法。该方法包括:使用图像分割模型的编码器生成图像集的训练图像的第一特征图,该图像分割模型用于分割输入图像;使用视觉语言模型的图像编码器来生成训练图像的第二特征图,该视觉语言模型的图像编码器和文本编码器针对语义相关的图像和文本分别生成彼此相关联的图像编码特征和文本编码特征;以及基于第一特征图与第二特征图,来调整图像分割模型。如此,能够使用域无偏的图像编码器来显式规约图像分割模型的特征学习,将图像编码器中域不变的语义信息蒸馏到图像分割模型上,从而降低所训练的图像分割模型对训练数据风格的偏向性。

3、在第一方面的一些实施例中,基于第一特征图与第二特征图来调整图像分割模型包括:使用第一高通滤波器来提取第一特征图中的第一组高频特征;使用第二高通滤波器来提取第二特征图中的第二组高频特征;以及基于第一组高频特征与第二组高频特征的差异来调整图像分割模型的参数。如此,对域不变的高频分量进行监督,能够提高消除图像分割模型的域偏向性的效果

4、在第一方面的一些实施例中,基于第一组高频特征与第二组高频特征的差异来调整图像分割模型的参数包括:将第一组高频特征映射到第二组高频特征的特征空间;基于经映射的第一组高频特征与第二组高频特征,确定图像分割模型的编码器的编码损失;以及基于图像编码损失来调整图像分割模型的参数。如此,将两组特征的映射到同维度的特征空间,便于对两组高频特征进行比较计算。

5、在第一方面的一些实施例中,还包括:使用视觉语言模型的文本编码器,针对一组类别的具有上下文提示的名称,生成针对一组类别的中的类别的原型特征;基于第一特征图中的像素的特征和一组类别的中的类别的原型特征的相似度,确定像素的预测类别;以及基于像素的标签指示的类别与预测类别的差异来调整图像分割模型的参数。如此,能够为图像分割模型的训练提供隐式监督,将域无偏的文本编码器的知识蒸馏到图像分割模型中,从而降低图像分割模型对训练数据的域偏向。

6、在第一方面的一些实施例中,还包括:基于训练图像的像素的标签指示的类别与图像分割模型的解码器对像素的分类结果之间的差异,调整图像分割模型的参数。如此,能够将域无偏的视觉语言模型与图像分割模型的监督训练结合使用,提高训练结果的鲁棒性。

7、在第一方面的一些实施例中,该图像集是第一图像集,并且该方法还包括:在基于第一图像集调整图像分割模型之后,基于第二图像集来调整图像分割模型。如此,能够将在一个域的数据上训练并利用视觉语言去偏的图像风格模型迁移到另一域。

8、在第一方面的一些实施例中,第二图像集中的图像的至少一部分像素不具有指示类别的标签。如此,根据本公开的实施例的去偏的模型能够适用于向可信知识不足的目标域迁移

9、在第一方面的一些实施例中,基于第二图像集来调整图像分割模型包括:使用图像分割模型来生成第二图像集中的目标图像的像素的标签,相应像素的标签指示图像分割模型对相应像素的分类结果;以及通过将目标图像的部分像素和部分像素的标签分别替换为第一图像集中的源图像的一组像素和一组像素的标签,获取第三图像集;以及使用第三图像集作为训练数据集来调整图像分割模型。如此,根据本公开的实施例在源域上训练的去偏的图像风格模型能够被迁移到目标域。

10、在第一方面的一些实施例中,基于第二图像集来调整图像分割模型包括:针对第二图像集中的图像的多个像素,使用图像分割模型的编码器来生成多个像素的多个特征向量;基于该多个特征向量,使用图像分割模型的解码器来确定多个像素的类别;基于由解码器确定为具有相应类别的像素的集合,确定该相应类别的当前原型特征向量;以及基于集合中的像素的由编码器生成的特征向量与当前原型特征向量之间的相似度,来调整图像分割模型。如此,根据本公开的实施例在源域上训练的去偏的图像风格模型能够被迁移到目标域。

11、在第一方面的一些实施例中,其中视觉语言模型是基于多个领域的多模态数据被训练的,其中文本编码器和图像编码器通过对比学习被训练。如此,视觉语言模型包括域之间不变和高度多样化的通用知识,因此适合用于对某个域上的模型训练去偏。

12、在第二方面,提供了一种用于图像分割的装置。该装置包括:第一生成模块,被配置为使用图像分割模型的编码器生成图像集的训练图像的第一特征图,该图像分割模型用于分割输入图像;第二生成模块,被配置为使用视觉语言模型的图像编码器来生成训练图像的第二特征图,该视觉语言模型的图像编码器和文本编码器针对语义相关的图像和文本分别生成彼此相似的图像编码特征和文本编码特征;以及调整模块,被配置为基于第一特征图与第二特征图,来调整图像分割模型。

13、在第二方面的一些实施例中,调整模块包括:第一滤波器模块,被配置为使用第一高通滤波器来提取第一特征图中的第一组高频特征;第二滤波器模块,被配置为使用第二高通滤波器来提取第二特征图中的第二组高频特征;以及高频调整模块,被配置为基于第一组高频特征与第二组高频特征的差异来调整图像分割模型的参数。

14、在第二方面的一些实施例中,高频调整模块包括:映射模块,被配置为将第一组高频特征映射到第二组高频特征的特征空间;第一损失模块,被配置为基于经映射的第一组高频特征与第二组高频特征,确定图像分割模型的编码器的编码损失;以及编码调整模块,被被指为基于图像编码损失来调整图像分割模型的参数。

15、在第二方面的一些实施例中,该装置还包括:原型生成模块,被配置为使用视觉语言模型的文本编码器,针对一组类别的具有上下文提示的名称,生成针对一组类别的中的类别的原型特征;预测模块,被配置为基于第一特征图中的像素的特征和一组类别的中的类别的原型特征的相似度,确定像素的预测类别;以及第二调整模块,被配置为基于像素的标签指示的类别与预测类别的差异来调整图像分割模型的参数。

16、在第二方面的一些实施例中,该装置还包括:第三调整模块,被配置为基于训练图像的像素的标签指示的类别与图像分割模型的解码器对像素的分类结果之间的差异,调整图像分割模型的参数。

17、在第二方面的一些实施例中,该图像集是第一图像集,并且该装置还包括:第四调整模块,被配置为在基于第一图像本文档来自技高网...

【技术保护点】

1.一种图像分割方法,其特征在于,包括:

2.根据权利要求1所述的方法,其中基于所述第一特征图与所述第二特征图来调整所述图像分割模型包括:

3.根据权利要求2所述的方法,其中基于所述第一组高频特征与所述第二组高频特征的差异来调整所述图像分割模型的所述参数包括:

4.根据权利要求1所述的方法,其特征在于,还包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求1所述的方法,其特征在于,其中所述图像集是第一图像集,并且所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述第二图像集中的图像的至少一部分像素不具有指示类别的标签。

8.根据权利要求6所述的方法,其特征在于,基于第二图像集来调整所述图像分割模型包括:

9.根据权利要求6所述的方法,其特征在于,基于第二图像集来调整所述图像分割模型包括:

10.根据权利要求8所述的方法,其中所述视觉语言模型是基于多个领域的多模态数据被训练的,其中所述文本编码器和所述图像编码器通过对比学习被训练。

<p>11.一种用于图像分割的装置,其特征在于,包括:

12.根据权利要求11所述的装置,其中所述调整模块包括:

13.根据权利要求12所述的装置,其中所述高频调整模块包括:

14.根据权利要求11所述的装置,其特征在于,还包括:

15.根据权利要求11所述的装置,其特征在于,还包括:

16.根据权利要求11所述的装置,其特征在于,其中所述图像集是第一图像集,并且所述装置还包括:

17.根据权利要求16所述的装置,其特征在于,所述第二图像集中的图像的至少一部分像素不具有指示类别的标签。

18.根据权利要求16所述的装置,其特征在于,其中所述第四调整模块包括:

19.根据权利要求16所述的装置,其特征在于,基于第二图像集来调整所述图像分割模型包括:

20.根据权利要求18所述的装置,其中所述视觉语言模型是基于多个领域的多模态数据被训练的,其中所述文本编码器和所述图像编码器通过对比学习被训练。

21.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行权利要求1至10中任一项所述的方法。

22.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;

23.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现根据权利要求1至10中任一项所述的方法。

24.一种计算机程序产品,其特征在于,所述计算机程序产品上包含计算机可执行指令,所述计算机可执行指令在被执行时实现根据权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种图像分割方法,其特征在于,包括:

2.根据权利要求1所述的方法,其中基于所述第一特征图与所述第二特征图来调整所述图像分割模型包括:

3.根据权利要求2所述的方法,其中基于所述第一组高频特征与所述第二组高频特征的差异来调整所述图像分割模型的所述参数包括:

4.根据权利要求1所述的方法,其特征在于,还包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求1所述的方法,其特征在于,其中所述图像集是第一图像集,并且所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述第二图像集中的图像的至少一部分像素不具有指示类别的标签。

8.根据权利要求6所述的方法,其特征在于,基于第二图像集来调整所述图像分割模型包括:

9.根据权利要求6所述的方法,其特征在于,基于第二图像集来调整所述图像分割模型包括:

10.根据权利要求8所述的方法,其中所述视觉语言模型是基于多个领域的多模态数据被训练的,其中所述文本编码器和所述图像编码器通过对比学习被训练。

11.一种用于图像分割的装置,其特征在于,包括:

12.根据权利要求11所述的装置,其中所述调整模块包括:

13.根据权利要求12所述的装置,其中所述高频调整模块包括:

14.根据权利要求11所述的装置,其特征在于,还包括:

【专利技术属性】
技术研发人员:田奇蒋东生谢凌曦王华宇沈为
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1