System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于开放词汇分割的图像语义分割模型的训练方法和装置制造方法及图纸_技高网

基于开放词汇分割的图像语义分割模型的训练方法和装置制造方法及图纸

技术编号:42059273 阅读:5 留言:0更新日期:2024-07-19 16:45
本发明专利技术涉及一种基于开放词汇分割的图像语义分割模型的训练方法和装置,获取训练样本集及预设的点网格;训练样本集中包括至少一个图像、至少一个图像中每个图像中每个实例对应的类别标签;基于预设的点网格、至少一个图像和每个图像对应的像素级的类别标签,确定预设的点网格中每个点对应的查询嵌入向量;基于至少一个图像以及每个点对应的查询嵌入向量,结合预训练好的特征提取及掩码生成模型,生成每个点对应的预测掩码区域向量;基于至少一个图像以及每个点对应的预测掩码区域向量,结合预设的余弦相似度损失函数和预设增强图像文本提取模型,更新多尺度特征适配器的参数。节省人工注释成本,保证图像分割性能。

【技术实现步骤摘要】

本专利技术涉及图像语义分割领域,特别是涉及基于开放词汇分割的图像语义分割模型的训练方法和装置


技术介绍

1、为了克服封闭词汇分割的限制,人们提出了开放词汇分割。开放词汇分割使用自然语言表示的类别名字的文本嵌入作为标签嵌入,而不是从训练数据集中学习它们。通过这样做,模型可以对更宽泛的词汇进行分类,从而提高处理更广泛类别的能力。为了确保提供有意义的嵌入,通常使用预训练的文本编码器。这个编码器可以有效地捕捉单词和短语的语义含义,这对于开放词汇分割非常关键。多模态模型,例如(contrastive language-image pre-training,clip)已经展现出在开放词汇分割方面的潜力,因为它们能够从大规模互联网数据中学习对齐的图像文本特征表示。

2、目前通常依赖于图像-掩模-文本三元组进行基于开放词汇分割的图像语义分割,但这种方法需要耗费大量的人工精力对掩模和文本之间的对应关系进行标注,会导致昂贵的注释成本。

3、因此,现有技术中在基于开放词汇分割的图像语义分割过程中,需要昂贵的注释成本。


技术实现思路

1、本专利技术提供一种基于开放词汇分割的图像语义分割模型的训练方法和装置,用以解决现有技术中在基于开放词汇分割的图像语义分割模型的训练过程中,需要昂贵的注释成本的问题,实现无须耗费大量的人工成本注释图像、掩码和文本之间的关系,也能保证图像语义分割的分割性能。

2、一种基于开放词汇分割的图像语义分割模型的训练方法,所述方法包括:获取训练样本集及预设的点网格;所述训练样本集中包括至少一个图像、所述至少一个图像中每个图像中每个实例对应的类别标签;所述预设的点网格中包括至少一个点;基于所述预设的点网格、所述至少一个图像和每个图像中每个实例对应的类别标签,确定所述预设的点网格中每个点对应的查询嵌入向量;其中,所述每个点对应的查询嵌入向量中包括每个点的位置嵌入向量,以及每个点在所述每个图像中对应的至少一个真实掩码嵌入向量;基于所述至少一个图像以及所述每个点对应的查询嵌入向量,结合预训练好的特征提取及掩码生成模型,生成每个点对应的预测掩码区域向量;基于所述至少一个图像以及所述每个点对应的预测掩码区域向量,结合预设的余弦相似度损失函数和预设增强图像文本提取模型,更新多尺度特征适配器的参数;所述预设的增强图像文本提取模型用于增强对图像的文本描述;所述多尺度特征适配器,用于增强预测掩模的视觉嵌入;所述预设的余弦相似度损失函数用于实现从每个图像对应的至少一个文本嵌入向量,确定与每个点对应的预测掩码区域向量对应的文本嵌入向量。

3、在其中一个实施例中,所述基于所述至少一个图像以及所述每个点对应的预测掩码区域向量,结合预设的余弦相似度损失函数和预设增强图像文本提取模型,更新多尺度特征适配器的参数,包括:针对所述至少一个图像中的每个图像,将所述每个图像输入预设增强图像文本提取模型中,确定所述每个图像对应的至少一个文本嵌入向量;将所述至少一个图像中的每个图像,输入所述特征提取及掩码生成模型中预设的视觉编码器,得到所述每个点的初始像素特征向量;并将所述每个点的初始像素特征向量和所述每个点对应的预测掩码区域向量,输入多尺度特征适配器中,得到所述每个点的像素特征向量;基于所述训练样本集中的所有图像对应的至少一个文本嵌入向量、所述点网格中每个点的像素特征向量和所述预设的余弦相似度损失函数,更新多尺度特征适配器的参数。

4、在其中一个实施例中,所述预设的增强图像文本提取模型包括:预设的视觉语言模型、预设的文本语言增强模型和预设的文本编码器;所述将所述每个图像输入预设增强图像文本提取模型中,确定所述每个图像对应的至少一个文本嵌入向量,包括:将所述每个图像输入所述预设的视觉语言模型中,确定所述每个图像的初始文本嵌入向量;所述每个图像的初始文本嵌入向量中包括对所述每个图像的描述文本特征表示;将所述每个图像的初始文本嵌入向量,输入预设的文本语言增强模型中,确定所述每个图像的文本特征表示的至少一个增强文本;将所述每个图像的文本特征表示的至少一个增强文本,分别输入所述预设的文本编码器,得到所述每个图像对应的至少一个文本嵌入向量。

5、在其中一个实施例中,所述基于所述训练样本集中的所有图像对应的至少一个文本嵌入向量、所述点网格中每个点的像素特征向量和所述预设的余弦相似度损失函数,更新多尺度特征适配器的参数,包括:针对每个点,基于所述每个点的像素特征向量和所述每个图像对应的每个文本嵌入向量的反余弦相似度,确定所述每个点的像素特征向量和所述每个图像对应的每个文本嵌入向量之间的成本矩阵;基于所述每个点的像素特征向量和所述每个图像对应的所有文本嵌入向量之间的成本矩阵,以及二部图匹配算法,确定每个点对应的最佳匹配的像素特征向量和文本嵌入向量;将所述每个点对应的最佳匹配的像素特征向量和文本嵌入向量,输入所述预设的余弦相似度损失函数,得到每个点对应的损失函数值,基于所述每个点对应的损失函数值更新得到所述多尺度特征适配器的参数。

6、在其中一个实施例中,每个点对应的预测掩码区域向量和所述每个图像对应的每个文本嵌入向量之间的成本矩阵对应的表达式为:其中,δ'i,j表示第i个点对应的像素特征向量和所述每个图像对应的第j个文本嵌入向量的反余弦相似度,ri表示第i个点的像素特征向量,tj表示每个图像对应的第j个文本嵌入向量;所述预设的余弦相似度损失函数为:其中,ri'表示第i个点对应的最佳匹配的像素特征向量,tk表示第i个点对应的最佳匹配的第k文本嵌入向量。

7、在其中一个实施例中,所述预训练好的特征提取及掩码生成模型还包括:视觉提示编码器和预设的视觉编码器;所述基于所述预设的点网格、所述至少一个图像和每个图像中每个实例对应的类别标签,确定所述预设的点网格中每个点对应的查询嵌入向量,包括:针对所述预设的点网格中的每个点,基于所述视觉提示编码器将所述每个点编码为两个位置嵌入向量,并基于每个图像中每个实例对应的类别标签和视觉提示编码器,确定所述每个点在所述每个图像中对应的至少一个真实掩码嵌入向量;将所述每个图像输入到所述预设的视觉编码器中,确定所述至少一个真实掩码嵌入向量对应的内容嵌入向量;针对所述预设的点网格中的每个点,将每个点对应的两个位置嵌入向量和所述每个点在所述每个图像中对应的至少一个真实掩码嵌入向量拼接后,与每个点对应的预设查询类型以及所述至少一个真实掩码嵌入向量对应的内容嵌入向量组合,得到所述每个点对应的查询嵌入向量。

8、在其中一个实施例中,所述特征提取及掩码生成模型还包括视觉提示编码器、预设的视觉编码器和掩码解码器,在所述结合预训练好的特征提取及掩码生成模型,生成每个点对应的预测掩码区域向量之前,所述方法还包括:针对所述至少一个图像中的每个图像,经过所述预设的视觉编码器和所述多尺度像素解码器进行特征提取,得到所述每个图像的多尺度像素特征向量;基于所述每个点对应的查询嵌入向量、所述每个图像的多尺度像素特征向量和所述掩码生成及语义分割损失函数,更新所述视觉提示编码器、掩码本文档来自技高网...

【技术保护点】

1.一种基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述基于所述至少一个图像以及所述每个点对应的预测掩码区域向量,结合预设的余弦相似度损失函数和预设增强图像文本提取模型,更新多尺度特征适配器的参数,包括:

3.如权利要求2所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述预设的增强图像文本提取模型包括:预设的视觉语言模型、预设的文本语言增强模型和预设的文本编码器;所述将所述每个图像输入预设增强图像文本提取模型中,确定所述每个图像对应的至少一个文本嵌入向量,包括:

4.如权利要求2所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述基于所述训练样本集中的所有图像对应的至少一个文本嵌入向量、所述点网格中每个点的像素特征向量和所述预设的余弦相似度损失函数,更新多尺度特征适配器的参数,包括:

5.如权利要求4所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,每个点对应的预测掩码区域向量和所述每个图像对应的每个文本嵌入向量之间的成本矩阵对应的表达式为:其中,δ′i,j表示第i个点对应的像素特征向量和所述每个图像对应的第j个文本嵌入向量的反余弦相似度,ri表示第i个点的像素特征向量,tj表示每个图像对应的第j个文本嵌入向量;

6.如权利要求1所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述预训练好的特征提取及掩码生成模型还包括:视觉提示编码器和预设的视觉编码器;所述基于所述预设的点网格、所述至少一个图像和每个图像中每个实例对应的类别标签,确定所述预设的点网格中每个点对应的查询嵌入向量,包括:

7.如权利要求1所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述特征提取及掩码生成模型还包括视觉提示编码器、预设的视觉编码器和掩码解码器,在所述结合预训练好的特征提取及掩码生成模型,生成每个点对应的预测掩码区域向量之前,所述方法还包括:

8.一种基于开放词汇分割的图像语义分割模型的训练装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述基于开放词汇分割的图像语义分割模型的训练方法的步骤。

10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述权利要求1至7中任一项所述基于开放词汇分割的图像语义分割模型的训练方法的步骤。

...

【技术特征摘要】

1.一种基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述基于所述至少一个图像以及所述每个点对应的预测掩码区域向量,结合预设的余弦相似度损失函数和预设增强图像文本提取模型,更新多尺度特征适配器的参数,包括:

3.如权利要求2所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述预设的增强图像文本提取模型包括:预设的视觉语言模型、预设的文本语言增强模型和预设的文本编码器;所述将所述每个图像输入预设增强图像文本提取模型中,确定所述每个图像对应的至少一个文本嵌入向量,包括:

4.如权利要求2所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,所述基于所述训练样本集中的所有图像对应的至少一个文本嵌入向量、所述点网格中每个点的像素特征向量和所述预设的余弦相似度损失函数,更新多尺度特征适配器的参数,包括:

5.如权利要求4所述的基于开放词汇分割的图像语义分割模型的训练方法,其特征在于,每个点对应的预测掩码区域向量和所述每个图像对应的每个文本嵌入向量之间的成本矩阵对应的表达式为:其中,δ′i,j表示第i个点对应的像素特征向量和所述每个图像对应的第j个文本嵌入向量的反余弦相似度,ri表示第i个点的...

【专利技术属性】
技术研发人员:王兆卿陈紫业贺潇郭彦东
申请(专利权)人:智平方深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1