一种基于预训练的开放世界语义分割自动概念补全方法技术

技术编号：43883591 阅读：20 留言：0更新日期：2024-12-31 19:08

本发明专利技术公开了一种基于预训练的开放世界语义分割自动概念补全方法。包括：计算教师模型和学生模型的图像编码特征，通过图像特征蒸馏，将教师模型的知识传递到学生模型；使用预设视觉语言预训练模型，利用大规模图像‑文本数据生成的图像编码特征与教师模型生成的图像编码特征对比相似度，生成子标题，进行自动概念补全，得到补全后的标题；利用补全后标题的编码特征、子标题的编码特征与学生模型生成的图像编码特征对比损失来促进学生模型实现跨模态语义信息对齐；利用训练完成的学生模型对图像进行有效分割和识别。本发明专利技术通过图像特征蒸馏，确保图像特征和文本特征在同一语义空间中有效对齐。使用自动概念补全，确保文本标签的一致性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉、深度学习和自然语言处理领域，更具体地，涉及一种基于预训练的开放世界语义分割自动概念补全方法。

技术介绍

1、视觉语言预训练模型(vlp)的成功极大地推动了文本监督开放世界语义分割的发展，这些模型利用图像和文本之间的相关性进行分割。然而，目前的模型主要依赖于基于web的大规模图像-文本数据集，这些数据集的文本描述存在局限性，且特定任务的文本生成器的训练成本很高。此外，将预训练的vlp模型中的开放世界语义知识转移到语义分割任务中面临着补丁分组和跨模态细粒度语义对齐的挑战。

2、作为vlp模型的具体实现之一，现有的基于clip的开放世界语义分割模型通常采用再训练进行补丁自分组groupvit，或者使用掩码生成器对语义对齐模块进行微调以进行语义分类ovseg。具体而言，groupvit通过再训练的方式进行补丁自分组，将图像划分为若干片段，并对每个片段进行特征提取和处理。而ovseg使用掩码生成器对语义对齐模块进行微调，通过生成掩码来实现语义分类。此外，为了改进文本监督信息的质量，以前的方法往往通过引入由llm(如chatgpt)构建的语义字典来解决文本监督信息的歧义问题。然而，再训练的类clip框架可能会破坏原有的语义对齐关系，导致模型在处理未见过的新类别时表现不佳；另一方面，基于clip的图像级语义对齐不适合细粒度的语义分割任务，同时微调过程可能引入噪音，影响分割精度。此外，通过llm(如chatgpt)构建和维护语义字典的成本较高，无法有效解决数据集中的标签缺失和标准化问题。

3、现

技术实现思路

1、本专利技术为提高细粒度分割能力，减少噪音的影响，提升模型在处理未见过的新类别时的表现；解决标签缺失和标准化问题，降低成本，提高文本监督信息的质量和模型的适用性，提供一种基于预训练的开放世界语义分割自动概念补全方法。

2、本专利技术提供了一种基于预训练的开放世界语义分割自动概念补全方法，包括如下步骤：

3、计算教师模型和学生模型的图像编码特征，通过图像特征蒸馏，将教师模型的知识传递到学生模型，增强学生模型对全局语义信息的掌握；

4、使用预设的视觉语言预训练模型，利用大规模图像-文本数据生成的图像编码特征与教师模型生成的图像编码特征对比相似度，生成子标题，进行自动概念补全，得到补全后的标题；

5、利用自动概念补全后的标题的编码特征、视觉语言预训练模型生成的子标题的标题编码特征与学生模型生成的图像编码特征对比损失来促进学生模型实现跨模态语义信息对齐。

6、利用训练完成的学生模型对图像进行有效分割和识别。

7、进一步地，所述预设的视觉语言预训练模型为clip模型。

8、进一步地，所述图像特征蒸馏，包括如下步骤：

9、使用视觉语言预训练模型图像编码器作为教师模型，计算图像编码特征；使用goupvit的段生成器作为学生模型，将图像分割成多个段令牌，计算图像编码特征；

10、将教师模型和学生模型的图像编码特征分别进行归一化，然后通过计算它们的总蒸馏对比损失来衡量它们的相似度；

11、利用总蒸馏对比损失改进学生模型，使其生成的特征更接近教师模型生成的特征。

12、进一步地，所述教师模型的参数是固定的。

13、进一步地，所述计算学生模型的图像编码特征，包括如下步骤：

14、使用goupvit的图像编码器作为段生成器，将图像分割成多个段令牌；

15、对分割的多个段令牌进行平均池化操作；

16、通过多层感知器对池化结果进行变换，得到编码特征。

17、进一步地，所述的总蒸馏对比损失的公式为：

18、

19、其中，l为使用的对比损失函数，i为图像，is和it分别表示由学生模型和教师模型编码的图像特征嵌入。

20、进一步地，所述自动概念补全，包括如下步骤：

21、利用大规模图像-文本数据构造标签集，包括基本标签集和开放标签集；

22、使用视觉语言预训练模型文本编码器对标签集进行编码，得到特征编码；

23、计算所述特征编码与教师模型生成的图像特征编码之间的余弦相似度，取出相似度高的标签作为补充标签；

24、利用补充标签与视觉语言预训练模型中的prompting engineering相结合，生成子标题；

25、将生成的子标题和原始的标题合并成一个总的标题，并训练该标题与相应的图像语义信息对齐。

26、进一步地，所述基本标签集和开放标签集之间没有交集，开放标签集不是固定的。

27、进一步地，所述视觉语言预训练模型文本编码器的参数是固定的。

28、进一步地，所述实现跨模态语义信息对齐，包括如下步骤：

29、计算自动概念补全后的标题的编码特征、视觉语言预训练模型生成的子标题的标题编码特征、学生模型生成的图像编码特征；

30、分别计算自动概念补全后的标题的编码特征、视觉语言预训练模型生成的子标题的标题编码特征与学生模型生成的图像编码特征之间的对比损失，得到两个跨模态语义对齐对比损失；

31、计算总损失，总损失是总蒸馏对比损失和两个跨模态语义对齐对比损失的总和；

32、利用总损失来促进学生模型实现跨模态语义信息对齐。

33、与现有技术相比，本专利技术技术方案的有益效果是：

34、本专利技术通过直接使用预训练的vlp模型进行图像特征蒸馏，利用对比损失促进模型实现跨模态语义信息对齐，确保图像特征和文本特征在同一语义空间中有效对齐，减少噪音的影响，提高分割精度，提升模型在处理未见过的新类别时的表现。使用自动概念补全模块，利用预训练的vlp模型补全缺失或模糊的概念信息，确保文本标签的一致性和准确性，解决标签缺失和标准化问题，降低成本，提高文本监督信息的质量和模型的适用性。

本文档来自技高网...

【技术保护点】

1.一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述预设的视觉语言预训练模型为CLIP模型。

3.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述图像特征蒸馏，包括如下步骤：

4.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述教师模型的参数是固定的。

5.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述计算学生模型的图像编码特征，包括如下步骤：

6.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述的总蒸馏对比损失的公式为：

7.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述自动概念补全，包括如下步骤：

8.根据权利要求7所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所

9.根据权利要求7所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述视觉语言预训练模型文本编码器的参数是固定的。

10.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述实现跨模态语义信息对齐，包括如下步骤：

...

【技术特征摘要】

1.一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述预设的视觉语言预训练模型为clip模型。

3.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述图像特征蒸馏，包括如下步骤：

4.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述教师模型的参数是固定的。

5.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法，其特征在于，所述计算学生模型的图像编码特征，包括如下步骤：

6.根据权利要求2所述的一种基...

【专利技术属性】
技术研发人员：任鹏真，王羽阳，梁小丹，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人