基于多模态模型的领域大规模图文对数据集通用构建方法技术

技术编号：42789137 阅读：18 留言：0更新日期：2024-09-21 00:46

本发明专利技术公开了一种基于多模态模型的领域大规模图文对数据集通用构建方法，包括原始数据选择、基于领域关键词的数据提取、数据整合和筛选、基于领域特定的多模态大模型的文本生成、基于领域特征的专项过滤等。本发明专利技术利用各种公开数据，在不同领域多模态大模型的场景下，对不同原始格式、不同组织形式、不同内容的数据进行重新组织，对缺乏文本描述的图像数据，利用多模态模型进行特定领域的文本标注，然后对数据进行检查和筛选，从而构建新的符合特定要求的数据集，为当前各个领域的多模态模型训练和落地提供数据支撑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据集构建，具体涉及一种基于多模态模型的领域大规模图文对数据集通用构建方法。

技术介绍

1、深度学习模型的快速发展已经在cv和nlp领域取得了重大进展，研究人员已经开始探索将视觉和文本相结合的能力，以开发能够理解多模态内容的更强大、更通用的模型，随着多模态技术的发展，越来越多的人尝试把多模态任务引入某些垂直领域，比如医疗、遥感、法律、金融等领域。

2、预训练的世界语言模型(vlm)是一种很有前途的方法，可以利用自然语言的标注信息和图像中丰富的视觉信息，用来训练或者微调通用视觉语言基础模型。比如albert、vilt、albef、oscar、coca、clip等模型，其中clip模型就是一个典型的例子，它利用对比学习来结合图像和文本两种模态，在许多下游任务和垂直领域取得了前所未有的成就，具有非常强大的泛化能力。vlm的另一个重要应用领域是生成模型，比如dalle和可以生成高质量图像的diffusion模型。但是由于在很多垂直领域比如遥感领域和医疗领域，训练数据都涉及到不同图像形态和特征的变化，训练数据之间存在领域之间的区别，导致在自然图像上预训练的vlm往往在垂直领域表现不佳。

3、为了更好的在不同领域中使用通用预训练多模态模型，非常有必要利用预训练多模态模型的泛化能力，对模型进行目标域的适应调整，以更好的迁移到目标场景中。一个思路就是通过在目标域的数据上进行预训练，从而向模型中注入目标域的知识，获得特定领域的下游任务模型。例如在feta工作中，要获得一个特定领域的下游任务模型，直接利用通用预

4、尽管深度学习和通用的预训练模型已经在很多领域取得了重大成就，但是要想进行特定领域的模型微调，就需要大量的多模态数据。但是通常来说，特定任务或者垂直领域的单个图文对数据集所包含的图像和文本数据太少，无法完成视觉语言大模型在下游任务上的微调任务；而包含有更多图像数据的单模态图像数据集虽然有足够的图像数量，但是往往仅有类别标签，不会提供高质量的文本标注。例如在遥感领域，虽然场景分类、地物分割等方向已经取得了相当进展，但是在进一步提升模型性能的时候，往往受限制于数据规模，因为人工标签非常耗费人力物力。而遥感领域的图像解析又非常依赖于图像的数据规模和标签的质量。

5、总而言之，很多领域都缺乏高质量、大规模的图文对数据。

技术实现思路

1、针对现有技术存在的不足，本专利技术的目的在于提供一种基于多模态视觉语言模型的领域大规模图文对数据集通用构建方法，本专利技术利用各种公开数据，在不同领域多模态大模型的场景下，对不同原始格式、不同组织形式、不同内容的数据进行重新组织，对缺乏文本描述的图像数据，利用多模态模型进行特定领域的文本标注，然后对数据进行检查和筛选，从而构建新的符合特定要求的数据集，为当前各个领域的多模态大模型训练和落地提供数据支撑。

2、为实现上述目的，本专利技术提供了如下技术方案：一种基于多模态模型的领域大规模图文对数据集通用构建方法，包括如下步骤：

3、步骤一，收集现有的公开图文对数据集并采用领域关键词来过滤其中的特定领域的图文对数据，提取特定的图文对；

4、步骤二，利用url和其他工具对步骤一中提取出来的图像进行进一步去重，以保证数据集的多元化；

5、步骤三，对于经过步骤二处理后的图文对数据，用预训练的视觉语言模型和领域内sota的检测器对图文对进行检测，进一步去除非目标领域的数据；

6、步骤四，收集所需要构建数据集领域内已有的纯图像数据集(没有对应的文本标注)；

7、步骤五，利用现有的图像生成文本的生成式模型对步骤四收集的已有的纯图像数据集进行文本标注，同时对已有标注或者其他相关信息的图像，把这部分信息按照模板组织成不同形式的对应文本；

8、步骤六，利用现有的由文本生成图像的生成式模型，对上述步骤五生成的文本进行反向验证和筛选，确保生成的文本的质量；对生成的图文对进行抽样检测并打分，根据统计数据来检验生成的文本的质量；

9、步骤七，将上述步骤两种源域的目标域数据合并，获得规模扩展的特定领域图文对数据集；

10、步骤八，在获得数据集以后，根据文本的描述性和图像和文本的相关性进行替换，当两个图像非常相似而其中一个图像的文本描述性比较差的时候，用描述性强的文本替代另一个图像的文本，以对数据集进行更新。

11、作为本专利技术的进一步改进，所述所述步骤二中图像进行去重的具体步骤如下：步骤二一，使用url把图像下载下来之后，去除已经损坏的数据；

12、步骤二二，使用fastdup工具检测异常数据和离群数据，去除相似和重复的图像，以对数据进行去重去噪。

13、作为本专利技术的进一步改进，所述步骤三用预训练的视觉语言模型和领域内sota的检测器对图文对进行检测的具体步骤如下：

14、步骤三一，针对目标域准备模板文本，选择基于cnn结构的clip-convnext-xxl模型作为视觉语言模型，通过该clip-convnext-xxl模型计算每一个图像xi的余弦相似度，获得相似得分si；

15、步骤三二，以自然图像为负样本，以目标域图像为正样本构建数据集，然后构建分类器对数据集进行分类区分图像的种类，将一张图像xi，分类为类别ci的概率为ci＝p(ci|xi)，其中，分类器模型应当选择目标域中的sota模型；

16、步骤三三，将步骤三一和步骤三二计算的相似得分si和分类器得分ci，用阈值法来决定是否选取当前的图像为目标域图像，选取ci阈值前80％并且si阈值前90％的图像作为目标域图像。

17、作为本专利技术的进一步改进，所述步骤三一中计算每一个图像xi的余弦相似度的具体方式为：对准备的模板文件中的n个prompt，记作ti，之后用clip text encoder提取文本特征，用均值作为整体特征向量：图像特征向量直接通过clipimageencoder来提取fimage(xi)，进而得到了每一张图像和目标域之间的相似得分si。

18、作为本专利技术的进一步改进，所述步骤五中利用现有的图像生成文本的生成式模型对步骤四收集的已有的图像数据集进行文本标注的具体步骤如下：

19、步骤五一，首先选定预训练的image to text模型blip2，采样方法选择核方法；步骤五二，使用目标域已经有的图文对数据进行微调适应目标域的数据，其中微调方法选择lora方法，以通过少量参数高效微调对目标域进行快速适应；

20、步骤五三，对每个图像生成20个文本描述，之后利用clipvit-h/14得分排序得到top10，然后对top10使用clip resnet50×64进一步排序得到top5，最终获得文本描述。

21、作为本专利技术的进一步改进，所述步骤六中生成的文本进行反向验证和筛选的具体方式为：采用text to image生成式模型stab本文档来自技高网...

【技术保护点】

1.一种基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述所述步骤二中图像进行去重的具体步骤如下：

3.根据权利要求2所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述步骤三用预训练的视觉语言模型和领域内SOTA的检测器对图文对进行检测的具体步骤如下：

4.根据权利要求3所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述步骤三一中计算每一个图像xi的余弦相似度的具体方式为：对准备的模板文件中的N个prompt，记作ti，之后用CLIP Text Encoder提取文本特征，用均值作为整体特征向量：图像特征向量直接通过CLIP Image Encoder来提取fimage(xi)，进而得到了每一张图像和目标域之间的相似得分si。

5.根据权利要求4所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述步骤五中利用现有的图像生成文本的生成式模型对步骤

6.根据权利要求5所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述步骤六中生成的文本进行反向验证和筛选的具体方式为：采用text toimage生成式模型Stable Diffusion作为基座模型，在带有生成文本的数据集中采样一部分数据作为微调数据集，采用Dreambooth方法对模型进行微调，对比微调前后相同prompt生成的图像，验证构建的数据集是否更贴近目标域数据集。

...

【技术特征摘要】

1.一种基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述所述步骤二中图像进行去重的具体步骤如下：

3.根据权利要求2所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述步骤三用预训练的视觉语言模型和领域内sota的检测器对图文对进行检测的具体步骤如下：

4.根据权利要求3所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于：所述步骤三一中计算每一个图像xi的余弦相似度的具体方式为：对准备的模板文件中的n个prompt，记作ti，之后用clip text encoder提取文本特征，用均值作为整体特征向量：图像特征向量直接通过clip image encoder来提取fimage(xi)，进而得到了每一张图像和目标域之间的相似得分si。

5.根据权利要求4所述的基于多模态模型的领域大规模图文对数据集通用构建方法，其特征在于...

【专利技术属性】
技术研发人员：尹建伟，郭玉龙，赵天成，张孜纶，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人