属性增强的视觉语言模型的训练方法、装置及电子装置制造方法及图纸

技术编号：41573327 阅读：2 留言：0更新日期：2024-06-06 23:52

本发明专利技术公开了一种属性增强的视觉语言模型的训练方法、装置及电子装置。该方法包括：获取n个图文对，每个图文对数据包括一幅图像Img和它对应的文本描述Text，第i个图文对；获取第i个图文对中的图像Img<subgt;i</subgt;的局部图像以及局部图像的一个正向文本描述k个属性相关的负向文本描述获取第j个图文对的k个属性相关的负向文本描述利用局部图像正文本描述负向文本描述和第j个图文对，生成新的图文对训练数据；通过图像以及图像的正负文本描述，使用扩增的新的图文训练视觉语音模型，解决了现有技术中，属性增强的视觉语言模型的训练准确性较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体而言，涉及一种属性增强的视觉语言模型的训练方法、装置及电子装置。

技术介绍

1、人类对世界的认识可以通过眼睛去观察，双耳去聆听，用触觉与嗅觉去感知等，大脑基于这些信息分析、理解并认识世界。人工智能核心目标是赋予计算机以智能，让机器像人一样去认识世界。通常的视觉语言模型在基于bert(bidirectional encoderrepresentation from transformers，一个预训练的语言表征模型)的语言模型处理语言文本中添加视觉特征相关信息，经由transformer将不同模态映射到同一语义空间中，然后基于语义空间中信息进一步处理。当前视觉特征绝大多数选择骨干网络为resnet-101c4(采用101层的深度残差网络)的faster-rcnn(fast region-based convolutionalnetwork，快速的基于区域的卷积神经网络)模型，并基于vg(visual genome)数据集进行训练，然而数据集与目标检测模型本身局限性，影响到最终多模态相关任务性能。vg数据虽具有丰富的对象标记以及属性标签，但针对视觉语言任务来讲，仍无法满足数据丰富性与多样性。

2、对于视觉语言训练数据的增强，仅针对图像先提取图像的局部特征，然后生成对应的文本编码，最后使用全局+局部的组合特征来表征原来的图像信息。针对文本提取训练样本中的描述文本进行重写，扩充为正样本和负样本进行训练单独进行增强。

3、相关技术中，存在对增强图像的“细节”优化目标不明确；构建正负文本描述

4、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种属性增强的视觉语言模型的训练方法、装置、存储介质及电子装置，以至少解决现有技术中属性增强的视觉语言模型的训练准确性较低的技术问题。

2、根据本专利技术实施例的一个方面，提供了一种属性增强的视觉语言模型的训练方法，包括：获取n个图文对，每个图文对数据包括一幅图像img和它对应的文本描述text，第i个图文对记为(imgi,texti)；获取所述第i个图文对中的图像imgi的局部图像以及所述局部图像的一个正向文本描述k个属性相关的负向文本描述获取第j个图文对的k个属性相关的负向文本描述利用所述局部图像所述正文本描述所述负向文本描述和所述第j个图文对，生成新的图文对训练数据基于所述新的图文训练数据获取imggen对应的图像特征i、文本特征t，使用对比学习的方法训练视觉语言模型。

3、可选的，所述利用所述局部图像所述正文本描述所述负向文本描述和所述第j个图文对，生成新的图文对训练数据包括：利用所述局部图像所述正文本描述所述负向文本描述和所述第j个图文对，图像使用cutmix方法混合，文本标签采用直接拼接，生成新的图文对训练数据

4、可选的，所述生成新的图文对训练数据包括：

5、

6、

7、

8、其中，m将局部图像和图像imgj按照cutmix方式混合的0-1二值系数矩阵，所述局部图像m＝1的部分会被保留，所述图像imgj，m＝0的部分会被保留，⊙表示按元素相乘。

9、可选的，所述基于所述新的图文训练数据获取imggen对应的图像特征i、文本特征t，使用对比学习的方法训练视觉语言模型，其中，所述视觉模型中的损失函数包括：由imggen对应的图像特征i和对应的文本特征t+可计算标准的clip对比损失lclip；由图像特征i，文本特征t+和k个文本特征t-计算属性对比损失

10、损失函数为l＝lclip+μ·lattribute；

11、其中，μ表示计算属性损失函数lattribute的尺度因子，为常数。

12、根据本专利技术实施例的另一方面，还提供了一种属性增强的视觉语言模型的训练装置，包括：第一获取模块，用于获取n个图文对，每个图文对数据包括一幅图像img和它对应的文本描述text，第i个图文对记为(imgi,texti)；第二获取模块，用于获取所述第i个图文对中的图像imgi的局部图像以及所述局部图像的一个正向文本描述k个属性相关的负向文本描述第三获取模块，用于获取第j个图文对的k个属性相关的负向文本描述生成模块，用于利用所述局部图像所述正文本描述所述负向文本描述和所述第j个图文对，生成新的图文对训练数据训练模块，用于基于所述新的图文训练数据获取imggen对应的图像特征i、文本特征t，使用对比学习的方法训练视觉语言模型。

13、根据本申请实施例的第一个方面，提供了一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述属性增强的视觉语言模型的训练方法。

14、根据本申请实施例的第一个方面，提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述属性增强的视觉语言模型的训练方法。

15、在本专利技术实施例中，获取n个图文对，每个图文对数据包括一幅图像img和它对应的文本描述text，第i个图文对记为(imgi,texti)；获取所述第i个图文对中的图像imgi的局部图像以及所述局部图像的一个正向文本描述k个属性相关的负向文本描述获取第j个图文对的k个属性相关的负向文本描述利用所述局部图像所述正文本描述所述负向文本描述和所述第j个图文对，生成新的图文对训练数据基于所述新的图文训练数据获取imggen对应的图像特征i、文本特征t，使用对比学习的方法训练视觉语言模型；通过图像以及图像的正负文本描述，得到丰富的新的图文训练数据；使用新的图文训练数据通过对比学习方式训练视觉语音模型，解决了现有技术中，属性增强的视觉语言模型的训练准确性较低的技术问题。

本文档来自技高网...

【技术保护点】

1.一种属性增强的视觉语言模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述局部图像所述正文本描述所述负向文本描述和所述第j个图文对，生成新的图文对训练数据包括：

3.根据权利要求2所述的方法，其特征在于，所述生成新的图文对训练数据包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述新的图文训练数据获取Imggen对应的图像特征I、文本特征T，使用对比学习的方法训练视觉语言模型，其中，所述视觉模型中的损失函数包括：

5.一种属性增强的视觉语言模型的训练装置，其特征在于，包括：

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。

【技术特征摘要】

1.一种属性增强的视觉语言模型的训练方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述生成新的图文对训练数据包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述新的图文训练数据获取imggen对应的图像特征i、文本特征t，使用对比学习的方法训练视觉...

【专利技术属性】
技术研发人员：胡炳然，冉敏，刘春艳，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人