一种基于图文全局信息的图文模型训练方法及系统技术方案

技术编号：43754813 阅读：24 留言：0更新日期：2024-12-20 13:10

本发明专利技术提供一种基于图文全局信息的图文模型训练方法及系统，包括：获取原始的文本信息、多图范式和图像信息；将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征；将所述多图范式和图像信息输入至预设的图文模型中的图文语义转换器获取转换后的图像特征；将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型，对所述大语言模型进行训练，完成多图与视频图文之间的关联识别，得到训练后的多模态图文模型。本发明专利技术解决了现有图文模态之间存在数据壁垒，难以深入协同理解处理的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态大模型，尤其涉及一种基于图文全局信息的图文模型训练方法及系统。

技术介绍

1、图像和句子匹配是视觉和语言领域的基本任务之一。这种跨模态匹配任务的目标是准确测量图像和句子之间的视觉语义相似性。尽管近年来取得了重大进展,但它仍然是一个具有挑战性的问题,因为它需要理解语言语义、视觉内容以及跨模态关系和对齐。在深度学习成功的推动下,主流已经转变为模态特定的深度特征学习,例如,学习图像的卷积神经网络和句子的循环神经网络。对于视觉文本内容理解,发展了许多成熟的深度主干模型,例如vgg、resnet、bert,这将各种任务的性能提高到了显著水平。现有大多数成功的图文匹配模型,根据模态表示的粒度可以分为两类:全局嵌入的方法和局部推理的方法。前者首先将整个图像和句子嵌入到联合嵌入空间中,然后计算视觉语义相似度。然而,仅使用全局对齐的方法始终表现出有限的性能,因为文本描述通常包含更多细粒度的图像细节,这很容易被全局对齐平滑,导致对细粒度的建模不够。后一种方法首先提取局部特征片段(例如,视觉区域和词语)的更加细粒度的表示,然后聚合局部相似性以推断图像文本对齐。大多数现有方法通过将共享语义表示为所有特征片段(图像区域或文本单词)的加权组合来实现这一目标,其中与共享语义相关的特征片段获得更多关注,否则获得更少关注。然而,尽管相关因素对共享语义的贡献更大,但不相关因素或多或少会于扰共享语义,从而导致相关阶段的语义错位。

2、在现有技术中，图片信息单独编码，缺乏图像间的信息交互，导致编码特征中的关键信息缺失，如图像间的对比关系

技术实现思路

1、本专利技术提供一种基于图文全局信息的图文模型训练方法及系统，用以解决现有图文模态之间存在数据壁垒，难以深入协同理解处理的问题。

2、本专利技术提供一种基于图文全局信息的图文模型训练方法，包括：

3、获取原始的文本信息、多图范式和图像信息；

4、将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征；

5、将所述多图范式和图像信息输入至预设的图文模型中的图文语义转换器获取转换后的图像特征；

6、将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型，对所述大语言模型进行训练，完成多图与视频图文之间的关联识别，得到训练后的多模态图文模型。

7、根据本专利技术提供的一种基于图文全局信息的图文模型训练方法，所述将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征，具体包括：

8、所述多图范式编码器捕获图片间的关联、对比关系和递进关系；

9、对所述多图范式编码器的参数进行初始化，通过多图范式编码器生成多个图像的关联特征。

10、根据本专利技术提供的一种基于图文全局信息的图文模型训练方法，所述预设的图文模型基于原始文本信息和图像信息经过第一次前向传播获取图文全局语义向量。

11、根据本专利技术提供的一种基于图文全局信息的图文模型训练方法，所述经过第一次前向传播获取图文全局语义向量之后，还包括：

12、基于所述图文全局语义向量，所述图文模型进行第二次前向传播，对原始输入的文本信息和图像信息去除冗余信息。

13、根据本专利技术提供的一种基于图文全局信息的图文模型训练方法，所述将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型，对所述大语言模型进行训练，完成多图与视频图文之间的关联识别，得到训练后的多模态图文模型，具体包括：

14、基于输入的文本信息、所述多个图像的关联特征和转换后的图像特征采用多种方式分别删除不同模态的输入数据；

15、基于删除不同模态的输入数据强制图文模型从图文全局语义向量和多个图像的关联特征中提取任务所需的关键信息。

16、根据本专利技术提供的一种基于图文全局信息的图文模型训练方法，所述基于输入的文本信息、所述多个图像的关联特征和转换后的图像特征采用多种方式分别删除不同模态的输入数据，具体包括：

17、设置删除文本信息的训练目标，强化图文模型对文本指令的理解，使得图文模型从图文全局语义向量中挖掘文本指令信息，需要构造无文本指令的训练数据；

18、设置删除图像信息的训练目标，强化图文模型对图像信息的记忆，使得图文模型从图文全局语义向量和多个图像的关联特征中挖掘图像指令信息，需要构造无图像输入的训练数据；

19、设置删除多图关联信息的训练目标，强化图文模型对多图关联特征的抽取能力，使得图文模型从图文全局语义向量中挖掘多图关联信息，无需生成额外数据。

20、本专利技术还提供一种基于图文全局信息的图文模型训练系统，所述系统包括：

21、数据获取模块，用于获取原始的文本信息、多图范式和图像信息；

22、关联特征生成模块，用于将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征；

23、特征转换模块，用于将所述多图范式和图像信息输入至预设的图文模型中的图文语义转换器获取转换后的图像特征；

24、模型训练模块，用于将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型，对所述大语言模型进行训练，完成多图与视频图文之间的关联识别，得到训练后的多模态图文模型。

25、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于图文全局信息的图文模型训练方法。

26、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于图文全局信息的图文模型训练方法。

27、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于图文全局信息的图文模型训练方法。

28、本专利技术提供的一种基于图文全局信息的图文模型训练方法及系统，通过基于图文全局信息和图像间特征范式学习的图文模型结构，设计针对图文全局信息和图像间特征范式学习的训练策略。该策略包含与图像描述生成的目标不同的新型预训练目标，以及任务微调训练目标；通过自动化数据批量生成方法，收集已有的“图文对”本文档来自技高网...

【技术保护点】

1.一种基于图文全局信息的图文模型训练方法，其特征在于，包括：

2.根据权利要求1所述的基于图文全局信息的图文模型训练方法，其特征在于，所述将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征，具体包括：

3.根据权利要求1所述的基于图文全局信息的图文模型训练方法，其特征在于，所述预设的图文模型基于原始文本信息和图像信息经过第一次前向传播获取图文全局语义向量。

4.根据权利要求3所述的基于图文全局信息的图文模型训练方法，其特征在于，所述经过第一次前向传播获取图文全局语义向量之后，还包括：

5.根据权利要求1所述的基于图文全局信息的图文模型训练方法，其特征在于，所述将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型，对所述大语言模型进行训练，完成多图与视频图文之间的关联识别，得到训练后的多模态图文模型，具体包括：

6.根据权利要求5所述的基于图文全局信息的图文模型训练方法，其特征在于，所述基于输入的文本信息、所述多个图像的关联特征和转换后的图像特征采用

7.一种基于图文全局信息的图文模型训练系统，其特征在于，所述系统包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于图文全局信息的图文模型训练方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于图文全局信息的图文模型训练方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于图文全局信息的图文模型训练方法。

...

【技术特征摘要】

1.一种基于图文全局信息的图文模型训练方法，其特征在于，包括：

4.根据权利要求3所述的基于图文全局信息的图文模型训练方法，其特征在于，所述经过第一次前向传播获取图文全局语义向量之后，还包括：

5.根据权利要求1所述的基于图文全局信息的图文模型训练方法，其特征在于，所述将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型，对所述大语言模型进行训练，完成多图与视频图文之间的关联识别，得到训练后的多模态图文模型，具体包括...

【专利技术属性】
技术研发人员：刘洋，孙茂松，李鹏，王梓玥，陈驰，朱奕祺，罗富文，严明，张佶，黄非，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人