一种基于梯度自校准的多模态预训练方法、系统、终端及存储介质技术方案

技术编号：42950632 阅读：3 留言：0更新日期：2024-10-11 16:06

本发明专利技术公开了一种基于梯度自校准的多模态预训练方法、系统、终端及存储介质，本发明专利技术利用混合模态交互网络，让针对于特定模态的与任务无关的损失函数来学习一个统一模态交互模块的梯度，根据不同模态梯度方向间的差异来确定哪些模态间的差异较小；使用这些差异较小的模态数据在共享编码器上面的组合梯度作为构建的正梯度方向，以该梯度方向来修正其余模态梯度的方向；根据修正后的模态梯度方向，将对应模态在该共享编码器上的参数在方向传播更新前，提前进行更新，从而达到平衡模态训练的目的，使用混合transformer网络结构来提取不同模态数据的融合特征，使用模态梯度自校准模块来修正不同模态针对联合编码器的梯度下降方向，提升不同模态融合表征的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习和计算机视觉，尤其涉及一种基于梯度自校准的多模态预训练方法、系统、终端及存储介质。

技术介绍

1、多模态数据如图像、文本、视频、音频等可以直接被人类所接收，并转化为相同的语义，多模态预训练通过输入海量的多模态数据，以获得一个巨量参数的大模型，来模拟人类对日常模态数据的理解与想象能力。通过训练一个多模态大模型，可对不同模态的下游任务进行微调，以避免针对特定任务需从头训练不同模态数据的模型。多模态预训练模型在近几年不断涌现，并取得了较大的进展，并刷新了所有下游视觉任务的性能。

2、例如在2018年，bert模型横空出世，大大提升了自然语言处理领域理解任务的上限，随后基于transformer架构的图文多模态模型vl-bert，基于此结构构建了基于区域的图像特征的图文预训练模型，但是此类模型需提前对图像模态的区域特征进行提取，因此极为耗时，随后基于vision transformer的图文多模态预训练模型将提取图像区域特征这一步骤省略，并直接利用图像块实现较好的图像特征提取。随后为融合更多的模态特征，三模态融合如图像、文本、声音等，进一步提升了下游任务的整体性能。

3、但是这些模型在训练过程中，受网络贪婪性的影响，即网络在学习过程中仅仅对一种或几种主导模态数据进行训练，而忽略其他模态所带来的语义互补性，从而使得主导模态的性能可以大幅提升，但是对于非主导模态其性能下降。因此对于更多种模态的训练任务，需考虑不同模态间的语义互补性，在多模态融合过程中，调整不同模态间的语义互补关系，是十分有必要的

技术实现思路

1、本专利技术的主要目的在于提供一种基于梯度自校准的多模态预训练方法、系统、终端及存储介质，旨在解决现有技术中多模态预训练过程中，网络只关注于几种特定模态而忽略其余模态数据的信息互补性的问题。

2、为实现上述目的，本专利技术提供一种基于梯度自校准的多模态预训练方法，所述基于梯度自校准的多模态预训练方法包括如下步骤：

3、构建多个模态的特征输入模块，对不同的模态数据进行编码，获取不同模态数据的特征表示；

4、构建模态联合编码模块，并构建不同模态数据间的对比学习损失；

5、将获取得到的联合模态表示进行划分，得到不同模态融合后的模态表示，采用不同模态数据的与下游任务无关的任务针对每个模态进行约束；

6、基于每个模态数据的下游任务损失函数，对所有模态联合编码器的最后一层进行梯度传播，获取每个下游任务损失函数对于最后一层参数所对应的梯度值；

7、根据梯度值构建不同模态数据间在梯度层面上的关联性，基于关联性获得不同模态相对于其他模态的方向相似性；

8、根据方向相似性划分正方向梯度与负方向梯度，依照正方向梯度方向构建组合梯度，依据组合梯度对负梯度方向的模态梯度进行调整；

9、根据调整后的负梯度方向的模态梯度，对不同模态在联合编码器最后一层上面的模态梯度进行微调更新。

10、可选地，所述的基于梯度自校准的多模态预训练方法，其中，所述构建多个模态的特征输入模块，对不同的模态数据进行编码，获取不同模态数据的特征表示，具体包括：

11、对于文本模态数据，使用bert网络提取不同token间的关系特征，对于文本序列，使用递增的自然数序列表示文本序列的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；将位置编码、分段编码及特征编码相加，得到文本模态数据的嵌入表示；

12、对于图像模态数据，采用vison transformer预训练网络提取主要目标框及坐标位置的特征，将每个图像模态数据平均划分成n块，并将每一块拉直成一个向量，并将拉直后向量对应的位置编码合并输入到vison transformer；

13、将表格数据的每一行数据拼接在一起后，使用与文本模态数据相同的处理方式，对于表格序列，通过堆叠同一行的表格数据共享与文本序列一样的编码器，使用递增的自然数序列表示表格序列的位置信息，传入线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将文本传入线性全连接层得到文本的特征编码；将位置编码、分段编码及特征编码相加，得到表格数据的嵌入表示；

14、对于视频数据，采用s3d网络提取具有时空特征的视频嵌入特征，根据视频嵌入特征采用自然数序列表示视频模态的位置信息，将不同帧的顺序关系进行传入，并将视频数据作用于线性全连接层得到位置编码；使用1作为分段信息传入线性全连接层得到分段编码；将视频特征序列传入线性全连接层得到文本的特征编码；将位置编码、分段编码及特征编码相加，得到视频数据的嵌入表示。

15、可选地，所述的基于梯度自校准的多模态预训练方法，其中，所述构建模态联合编码模块，并构建不同模态数据间的对比学习损失，具体包括：

16、对于每种模态数据分别构建不同模态数据间的对比学习模块，用于学习不同模态数据间的语义对齐，将模态数据经过不同的模态编码器后的输出的特征放入一个公共多头自注意力网络中，其中，所述公共多头自注意力网络的输入长度是每种模态数据堆叠的特征长度；

17、所述公共多头自注意力网络提取五种模态数据间全面融合的特征，将文本、图像、表格、视频及音频特征进行拼接，使用q和k计算每个向量关注所有特征的权重，再乘以v得到五种模态数据的共同的特征表示，其中，q、k、v由五个模态拼接后的特征得到；对于每一种模态数据，使用多头注意力机制计算对于这五种模态数据所有特征的关注权重，得到全面融合后的各个模态数据的特征；

18、其中，q表示查询向量，k表示被查询信息与其他信息的相关性的向量，v表示被查询信息的向量。

19、可选地，所述的基于梯度自校准的多模态预训练方法，其中，所述将获取得到的联合模态表示进行划分，得到不同模态融合后的模态表示，采用不同模态数据的与下游任务无关的任务针对每个模态进行约束，具体包括：

20、构建文本下游任务mask language modeling，通过遮掩标题文本中的词，将带有遮掩词的文本序列输入到多模态预训练模型，多模态预训练模型在训练过程中学习恢复被遮掩的词，以提取一个具有文本信息的特征表示；

21、构建图像的下游任务image-text matching，将图文对作为正样本，其余样本对作为负样本，进行图文匹配任务，构建针对图像模态的下游任务；

22、构建表格的掩码任务mask entity modeling，通过遮掩表格数据中具有特定含义本文档来自技高网...

【技术保护点】

1.一种基于梯度自校准的多模态预训练方法，其特征在于，所述基于梯度自校准的多模态预训练方法包括：

2.根据权利要求1所述的基于梯度自校准的多模态预训练方法，其特征在于，所述构建多个模态的特征输入模块，对不同的模态数据进行编码，获取不同模态数据的特征表示，具体包括：

3.根据权利要求1所述的基于梯度自校准的多模态预训练方法，其特征在于，所述构建模态联合编码模块，并构建不同模态数据间的对比学习损失，具体包括：

4.根据权利要求1所述的基于梯度自校准的多模态预训练方法，其特征在于，所述将获取得到的联合模态表示进行划分，得到不同模态融合后的模态表示，采用不同模态数据的与下游任务无关的任务针对每个模态进行约束，具体包括：

5.根据权利要求1所述的基于梯度自校准的多模态预训练方法，其特征在于，所述基于每个模态数据的下游任务损失函数，对所有模态联合编码器的最后一层进行梯度传播，获取每个下游任务损失函数对于最后一层参数所对应的梯度值，具体包括：

6.根据权利要求5所述的基于梯度自校准的多模态预训练方法，其特征在于，所述根据梯度值构建不同

7.根据权利要求6所述的基于梯度自校准的多模态预训练方法，其特征在于，所述根据方向相似性划分正方向梯度与负方向梯度，依照正方向梯度方向构建组合梯度，依据组合梯度对负梯度方向的模态梯度进行调整，具体包括：

8.根据权利要求7所述的基于梯度自校准的多模态预训练方法，其特征在于，所述根据调整后的负梯度方向的模态梯度，对不同模态在联合编码器最后一层上面的模态梯度进行微调更新，具体包括：

9.一种基于梯度自校准的多模态预训练系统，其特征在于，所述基于梯度自校准的多模态预训练系统包括：

10.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于梯度自校准的多模态预训练程序，所述基于梯度自校准的多模态预训练程序被所述处理器执行时实现如权利要求1-8任一项所述的基于梯度自校准的多模态预训练方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于梯度自校准的多模态预训练程序，所述基于梯度自校准的多模态预训练程序被处理器执行时实现如权利要求1-8任一项所述的基于梯度自校准的多模态预训练方法的步骤。

...

【技术特征摘要】

1.一种基于梯度自校准的多模态预训练方法，其特征在于，所述基于梯度自校准的多模态预训练方法包括：

6.根据权利要求5所述的基于梯度自校准的多模态预训练方法，其特征在于，所述根据梯度值构建不同模态数据间在梯度层面上的关联性，基于关联性获得不同模态相对于其他...

【专利技术属性】
技术研发人员：王耀威，董晓，梁小丹，余建兴，蒋冬梅，魏骁勇，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人