一种基于视觉语义共享空间的跨模态语义对齐方法技术

技术编号：44096794 阅读：32 留言：0更新日期：2025-01-21 12:30

本发明专利技术涉及一种基于视觉语义共享空间的跨模态语义对齐方法，方法包括：S1、获取图像嵌入表示和文本嵌入表示；S2、将嵌入表示输入路由门模块中，确定每个嵌入表示的路由概率值；S3、将嵌入表示输入聚合专家模块，得到的整体向量将嵌入表示聚合为聚合向量结果；S4、基于聚合向量结果计算损失函数，基于所述损失函数训练路由门模块和聚合专家模块，得到跨模态语义对齐模型，跨模态语义对齐模型用于将实际的图像数据和文本数据在多模态任务中实现跨模态语义对齐。与现有技术相比，本发明专利技术具有提高跨模态语义对齐的性能等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及跨模态语义对齐领域，尤其是涉及一种基于视觉语义共享空间的跨模态语义对齐方法。

技术介绍

1、对于当下的人工智能而言，利用自然语言来识别和描述视觉世界是一项必要的能力，这推动了对视觉和文本数据之间建立准确和泛化的语义对齐的研究。构造视觉和文本的共同嵌入空间是当前实现跨模态数据间的语义对齐的典型方式，原因在于其不需要额外的跨模态交互，实现原理简单，即将提取到的视觉片段嵌入和文本片段嵌入映射到同一个语义空间后，聚合成固定长度的向量，利用相似度计算衡量空间内的视觉和文本实例之间的距离，目标是将成对的实例间的距离优化为最小，因此在实际应用时效率高，目前已被广泛应用于图像描述生成、视觉问答、图像文本匹配、零样本图像识别等多种多模态任务中，故对该问题的研究是当前的热点。

2、wang等人提出了一种具有最大边缘排序损失和新的邻域约束的双分支神经网络来构造语义嵌入空间学习图像和文本数据之间的对应关系。wehrmann等人针对语言编码器提出了基于字符的对齐和嵌入方法。基于此，song等人提出了考虑模态内一词多义信息的方法来优化多模态的嵌入，而wang等人则关注模态内一致性信息来改进语义嵌入空间。最近，chun等人对实例进行采样并作为概率分布实现了进一步的改进，li等人则是通过视觉和文本语义推理优化图像文本嵌入从而对语义对齐的过程进行改进。而考虑到基于视觉语义共享空间的跨模态语义对齐的关键是学习强大的图片和文本嵌入从而获得高质量的联合嵌入空间，因此当前许多研究重点关注对视觉语义嵌入的特征聚合方面。最普遍使用的聚合方法是简单的

3、具体来说由于不同的数据具有不同的模态内关系，即模态内实体的个数以及相互之间的关系不尽相同，这导致数据间由于语义的差异存在潜在的数据子集或不同的主题。现有技术中的基于整个数据集统一训练得到的特征聚合模块对于不同的潜在数据子集所学习到的整体嵌入向量是存在误差和噪音的，进而影响了跨模态语义对齐的性能。

技术实现思路

1、本专利技术的目的就是为了减少特征对齐任务中特征聚合的噪音进而提高跨模态语义对齐的性能而提供的一种基于视觉语义共享空间的跨模态语义对齐方法。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于视觉语义共享空间的跨模态语义对齐方法，方法包括：

4、s1、获取图像g和文本t，将图像g和文本t输入对应的模态编码器进行编码得到图像嵌入表示g和文本嵌入表示t；

5、s2、将嵌入表示输入路由门模块中，计算嵌入表示对应的query向量和key向量，query向量和key向量经过全连接层后进行点乘，得到的结果经过门掩膜模块降噪，并计算添加门注意力后的value向量，得到attn特征，对attn特征使用全连接层，转化为路由门表示向量z，基于路由门表示向量z确定每个嵌入表示的路由概率值，并确定最优池化专家的路由概率，所述路由概率值的含义为该嵌入表示被路由到一个池化专家的概率；

6、s3、将嵌入表示输入聚合专家模块，所述聚合专家模块由多个池化专家组成，被选中的池化专家基于路由概率值以及特征加权和得到的整体向量将嵌入表示聚合为聚合向量结果，所述被选中的池化专家为最优池化专家；

7、s4、基于聚合向量结果计算损失函数，基于所述损失函数训练路由门模块和聚合专家模块，得到跨模态语义对齐模型，跨模态语义对齐模型用于控制实际的图像数据和文本数据在多模态任务中实现跨模态语义对齐。

8、进一步地，s2的具体步骤为：

9、将嵌入表示输入路由门模块中，计算嵌入表示对应的query向量和key向量，query向量和key向量经过全连接层后进行点乘，得到的结果f经过门掩膜模块，在门掩膜模块中，计算query向量和key向量的门掩膜，使用门掩膜对query向量和key向量降噪，并计算添加注意力后的value向量attn特征，attn特征使用一层全连接转化为路由门表示向量z，路由门表示向量z和嵌入表示拼接再经过全连接层生成路由概率值；

10、其中，计算query向量和key向量的门掩膜的过程可为：

11、

12、其中，是query和key向量的元素级相乘的结果，query和key向量的门掩膜mq，mk由两个全连接层和sigmoid激活函数生成，其中σ表示sigmoid操作，表述权重，表述偏置项。

13、进一步地，所述路由门表示向量z计算过程表示为：

14、

15、z＝attnwattn+battn

16、其中softmax函数被应用到每一行，表述权重，表述偏置项，m表示池化专家的数目。

17、进一步地，所述路由概率值为：

18、

19、

20、其中pi(g)表示图像嵌入表示对第i个池化专家的路由概率值，pi(t)表示文本嵌入表示对第i个池化专家的路由概率值；

21、对于图像嵌入表示g的最优池化专家的路由概率为p(g)＝max{pi(g)}计算得到；对于文本嵌入表示t＝{t1,t2,…,ts}，t的最佳池化专家的路由概率计算表达式为p(t)＝max{pi(t)}，z表示路由门表示向量。

22、进一步地，所述s3的具体步骤为：

23、聚合专家模块对于嵌入表示在待聚合的特征维度上进行排序，选择前k个特征值大小对应的嵌入表示，同时基于对应的被选中的池化专家的聚合专家模块计算机制对前k个嵌入表示的每个嵌入表示赋予对应的权重，计算权重和前k个嵌入的加权和，得到整体向量，将整体向量和路由概率值相乘，得到聚合向量结果。

24、进一步地，所述聚合专家模块计算机制基于编码器-解码器结构实现。

25、进一步地，，所述编码器-解码器结构中的编码器为位置编码器，所述位置编码器将前k个嵌入表示的区域位置进行编码得到对应的位置向量。

26、进一步地，所述编码器-解码器结构中的解码器为位置解码器，所述位置解码器将所述位置向量解码得到前k个嵌入表示分别对应的权重，所述解码器为基于bigru的可以生成池化系数的序列模型。

27、进本文档来自技高网...

【技术保护点】

1.一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，方法包括：

2.根据权利要求1所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，S2的具体步骤为：

3.根据权利要求2所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述路由门表示向量Z计算过程表示为：

4.根据权利要求3所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述路由概率值为：

5.根据权利要求1所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述S3的具体步骤为：

6.根据权利要求5所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述聚合专家模块计算机制基于编码器-解码器结构实现。

7.根据权利要求6所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述编码器-解码器结构中的编码器为位置编码器，所述位置编码器将前k个嵌入表示的区域位置进行编码得到对应的位置向量。

8.根据权利要求7所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其

9.根据权利要求1所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述损失函数具体为双向三元排序损失函数和负载平衡损失函数之和。

10.根据权利要求9所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述负载平衡损失函数为：

...

【技术特征摘要】

1.一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，方法包括：

2.根据权利要求1所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，s2的具体步骤为：

3.根据权利要求2所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述路由门表示向量z计算过程表示为：

4.根据权利要求3所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述路由概率值为：

5.根据权利要求1所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述s3的具体步骤为：

6.根据权利要求5所述的一种基于视觉语义共享空间的跨模态语义对齐方法，其特征在于，所述聚合专家模块计算机制基于编码器-解码器结构实现。

7.根据权利要...

【专利技术属性】
技术研发人员：李江峰，王博文，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人