一种基于细粒度特征融合的部分多模态哈希方法技术

技术编号：43414792 阅读：2 留言：0更新日期：2024-11-22 17:50

本发明专利技术公开了一种基于细粒度特征融合的部分多模态哈希方法，包括如下步骤：准备多模态检索数据集，数据集包括图像模态数据、文本模态数据、样本类别等信息，分别用VGGNet网络和词袋(bag‑of‑words,BoW)向量对原始数据进行特征提取，并将数据集划分为样本具有完整模态的部分和样本缺失部分模态的部分；构建缺失模态补齐模块，从样本具有完整模态的部分中随机采样出锚点集，利用锚点的模态特征补齐样本缺失的模态特征；随后将补齐的模态特征作为“真实值”来监督训练依靠样本已有模态特征直接跨模态生成另一缺失模态特征；构建深层语义信息模块，将样本完整的模态特征分别分解成每个哈希位对应的K个浅层语义信息，引入Transformer编码器，以自注意力方式自适应地捕捉浅层语义信息间的内在关系,得到编码后的深层语义信息；利用得到的深层语义信息进行细粒度的特征融合，并最终得到K位二进制的哈希码。本发明专利技术充分利用所有样本,减少了补齐缺失模态特征时引入的噪声,能够有效应对样本缺失部分模态的多模态数据检索场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于面向多模态数据的新型数据库，应用自注意力机制和二进制哈希码实现的样本缺失部分模态特征的多模态数据检索方法。

技术介绍

1、大数据和人工智能的快速发展正掀起新一轮的信息革命,传统信息系统也正通过知识赋能进行数字化转型，这不仅导致各行各业数据量的爆炸式增长，数据格式和类型也变得愈加丰富。与传统的单模态数据相比，多模态数据可以提供更加丰富的信息表示，且基于多模态数据表示也有着更为广泛的应用，如视觉问答、智能医疗和情感分析等。与此同时,海量的多模态数据给传统数据库带来了检索方面的挑战。与基于真实值的检索方法相比，基于哈希的检索方法通过将高维数据映射成紧凑的二进制哈希码，从而能够大幅度降低大规模数据的存储开销并提高数据库的检索效率。因此，如何有效地利用哈希码是面向多模态数据的新型数据库
的一个亟需研究的方向。

2、当前，多模态数据检索成为了多模态数据库的重点研究方向，并受到了国内外学者的广泛研究。基于哈希的检索方法能够将高维数据映射成紧凑的二进制哈希码，并在数据检索任务中取得了良好的效果。如何提高哈希码的表示能力是基于哈希的检索方法的研究重点。

3、近年来涌现了一些针对多模态哈希的方法，但其中大部分方法更偏向于考虑所有样本在训练和查询阶段都是模态完整的，而缺失部分模态的情况对于数据库中存储的多模态样本而言同样常见。例如在真实的社交网络场景中，数据由各种用户自主上传，有些用户上传图像数据但缺失相应的文本信息，而有些用户上传描述的文本信息但缺失相应的图像数据，因此产生了大量的部分多模态数据，从而在一

技术实现思路

1、现有的多模态哈希方法偏向于考虑所有样本都是模态完整的情况，然而在实际检索场景中，样本缺失部分模态的情况依然存在。为了有效应对该情况，我们提出了缺失模态补齐以解决这个问题。同时，现有研究多捕获了浅层语义信息，只在粗粒度层面进行特征融合。但是浅层语义信息间融合了丰富的深层语义信息，利用深层语义信息能够更有效地增强哈希码的表示能力，最终提高检索效果。为解决上述问题，本专利技术的目的是提出一种基于细粒度特征融合的部分多模态哈希方法。

2、为实现上述目的，本专利技术采用的技术方案为：

3、一种基于细粒度特征融合的部分多模态哈希方法，包括如下步骤：

4、步骤1，准备多模态检索数据集，多模态检索数据集包含图像和文本两种完全不同模态的数据，并包含每个多模态样本所属的类别信息；利用vggnet网络和词袋向量对原始数据进行特征提取，得到高维特征向量。

5、所述步骤1中，我们使用了多模态检索领域常用的两个公开数据集，分别是mirflickr数据集和ms coco数据集。其中，mir flickr数据集包含了25000个从flickr网站上搜集的图像-文本对，共有24个不同种类的类别。选取了17772个待检索的样本，5000个训练的样本以及2243个查询样本。mir flickr数据集中样本的图像模态特征是4096维，文本模态特征是1386维。ms coco数据集包含了80个不同类别的样本，并选取82783个待检索的样本，18000个训练样本以及5981个查询样本。ms coco数据集中样本的图像模态特征是4096维，文本模态特征是2000维。

6、步骤2，构建缺失模态补齐模块中的同模态补齐模块其输入为样本已有的模态特征和预先采样的锚点的完整模态特征。通过度量该样本与锚点的语义相似性，利用与之语义相似的锚点的模态特征补齐缺失的模态特征，并作为后续监督跨模态生成模块的“真实值”。

7、所述步骤2中，同模态补齐模块的整体结构如下：

8、

9、其中，是该样本的文本模态特征。为了减小搜索范围，需要首先从具有完整模态的样本集合中选取na个样本构成锚点集。锚点的采样是随机的，且锚点的个数应大于训练集中样本的种类数。是锚点集中所有锚点构成的图像模态特征，是锚点集中所有锚点构成的的文本模态特征，表示该模块补齐的图像模态特征。

10、这里可以采用两种不同的方法来具体实现该模块：基于k最近邻(k-nearestneighbor,knn)的方法和基于自注意力机制(self-attention)的方法。

11、基于knn的方法计算样本的文本模态特征与锚点集中所有锚点的文本模态特征的距离，并基于距离进行排序，距离越小，则说明该样本与锚点集中对应锚点在文本模态上越接近，从而说明该样本与该锚点存在相似的语义关系。然后对前k个语义最相似的锚点的图像模态特征计算平均值,抑或是对距离的倒数归一化后作为权重进行加权求和。基于knn的方法用如下表达式表示：

12、

13、基于自注意力机制的方法通过度量query和key之间的相似度作为注意力分数，并对value进行加权求和作为编码结果，以此来建模输入序列之间的相关性。具体而言,将样本的文本模态特征作为query,将锚点集的文本模态特征ya作为key,并将锚点集的图像模态特征xa作为value，计算公式如下：

14、

15、其中，v＝xawv，⊙是hadamard乘积，是利用跨模态自注意力机制编码的结果，ai表示该样本与锚点集中所有锚点相似度的向量，利用进行计算。

16、在得到跨模态自注意力机制编码的结果后，用简单的全连接层作为解码器来产生最终的输出：

17、

18、其中是解码器的输出,作为该模块补齐的图像模态特征。

19、步骤3，构建缺失模态补齐模块中的跨模态生成模块其输入为样本已有的模态特征。将步骤2中同模态补齐模块生成的结果作为训练该模块的“真实值”，利用多个全连接层,通过简单的非线性变换直接将样本已有的模态特征映射为缺失的模态特征，以此实现对同一样本不同模态之间存在的相似语义关系进行准确建模。

20、所述步骤3中，跨模态生成模块的整体结构如下：

21、

22、其中，表示该模块生成的样本缺失的图像模态特征。由于上述步骤2中锚点的选择是随机的，因此会出现查询阶段新来的多模态样本与所有锚点恰好都不属于同一类别的情况。此时，步骤2会引入较大的噪声。与此同时，同一样本的不同模态之间存在相似的语义关系，因此可以利用样本已有的模态特征直接跨模态生成缺失的模态特征。

23、在具体实现该模块时，直接堆叠多个全连接层，即通过非线性变换直接将样本的文本模态特征映射为图像模态特征。在步骤2生成的“真实值”监督下，这样相对简单的结构也可以对同一样本不同模态之间存在的相似语义关系进行准确建模。此本文档来自技高网...

【技术保护点】

1.一种基于细粒度特征融合的部分多模态哈希方法，包括如下步骤：

2.根据权利要求1所述的一种基于细粒度特征融合的部分多模态哈希方法，其特征在于：所述步骤1中，我们使用了多模态检索领域常用的两个公开数据集，分别是MIR Flickr数据集和MS COCO数据集。其中，MIR Flickr数据集包含了25000个从Flickr网站上搜集的图像-文本对，共有24个不同种类的类别。选取了17772个待检索的样本，5000个训练的样本以及2243个查询样本。MIR Flickr数据集中样本的图像模态特征是4096维，文本模态特征是1386维。MS COCO数据集包含了80个不同类别的样本，并选取82783个待检索的样本，18000个训练样本以及5981个查询样本。MS COCO数据集中样本的图像模态特征是4096维，文本模态特征是2000维。

3.根据权利要求1所述的一种基于细粒度特征融合的部分多模态哈希方法，其特征在于：所述步骤2中，同模态补齐模块的整体结构如下：

4.根据权利要求1所述的一种基于多头注意力扩散图卷积神经网络的交通流量预测方法，其特征在

5.根据权利要求1所述的一种基于细粒度特征融合的部分多模态哈希方法，其特征在于，所述步骤4中，深层语义信息模块的整体结构如下：

6.根据权利要求1所述的一种基于细粒度特征融合的部分多模态哈希方法，其特征在于：所述步骤5中，融合与映射模块模块的整体结构如下：

...

【技术特征摘要】

1.一种基于细粒度特征融合的部分多模态哈希方法，包括如下步骤：

2.根据权利要求1所述的一种基于细粒度特征融合的部分多模态哈希方法，其特征在于：所述步骤1中，我们使用了多模态检索领域常用的两个公开数据集，分别是mir flickr数据集和ms coco数据集。其中，mir flickr数据集包含了25000个从flickr网站上搜集的图像-文本对，共有24个不同种类的类别。选取了17772个待检索的样本，5000个训练的样本以及2243个查询样本。mir flickr数据集中样本的图像模态特征是4096维，文本模态特征是1386维。ms coco数据集包含了80个不同类别的样本，并选取82783个待检索的样本，18000个训练样本以及5981...

【专利技术属性】
技术研发人员：殷崭祚，李博涵，徐泽坤，刘昕悦，李肖雪，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人