基于自监督学习的模态缺失图像文本跨模态哈希检索方法技术

技术编号：41504507 阅读：6 留言：0更新日期：2024-05-30 14:45

本发明专利技术公开了基于自监督学习的模态缺失图像文本跨模态哈希检索方法，属于多媒体检索的跨模态检索技术领域。本发明专利技术首先通过Bottom‑Up算法从图像中提取显著目标作为样本的伪标签;然后通过语义网络从伪标签中挖掘深层语义信息。为了缓解数据缺失的影响，本发明专利技术提出了三个联合的损失函数恢复缺失数据。在哈希码生成阶段，使用一个非对称损失函数有效地利用伪标签信息来约束不同的模态被投影到相同的汉明空间中，并保持它们之间的语义相似性。本发明专利技术将模态恢复和哈希学习统一到一个框架中，进一步提高了跨模态检索准确率，具有良好的应用前景和可观的市场价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于自监督学习的模态缺失图像文本跨模态哈希检索方法，属于多媒体检索的跨模态检索。

技术介绍

1、互联网上视频和图像数据量占比越来越大，这使得以单模态文本检索方法不再满足检索需求。因此结合图像，文本，音频，视频序列等多模态检索方法势在必行。而基于哈希的深度学习方法因其在跨模态检索领域的有效性而受到研究人员关注。深度哈希方法将不同模态的样本通过神经网络统一映射到相同的汉明空间，然后通过计算样本之间的汉明距离，测量数据之间的一致性。因为哈希方法在数据库中仅仅需要存储二进制码，因此存储空间占用比较低；而且二值码之间的汉明距离可以被现有cpu架构中的指令高效地计算，因此汉明距离计算比较快。现存的跨模态哈希检索方法都是依赖与数据的完整性假设，即数据都是完整的没有丢失的。然而，随着数据量和复杂性的增加，想要获得完整的数据集变得非常困难。主要有以下两个问题:1) 如何消除缺失数据的影响，现实生活中，由于数据收集和传输的复杂性，可能会丢失一些模态的数据，从而导致所谓的不完整的多模态问题。为了解决这一问题并消除缺失数据的影响，有些研究人员提出了基于矩阵分解的方法，通过保留多模态数据的内在分布结构来恢复缺失视图。尽管这些方法能够降低缺失数据的影响，但仅靠数据内部结构不足以完全消除缺失数据的影响。2) 如何在无监督数据下为不同的模态生成高效的二进制编码。在现有的方法中，有监督的哈希方法通过昂贵的训练数据注释在跨模态检索方面取得了优异的性能。然而，由于数据量的增加，手工标记大量数据是不现实的。因此，一些深度无监督跨模态哈希检索方法以研究多

技术实现思路

1、本专利技术的目的在于克服上述已有技术的不足而提供基于自监督学习的模态缺失图像文本跨模态哈希检索方法。

2、本专利技术提供的技术方案如下：基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，其包括以下步骤：

3、步骤s1，在ms-coco数据集上，使用不完整度公式随机删除图像文本对中的一个模态，建立了包括成对样本以及缺失了一个模态的样本的不完整多模态数据集，并将数据集划分为训练集和测试集；

4、步骤s2，分别利用图像和文本特征提取算法提取训练集和测试集的图像和文本的特征；

5、步骤s3，构造训练集上的总目标函数；

6、其包括以下步骤:

7、步骤s31,将训练集中图像和文本的特征划分为成对样本和缺失了一种模态的样本；

8、步骤s32，提取训练集中图像的显著目标，然后建立显著目标和类别之间的联系；

9、步骤s33，将伪标签输入一个非线性哈希层，得到包含丰富信息的连续哈希码；

10、步骤s34，将连续哈希码离散化为二值哈希码，以便于计算汉明距离；

11、步骤s35，使用相似度保持损失函数，使语义相似的伪标签的哈希码接近，使语义不相似的伪标签哈希码远离；

12、步骤s36，构造由三个损失联合组成的数据恢复损失，以恢复出缺失图像文本；

13、其中使用重构损失约束网络输入与输出的一致性；

14、当图像或文本特征通过自编码器-解码器中的编码器时，得到一个潜在空间表示；利用跨模态对比损失最大化潜在空间中图像和文本的表示之间互信息，以学习图像和文本一致性的表示；

15、使用基于熵概念的互预测损失来恢复缺失模态；

16、步骤s37，利用去重操作得到伪标签哈希码字典；通过伪标签哈希码字典约束哈希损失函数学习；

17、步骤s38，学习缺失图像样本的跨模态哈希码之间的一致性，得到总体目标函数；

18、步骤s4，根据步骤s3所述的总目标函数，在训练集上训练，得到检索结果最优的模型；

19、步骤s5，进行跨模态检索，从测试集选取检索数据，基准数据集为待检索数据。

20、进一步地，所述步骤s3中：

21、步骤s31,用表示训练集中图像和文本的特征；其中，表示成对样本中图像或者文本的特征，当等于1时，表示成对样本中图像的特征；当等于2时，表示成对样本中文本的特征；表示缺失了文本的样本的图像特征，表示缺少图像的样本的文本特征；表示训练集样本的数量；

22、步骤s32，通过bottom-up算法提取训练集中图像的显著目标，然后建立显著目标和类别之间的联系，将其作为该图像对应的样本的伪标签：，其中表示训练集类别的数量；表示训练集中包含图像的样本数量，表示样本是否属于第类；

23、步骤s33，将伪标签输入一个非线性哈希层，得到伪标签的连续哈希码，如下所示：

24、；

25、其中是非线性哈希层，是哈希层的参数；

26、步骤s34，使用函数将连续哈希码离散化为二值哈希码，如式：

27、；

28、其中为哈希码长度；函数定义如下：

29、；

30、步骤s35，使用相似度保持损失函数，使语义相似的伪标签的哈希码接近，使语义不相似的伪标签哈希码远离：

31、；

32、其中是描述第个伪标签和第伪标签相似性的相似度矩阵，表示矩阵的转置，是边界参数，超参数，表示两个伪标签哈希码之间的余弦相似度，表示学习到的伪标签哈希码的量化损失，表示二范数；

33、步骤s36，由三个损失联合组成的数据恢复损失：

34、；

35、其中、和分别是重构损失、跨模态对比损失和互预测损失；和是权重参数；

36、使用重构损失约束网络输入与输出的一致性：

37、；

38、其中，表示第个成对样本中图像或者文本的特征，是通过自编码器-解码器框架后的图像或者文本的重构特征，表示二范数；

39、当图像或文本特征通过自编码器-解码器中的编码器时，得到一个潜在空间表示：

40、；

41、其中是编码器；

42、利用跨模态对比损失最大化图像和文本的互信息，以学习图像和文本一致性的表示：

43、；

44、其中，表示信息熵，表示第个成对样本中图像的潜在空间表示，分别表示第个成对样本中文本的潜在空间表示，为超参数，表示和的互信息，定义如式:

45、；

46、其中kl是kullback-leibler散度，表示联合概率分布，和是边际概率分布；

47、基于熵概念的互预测损失：

48、；

49、其中，是图像的潜在空间表示，是文本的潜在空间表示，是一个预测层，表示二范数；

50、步骤s37，利用去重操作得到伪标签哈希码字典：

51、；

52、通过伪标签哈希码字典约束哈希损失函数学习：

53、；

54、其中表示哈希码字典中本文档来自技高网...

【技术保护点】

1.基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，其包括以下步骤：

2.如权利要求1所述的基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，所述步骤S3中：

【技术特征摘要】

1.基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，其包括以下步骤：

2...

【专利技术属性】
技术研发人员：姚涛，彭守永，卜亚斐，王丽丽，盛国瑞，苏庆堂，
申请(专利权)人：鲁东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人