一种基于学习先验的跨模态检索方法及系统技术方案

技术编号：41687341 阅读：4 留言：0更新日期：2024-06-14 15:38

本发明专利技术提供一种基于学习先验的跨模态检索方法及系统，涉及数据处理领域，其中，该方法包括：获取多个模态对应的样本数据集，样本数据集包括多个样本数据；对于每个模态，建立并基于模态对应的样本数据训练模态对应的先验学习子网络，并确定模态对应的最佳先验，基于模态对应的最佳先验，对模态对应的表征学习子网络进行训练，基于训练后的表征学习子网络，确定模态对应的样本数据在共享子空间的表示；基于待查询的数据的当前模态对应的表征学习子网络，确定待查询的数据在共享子空间的表示，计算待查询的数据与目标模态对应的样本数据之间的相似度，从目标模态对应的样本数据中确定候选检索项，具有提高跨模态检索的灵活性的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，特别涉及一种基于学习先验的跨模态检索方法及系统。

技术介绍

1、互联网的快速发展导致多媒体数据呈指数级增长。来自各种模态或媒体(例如图像、文本和视频)的数据通常属于相似的主题和内容。使用一种模态的数据作为索引来查询其他模态的样本是一种常见的做法。然而，由于不一致的表示和分布，不同模态的数据之间存在异质性差距。直接计算它们之间的相似度来进行查询是不可行的。因此，需要开发一种能够消除异质性差距并量化跨模态数据相似性的方法，以进行跨模态检索。

2、各种跨模态检索方法中的普遍策略是部署子空间嵌入，利用特定于模态的函数将模态数据映射到共享子空间中，从而消除异质性差距，然后计算相似性。在过去的几十年里，出现了多种方法将来自不同模态的数据映射到公共子空间。例如典型相关分析(cca)及其变体旨在最大化数据之间的统计相似性以学习共享子空间。然而，由于现实世界数据固有的复杂相关性，线性建模处理此类数据的功效受到限制。尽管一些方法利用核技巧来捕获数据之间的非线性关系，但确定合适的核函数仍然是一个尚未解决的挑战。

3、由于深度学习在多媒体应用中取得的巨大成功，各种深度方法被提出来学习不同模态数据的非线性投影。例如hu等人在使用图像文本子网络获得图像文本的表示后，利用标签中的语义信息对齐类内样本表示和增强类间样本表示的判别性。例如使用图神经网络挖掘标签之间的相关信息，并使用双对抗生成网络消除特定于模态的信息和对齐语义。然而这些方法是专门为两种模态检索量身定制的，因为需要对跨多种模态进行配对训练，他们在执

4、因此，需要提供一种基于学习先验的跨模态检索方法及系统，用于提高跨模态检索的灵活性。

技术实现思路

1、本专利技术提供一种基于学习先验的跨模态检索方法，包括：获取多个模态对应的样本数据集，其中，所述样本数据集包括多个样本数据，所述样本数据包括特征数据及标签数据；对于每个模态，建立并基于所述模态对应的样本数据训练所述模态对应的先验学习子网络，并确定所述模态对应的最佳先验；对于每个模态，基于所述模态对应的最佳先验，对所述模态对应的表征学习子网络进行训练，基于训练后的表征学习子网络，确定所述模态对应的样本数据在共享子空间的表示；获取待查询的数据、待查询的数据的当前模态及所述待查询的数据对应的目标模态；基于所述待查询的数据的当前模态对应的表征学习子网络，确定所述待查询的数据在共享子空间的表示；基于所述待查询的数据在共享子空间的表示与所述目标模态对应的样本数据在共享子空间的表示，计算所述待查询的数据与所述目标模态对应的样本数据之间的相似度；基于所述待查询的数据与所述目标模态对应的样本数据之间的相似度，从所述目标模态对应的样本数据中确定候选检索项。

2、进一步地，所述建立并训练每个模态对应的先验学习子网络，包括：随机初始化一个正交的映射矩阵，其中，所述映射矩阵用于将共享子空间的表示转换为标签；重复执行将所述正交的映射矩阵和所述模态对应的样本数据，输入至所述模态对应的先验学习子网络，计算损失值并优化所述正交的映射矩阵和所述先验学习子网络直至收敛。

3、进一步地，所述样本数据集为：

4、

5、

6、

7、其中，为第m个模态对应的特征数据集，为第m个模态对应的标签数据集，为第m个模态的第i个样本数据对应的标签，如果第m个模态的第i个样本数据属于第j类，那么的值为1，否则为0，c为类别数，nm为第m个模态对应的样本数据的总数。

8、进一步地，所述映射矩阵为：

9、

10、其中，w为映射矩阵，d为所述先验学习子网络的输出维度，wi为映射矩阵的第i列分量。

11、进一步地，所述先验学习子网络的先验学习损失函数为：

12、

13、其中，为所述先验学习子网络的先验学习损失，q是一个根据迭代次数不断增加至1的参数，用于表征第m个模态对应的第i个样本数据是否属于第c类的参数，如果第m个模态的第i个样本数据属于第c类，那么的值为1，否则为0，wmc为第m个模态对应的映射矩阵的第c个列分量，为先验学习子网络学习的第m个模态对应的第i个样本数据在公共子空间的表示，wmj为第m个模态对应的映射矩阵的第j个列分量。

14、进一步地，确定所述模态对应的最佳先验，包括：计算训练所述模态对应的先验学习子网络的过程中的每个映射矩阵的得分；确定得分最高的映射矩阵；确定所述得分最高的映射矩阵的逆矩阵，基于所述得分最高的映射矩阵和所述得分最高的映射矩阵的逆矩阵，确定所述最佳先验。

15、进一步地，基于以下公式计算映射矩阵的得分：

16、

17、其中，为第m个模态对应的映射矩阵的得分。

18、进一步地，所述基于所述模态对应的最佳先验，对所述模态对应的表征学习子网络进行训练，包括：基于所述模态对应的最佳先验，确定先验损失、语义一致性损失及均方误差，对所述模态对应的表征学习子网络进行训练。

19、进一步地，所述表征学习子网络的损失函数为：

20、

21、

22、

23、

24、其中，为所述表征学习子网络的总损失，为所述表征学习子网络的先验损失，为所述表征学习子网络的语义一致性损失，为所述表征学习子网络的均方误差，为，为第m个模态对应的第i个样本数据在公共子空间的真实表示，α、β为超参数，lp为第m个模态对应的得分最高的映射矩阵的逆矩阵，wpj为第m个模态对应的得分最高的映射矩阵的第j个列分量，为第m个模态对应的第j个样本数据在公共子空间的真实表示，wpc为第m个模态对应的得分最高的映射矩阵的第c个列分量。

25、本专利技术提供一种基于学习先验的跨模态检索系统，包括：样本获取模块，用于获取多个模态对应的样本数据，其中，所述样本数据包括特征数据及标签数据；网络建立模块，用于对于每个模态，建立并基于所述模态对应的样本数据训练所述模态对应的先验学习子网络，并确定所述模态对应的最佳先验；所述网络建立模块还用于对于每个模态，基于所述模态对应的最佳先验，对所述模态对应的表征学习子网络进行训练，基于训练后的表征学习子网络，确定所述模态对应的样本数据在共享子空间的表示；数据查询模块，用于获取待查询的数据、待查询的数据的当前模态及所述待查询的数据对应的目标模态；所述数据查询模块还用于基于所述待查询的数据的当前模态对应的表征学习子网络，确定所述待查询的数据在共享子空间的表示；所述数据查询模块还用于基于所述待查询的数据在共享子空间的表示与所述目标模态对应的样本数据在共享子空间的表示，计算所述待查询的数据与所述目标模态对应的样本数据之间的相本文档来自技高网...

【技术保护点】

1.一种基于学习先验的跨模态检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于学习先验的跨模态检索方法，其特征在于，所述建立并训练每个模态对应的先验学习子网络，包括：

3.根据权利要求2所述的一种基于学习先验的跨模态检索方法，其特征在于，所述样本数据集为：

4.根据权利要求3所述的一种基于学习先验的跨模态检索方法，其特征在于，所述映射矩阵为：

5.根据权利要求4所述的一种基于学习先验的跨模态检索方法，其特征在于，所述先验学习子网络的先验学习损失函数为：

6.根据权利要求5所述的一种基于学习先验的跨模态检索方法，其特征在于，确定所述模态对应的最佳先验，包括：

7.根据权利要求6所述的一种基于学习先验的跨模态检索方法，其特征在于，基于以下公式计算映射矩阵的得分：

8.根据权利要求7所述的一种基于学习先验的跨模态检索方法，其特征在于，所述基于所述模态对应的最佳先验，对所述模态对应的表征学习子网络进行训练，包括：

9.根据权利要求8所述的一种基于学习先验的跨模态检索方法，其特征在于

10.一种基于学习先验的跨模态检索系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于学习先验的跨模态检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于学习先验的跨模态检索方法，其特征在于，所述建立并训练每个模态对应的先验学习子网络，包括：

3.根据权利要求2所述的一种基于学习先验的跨模态检索方法，其特征在于，所述样本数据集为：

4.根据权利要求3所述的一种基于学习先验的跨模态检索方法，其特征在于，所述映射矩阵为：

5.根据权利要求4所述的一种基于学习先验的跨模态检索方法，其特征在于，所述先验学习子网络的先验学习损失函数为：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：秦阳，孙元，胡鹏，
申请(专利权)人：成都云动视达科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人