基于相关性匹配的跨模态图文检索方法技术

技术编号：41245524 阅读：26 留言：0更新日期：2024-05-09 23:56

本发明专利技术涉及图文检索技术领域，公开了基于相关性匹配的跨模态图文检索方法，包括以下具体步骤：S1：对训练图像与文本进行特征提取；S2：得到图像嵌入空间特征及文本嵌入空间特征；S3：将图像嵌入空间特征及文本嵌入空间特征投影到标签空间；在标签空间中计算包括判别性损失，匹配关系损失以及相关性损失的总损失函数；S4：根据总损失函数训练特征提取器与共享分类器；S5：获取待检索的多模态数据，利用训练好的特征提取器及共享分类器将多模态数据特征投影到共享子空间中，进行跨模态图文检索。本发明专利技术解决了现有技术中多模态特征在子空间中存在差异性的问题，且具有能够降低计算的时间复杂度，提升检索效率的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图文检索，更具体的，涉及基于相关性匹配的跨模态图文检索方法。

技术介绍

1、跨模态检索技术的检索精度与检索效率在搜索引擎中的图文检索，音视频检索等方面以及多媒体信息管理中起着重要作用。该技术的目的是提升跨模态检索的精度与检索效率。

2、针对跨模态检索问题，目前主流的技术是基于子空间学习框架及其改进方法。子空间学习方法旨在将多模态数据特征投影到共享子空间中，去除模态之间的冗余信息。主要的代表方法有对抗跨模态检索方法(acmr)和深度监督跨模态检索方法(dscmr)。

3、对抗跨模态检索方法(bokun wang,yang yang,xing xu,alan hanjalic hengtaoshen."adversarial cross-modal retrieval."proceedings of the25th acminternational conference on multimedia.2017.)设计了模态编码器与模态判别器的组合，通过对抗训练得到模态不变的潜在特征子空间，同时对于投影函数加入了三元组约束，最小化来自具有相同语义标签的不同模态之间的样本距离，同时最大化语义不同的样本的距离，保证了投影子空间的判别性。

4、深度监督跨模态检索方法(liangli zhen,peng hu,xu wang,dezhong peng."deep supervised cross-modal retrieval."proceedings of the ieee/cvf confe

5、以上方法通过模态编码器将不同模态的数据投影到共享子空间中，通过投影得到模态一致特征，从而实现跨模态检索。然而仍存在以下不足之处：一方面，这些方法忽视了多模态样本具有的特定匹配关系，难以学习到更高层级的特征判别性。因此需要在训练过程中加入这类先验信息辅助学习；另一方面，以上方法都是基于欧式距离构造了一种模态差异性度量，没有考虑到特征数据的统计属性，这样学习到的多模态特征在子空间中仍然会存在差异性。

6、现有技术有一种基于监督图嵌入的跨模态哈希检索方法，属于多媒体检索
；构建图像和文本模态数据集，划分为训练集和测试集；提取训练集和测试集所有图像和文本样本的特征，并利用径向基核函数将提取的特征映射到非线性核空间，提升特征的表征能力；利用类别标签生成样本的两两相似度矩阵，进而生成拉普拉斯矩阵；利用类别标签生成一个语义子空间；利用基于图嵌入方法的模态内相似性保持和基于语义子空间的模态间相似性保持，为图像和文本模态学习一个映射矩阵；学习一个正交旋转矩阵最小化量化误差；利用一种高效的迭代离散优化算法将训练过程的计算复杂度降低。

7、然而现有技术中多模态特征在子空间中存在差异性的问题，因此如何专利技术一种考虑到特征数据的统计属性的跨模态图文检索方法，是本
亟需解决的技术问题。

技术实现思路

1、本专利技术为了解决现有技术中多模态特征在子空间中存在差异性的问题，提供了基于相关性匹配的跨模态图文检索方法，其具有能够降低计算的时间复杂度，提升检索效率的特点。

2、为实现上述本专利技术目的，采用的技术方案如下：

3、基于相关性匹配的跨模态图文检索方法，包括以下具体步骤：

4、s1：获取训练图像与文本；对训练图像与文本进行特征提取，得到图像特征与文本特征；

5、s2：构建与图像特征与文本特征对应的2个特征提取器与1个共享分类器；分别将图像特征与文本特征输入其对应的特征提取器，得到图像嵌入空间特征及文本嵌入空间特征；

6、s3：通过共享分类器将图像嵌入空间特征及文本嵌入空间特征投影到标签空间；在标签空间中计算包括判别性损失，匹配关系损失以及相关性损失的总损失函数；

7、s4：根据总损失函数训练特征提取器与共享分类器，训练时通过反向传播更新特征提取器与共享分类器的网络参数；

8、s5：获取待检索的多模态数据，利用训练好的特征提取器及共享分类器将多模态数据特征投影到共享子空间中，进行跨模态图文检索。

9、优选的，所述的步骤s1中，对训练图像与文本进行特征提取，具体步骤为：

10、s101：将n个训练图像输入到vggnet网络，得到fc7层输出的n*4096维图像特征ui；将n个训练文本输入到doc2vec模型，得到n*300维文本特征vi；

11、s102：对ui和vi进行归一化处理。

12、进一步的，所述的步骤s2中，构建与图像特征与文本特征对应的2个特征提取器，具体为：

13、搭建两层全连接网络作为图像特征提取器fu(·)，其激活函数为relu；

14、搭建两层全连接网络作为文本特征提取器fv(·)，其激活函数为relu。

15、更进一步的，所述的共享分类器p(·)为单层全连接网络构成。

16、更进一步的，所述的步骤s2中，分别将图像特征与文本特征输入其对应的特征提取器，得到图像嵌入空间特征及文本嵌入空间特征，具体为：

17、ui＝fu(ui),vi＝fv(vi),

18、其中，ui为图像嵌入空间特征，vi为文本嵌入空间特征，ui,vi∈rd，d为共享子空间维度。

19、更进一步的，所述的步骤s3中，在标签空间中计算包括判别性损失，匹配关系损失以及相关性损失的总损失函数，具体为：

20、计算判别性损失：

21、记训练样本的标签信息为y∈rc，y为0-1独热向量,将ui,vi用共享分类器p(·)投影到标签空间，计算得到判别性损失jd：

22、

23、其中u,v∈rn*d为所有样本组成的特征矩阵，||·||f表示frobenius范数；

24、计算匹配关系损失：

25、记样本之间的匹配关系的先验分布为:

26、

27、定义特征之间通过欧式距离计算得到的匹配概率为：

28、

29、计算ui,vi两个分布之间的kullback-leibler散度，得到第1方向的匹配关系损失:

30、

31、同理调换u和v的顺序计算第2方向的匹配关系损失:

32、

33、将第1方向、第2方向的匹配关系损失相加得到匹配关系损失jm；

34、jm＝jv2u+ju2v；

35、计算相关性损失：

36、对ui,vi进行特征做均值归零处理：

3本文档来自技高网...

【技术保护点】

1.基于相关性匹配的跨模态图文检索方法，其特征在于：包括以下具体步骤：

2.根据权利要求1所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S1中，对训练图像与文本进行特征提取，具体步骤为：

3.根据权利要求2所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S2中，构建与图像特征与文本特征对应的2个特征提取器，具体为：

4.根据权利要求3所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的共享分类器P(·)为单层全连接网络构成。

5.根据权利要求4所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S2中，分别将图像特征与文本特征输入其对应的特征提取器，得到图像嵌入空间特征及文本嵌入空间特征，具体为：

6.根据权利要求5所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S3中，在标签空间中计算包括判别性损失，匹配关系损失以及相关性损失的总损失函数，具体为：

7.根据权利要求6所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S4中，

8.根据权利要求7所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S5中，利用训练好的特征提取器及共享分类器将多模态数据特征投影到共享子空间中，进行跨模态图文检索，具体步骤为：

9.根据权利要求1所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S503中，计算余弦相似度，具体为：

10.根据权利要求7所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤S4中，训练时选取超参数α＝0.01,β＝0.3，选取学习率λ＝0.0001，β1＝0.9，β2＝0.999的Adam优化器。

...

【技术特征摘要】

1.基于相关性匹配的跨模态图文检索方法，其特征在于：包括以下具体步骤：

2.根据权利要求1所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤s1中，对训练图像与文本进行特征提取，具体步骤为：

3.根据权利要求2所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤s2中，构建与图像特征与文本特征对应的2个特征提取器，具体为：

4.根据权利要求3所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的共享分类器p(·)为单层全连接网络构成。

5.根据权利要求4所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤s2中，分别将图像特征与文本特征输入其对应的特征提取器，得到图像嵌入空间特征及文本嵌入空间特征，具体为：

6.根据权利要求5所述的基于相关性匹配的跨模态图文检索方法，其特征在于：所述的步骤s3中，在标签空间中计算包括判别性损失，匹配关系损失以及相...

【专利技术属性】
技术研发人员：任传贤，邱显东，李太豪，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人