一种面向单类别低信息量数据的图文匹配方法组成比例

技术编号：39934476 阅读：8 留言：0更新日期：2024-01-08 22:04

一种面向单类别低信息量数据的图文匹配方法，属于多媒体信息处理中的图文匹配领域。本发明专利技术首先将数据集划分为训练集、测试集。然后，用高斯核函数对训练集、测试集的低信息量数据进行核化处理，将其映射到高维度核空间以提取非线性特征。然后，构造针对单类别低信息量数据图文匹配问题的目标函数和投影学习公式，用于后续学习哈希码矩阵和哈希投影矩阵。然后，利用优化算法1优化目标函数，得到哈希码矩阵B。然后，利用优化算法2优化投影学习公式，得到哈希投影矩阵H1、H2。最后，利用上述步骤得到的哈希码矩阵B和哈希投影矩阵H1、H2对测试集进行测试并计算图文匹配的平均准确率。与其他方法相比，本发明专利技术的平均准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多媒体信息处理中的图文匹配领域，具体涉及一种面向单类别低信息量数据的图文匹配方法。

技术介绍

1、在多媒体信息处理领域，图像和文本是广泛使用且易于获取的数据模态类型，以往的匹配方法大多针对单一模态，如文本-文本匹配，图像-图像匹配。随着大数据时代的来临，单一模态的匹配已经不能满足用户的需求，多模态匹配(图像-文本、音频-视频等)应运而生。考虑到环境、设备等原因，样本采集过程中得到的数据可能不是特别完备，所收集的数据包含的信息量较低，这些低信息量的数据由于提供的特征并不充分，导致其特征判别能力的下降，进而影响图文匹配任务的准确率。另一方面，包含多类标签的图文数据由于提供了丰富的标记信息，有助于提高图文匹配任务的性能。然而，由于人工标记的困难，获取多类标签数据的代价较高，真实环境中往往仅能获取到单类别属性标签的图文数据，即每对图文样本仅包含一种类别属性，这也在标签层面导致了数据的低信息量。现有的图文匹配方法在这类数据上的表现欠佳，需要有效的新颖技术方法解决单类别低信息量数据的图文匹配问题。

技术实现思路

1、为了解决上述问题，本专利技术提供了一种面向单类别低信息量数据的图文匹配方法，所述方法包括步骤：

2、将数据集划分为训练集、测试集。

3、用高斯核函数对训练集、测试集的低信息量数据进行核化处理。

4、构造针对单类别低信息量数据图文匹配问题的目标函数和投影学习公式。

5、利用优化算法1优化目标函数，得到哈希码矩阵b。

6、利用优化算法2优化投影学习公式，得到哈希投影矩阵h1、h2。

7、利用上述步骤得到的哈希码矩阵b和哈希投影矩阵h1、h2对测试集进行测试并计算图文匹配的平均准确率。

8、进一步地，将所述高斯核函数定义为：

9、

10、其中，x为数据样本的一个列向量，为对x进行高斯核化处理的第i个元素，其中为向量的2-范数的平方，为从数据样本中不重复随机提取的q个列向量(q的大小也即目标函数中核化后数据的维度)，为核宽度，其中n为样本数量，xi为数据样本的第i列向量，gj为中的第j个列向量，||·||2为向量的2-范数。

11、进一步地，所述目标函数为：

12、

13、s.t.b∈{-1,1}r×n,qqt＝i

14、其中，为低信息量图像数据矩阵，为低信息量文本数据矩阵，其中d1、d2为低信息量图像、文本数据的维度，n为样本数量，为核化后的图像、文本数据矩阵，其中q为核化后数据的维度，u1、u2∈rq×r分别为图像、文本的基矩阵，其中r为哈希码长度，v∈rr×n为图像、文本的统一表示矩阵，c1、c2∈rr×n分别为图像、文本的特定表示矩阵，l∈rc×n为标签矩阵，其中c为标签种类的数量，r∈rc×r为投影矩阵，q∈rr×r为具有正交约束的投影矩阵，i为单位矩阵，b∈{-1,1}r×n为元素是-1或1的哈希码矩阵，k、y∈rr×n为辅助矩阵，用于后续优化，tr(·)为矩阵的迹，为矩阵的f-范数的平方，||·||*为矩阵的核范数，re(·)为•中每一项的f-范数的平方加和，λ1、λ2、α、β、γ、ω、μ1、ρ为权衡参数。

15、进一步地，所述投影学习公式为：

16、

17、其中，r为哈希码长度，m∈rc×n为单位化后的标签矩阵，即mi＝li/||li||2，li为标签矩阵l的第i列向量，||•||2为向量的2-范数，ht∈rr×q为第t个模态(t＝1时，模态为图像，t＝2时，模态为文本)的哈希投影矩阵，其中q为目标函数中提到的核化后数据的维度，μ2为权衡参数。

18、进一步地，优化算法1总结如下：

19、

20、进一步地，优化算法2总结如下：

21、

22、

23、本专利技术提供了一种面向单类别低信息量数据的图文匹配方法，具有以下优势：

24、(1)所述方法利用高斯核函数对低信息量数据进行核化处理，将其映射到高维度核空间，能够提取低信息量数据的非线性特征。

25、(2)所述方法将图像、文本的表示矩阵分解为公共表示矩阵和特定表示矩阵，同时目标函数中引入的保证了两个特定表示矩阵的不一致性，从而使学习到的公共表示矩阵相较于传统方法得到的公共表示矩阵更能包含图文表示的一致信息。

26、(3)所述方法将标签矩阵分解为投影矩阵和公共表示矩阵的乘积，将哈希码矩阵分解为正交投影矩阵和公共表示矩阵的乘积，通过这种方式，将标签信息嵌入到公共表示矩阵中，使得公共表示矩阵更加准确，从而学习更加具有鲁棒性的哈希码矩阵。

27、(4)所述方法在投影学习公式的第一项对哈希投影矩阵施加语义约束，有助于纠正映射方向，学习到的哈希投影矩阵相较于传统的简单线性投影方法得到的哈希投影矩阵更加具有判别性。

本文档来自技高网...

【技术保护点】

1.一种面向单类别低信息量数据的图文匹配方法，所述方法包括步骤：

2.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，将数据集划分为训练集和测试集。

3.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，将所述高斯核函数定义为：

4.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，所述目标函数为：

5.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，提出的优化算法1总结如下：

6.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，提出的优化算法2总结如下：

7.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，利用上述步骤得到的哈希码矩阵B和哈希投影矩阵H1、H2对测试集进行测试并计算图文匹配的平均准确率。

【技术特征摘要】

1.一种面向单类别低信息量数据的图文匹配方法，所述方法包括步骤：

2.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，将数据集划分为训练集和测试集。

3.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，将所述高斯核函数定义为：

4.根据权利要求1所述的一种面向单类别低信息量数据的图文匹配方法，其特征在于，所述目标函数为：

...

【专利技术属性】
技术研发人员：李骜，谢委衡，邵春锐，许浩越，程媛，杨海陆，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人