The invention discloses a robust discrete supervised cross-media hash retrieval method, which can realize content-based cross-media retrieval by learning a robust similarity matrix between two samples. The method includes the following steps: establishing image and text data sets, and extracting vision for image and text samples in data sets respectively. The similarity matrix between two samples is constructed by using the class label, image and text features of samples, and a robust similarity matrix between two samples is learned by using the low rank of similarity matrix between two samples and the sparse characteristics of sample noise. plus
【技术实现步骤摘要】
一种鲁棒离散监督跨媒体哈希检索方法
:本专利技术涉及一种鲁棒离散监督跨模态哈希检索方法,属于多媒体检索和机器学习领域。
技术介绍
:近年来,互联网上每天都会产生大量的数据,这给多媒体检索任务带来了巨大的挑战,如何高效和有效查找近似样本成为迫切需求。哈希方法通过学习一组哈希函数将样本从原始特征空间映射到汉明空间,由于其在大规模应用中的计算速度快和节省存储空间,引起了研究者的极大的关注。哈希码比原始特征的存储成本低得多,同时通过汉明空间中利用XOR运算可以快速地计算样本之间的相似度。哈希方法已经得到了广泛的研究,但大多数研究仅关注一种模态,然而在因特网上相同语义的样本通常可表示为多个模态,这导致不同模态之间的异构语义鸿沟。例如,图像可以由视觉和相应的文本特征表示。另外,当用户提交查询样本给搜索引擎时,用户更喜欢搜索引擎返回多种模态的相似样本。因此,跨媒体检索引起了越来越多的关注。跨媒体哈希方法的目标是将异构样本映射到一个共享汉明空间,并在此空间保持样本的相似结构。具体地,对于相似的异构样本,在共享汉明空间中汉明距离要小,反之亦然。根据在训练过程中是否使用类标签,跨媒体哈希方法通常可以分为两类:无监督和监督方法。前者通常通过保持样本的模态内和模态间相似性来学习哈希码,而后者可以进一步结合类标签学习区分性更好的哈希码。最近的工作表明,结合样本的类标签可以提高检索性能。虽然许多监督跨模态哈希方法已经提出,并取得了令人满意的结果,然而仍有一些问题需要进一步解决。首先,在现实世界中,样本可能含有噪音。但是,大多数监督跨模态哈希方法仅使用训练数据的类标签构造两两样本间相似 ...
【技术保护点】
1.一种鲁棒离散监督跨媒体哈希检索方法,其特征在于,该方法包括如下步骤:第一步:搜集含有类标签的图像和文本样本对,构成图像、文本一一对应的跨模态检索的图文数据集;第二步:分别对图像和文本模态样本提取特征,并分别对图像和文本模态样本的特征去均值,使两个模态样本的特征数据均值为0;第三步:将数据集中的所有样本对随机划分为训练集和测试集;第四步:利用训练集中样本对的类标签、图像和文本模态的样本特征分别构造两两样本间相似度矩阵,并利用两两样本间相似度矩阵的低秩特性和噪声样本的稀疏特性,学习一个鲁棒的两两样本间相似度矩阵;训练样本对的特征设为X,X={X
【技术特征摘要】
1.一种鲁棒离散监督跨媒体哈希检索方法,其特征在于,该方法包括如下步骤:第一步:搜集含有类标签的图像和文本样本对,构成图像、文本一一对应的跨模态检索的图文数据集;第二步:分别对图像和文本模态样本提取特征,并分别对图像和文本模态样本的特征去均值,使两个模态样本的特征数据均值为0;第三步:将数据集中的所有样本对随机划分为训练集和测试集;第四步:利用训练集中样本对的类标签、图像和文本模态的样本特征分别构造两两样本间相似度矩阵,并利用两两样本间相似度矩阵的低秩特性和噪声样本的稀疏特性,学习一个鲁棒的两两样本间相似度矩阵;训练样本对的特征设为X,X={X(1),X(2)},其中X(1)表示训练集中图像模态的样本特征,X(2)表示训练集中文本模态的样本特征,其中d1和d2分别表示图像和文本模态样本特征的维度,N表示训练集中图像或文本模态样本数量,样本对的类标签用L表示,c表示样本类别的数量,li∈{0,1}c,如果lij=1,表示第i个样本属于第j类;反之,如果lij=0,表示第i个样本不属于第j类;学习鲁棒两两样本间相似度矩阵的目标函数包括以下步骤:(1)利用图像模态的样本特征计算基于图像模态特征的两两样本间的相似度矩阵,定义如下:其中||·||F表示Frobenius范数,S(1)表示图像模态的两两样本间相似度矩阵,表示第i个图像样本和第j个图像样本的相似度,σ1为尺度参数;(2)利用文本模态的样本特征计算基于文本模态特征的两两样本间相似度矩阵,定义如下:其中S(2)表示文本模态的两两样本间相似度矩阵,表示第i个文本样本和第j个文本样本的相似度,σ2为尺度参数;(3)利用样本对的类标签计算基于类标签的两两样本间相似度矩阵,定义如下:其中S(3)表示样本对标签的两两相似度矩阵,表示第i个样本对标签和第j个样本对标签的相似度;(4)学习鲁棒两两样本间相似度矩阵的目标函数定义如下:s.t.S(i)=S+||E(i)||0其中S表示学习的鲁棒样本间两两相似度矩阵,E(i)表示第i个两两相似度矩阵中的噪声,rank(·)表示矩阵的秩,||·||0表示l0范数;(5...
【专利技术属性】
技术研发人员:姚涛,闫连山,吕高焕,崔光海,岳峻,
申请(专利权)人:鲁东大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。