基于线性泛化回归模型的跨媒体检索方法技术

技术编号:7809463 阅读:228 留言:0更新日期:2012-09-27 08:34
本发明专利技术公开了一种基于线性泛化回归模型的跨媒体检索方法。该方法首先提取不同模态对象的语义特征,再利用线性泛化回归模型建立各个模态特征之间的回归关系,实现不同模态特征的相互转换,接着利用多类Logistic回归算法估计转换后模态对象的后验概率分布,最后利用距离度量的方法来计算测试样本和数据库样本之间的距离,从而输出检索得到的最相似的前N个数据库中的样本。本发明专利技术在跨越不同模态的语义鸿沟时,可以最大限度地防止不同模态媒体在转换时有效信息的泄露,从而保证不同模态信息传递的有效性,进一步提高跨媒体搜索的鲁棒性和准确性,具有良好的运用前景和可观的市场价值。

【技术实现步骤摘要】

本专利技术涉及模式识别领域,特别涉及一种基于线性泛化回归模型的跨媒体检索方 法。
技术介绍
人类如今生活在信息大爆炸时代,人类可以通过互联网搜索引擎如谷歌(http://WWW. google, com)、百度(http://www. baidu. com)等搜寻自己想要的文章、图片、音乐和电影等。然而,目前互联网用户主要还是通过关键字搜索得到所需要的信息,这个限制主要是归结于搜索引擎无法理解异构模态媒体之间的相互关系,从而限制了搜索引擎的发展。众所周知,互联网搜索引擎具有巨大的市场价值,如何增强搜索引擎的性能,以吸引更多的用户和客户,将是下一代搜索引擎发展的关键和生存之道。跨媒体搜索引擎研究得到了国际学术界的重视,我国近年来也开始重点关注该项技术的发展,设立973计划和国家支撑计划对该领域的相关技术进行研发。目前国际上提出的一些方法虽然可以被用于建立不同模态之间的关系,但是仍然存在很多的不合理和不足之处,如信息传递的泄漏问题和信息传递的不均衡问题。其中一种主流方法是基于关联子空间恒等同构的方法。基于关联子空间的典型方法如典型相关分析(CanonicalCorrelation Analysis, CCA),它通过对偶综合变量之间的相关性联合降维的方法,将不同模态的数据降到相同维数的关联子空间,这种方法在压缩模态的同时不可避免地造成了原始模态信息的泄漏,从而丢掉了原始模态特征描述中的一些细节信息;另外,该方法在模态转换时在恒等子空间直接进行信息交互,并没有考虑子空间映射的合理关系,只是运用了子空间映射的特殊情况。后续工作还提出了一些与CAA组合的方法来建立CCA投影子空间映射之间的关系,这些组合方法的明显不足之处在于,在运用CCA方法时就已经产生了信息的泄漏;此外这些方法并不能从理论上给出有效的子空间关联性的解释,因此无法估计需要运用多少次组合的方法,也无法估计组合方法产生的冗余性。利用可以有效和合理改进之前方法存在的问题,其基本思想是利用最小二乘的原理在模态关联投影子空间建立回归关系,然后映射到原始空间建立回归关系,从理论上解释了模态直接转换的关系。在子空间建立回归关系在一定程度上可以消除不同模态变量交叉噪声的干扰,在原始空间建立回归关系可以保留一些细节信息的传递,从而提高不同模态之间信息的转换有效性和鲁棒性,进而保证了下一步分类器的分类精度和最终的识别效果。该方法的提出有效地实现了不同模态媒体之间的语义鸿沟的跨越,进而使得搜索引擎返回的结果更加准确和更趋于人性化,在商业用途上,它可以满足更广大互联网用户不同的喜好和需求,进而吸引更多的互联网用户和客户,因此具有良好的运用前景和可观的市场价值。
技术实现思路
为了解决现有跨媒体搜索引擎技术存在的问题,特别是为了解决现阶段不同多媒体模态信息传递的有效性问题,本专利技术提供一种,该方法包括以下步骤步骤1,搜集不同模态的样本,建立跨模态检索数据库,并提取数据库中不同模态样本的特征向量;步骤2,利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵;步骤3,估计数据库中各个样本 的特征向量属于某一个类别的后验概率;步骤4,用户输入待检索对象,并根据待检索对象的类型进行相应的特征提取;步骤5,使用所述关联矩阵对提取到的待检索对象的特征进行特征转换;步骤6,计算待检索对象转换后的特征与数据库中对应类别的样本对象的特征之间的相似度;步骤7,根据所述步骤6计算得到的相似度对数据库中对应类别的样本对象进行排序,并返回其中最相似的几个样本对象作为跨媒体检索結果。与传统方法相比较,本专利技术利用最小ニ乘的原理在模态关联投影子空间建立回归关系,然后映射到原始空间建立回归关系,从理论上解释了模态直接转换的关系,在子空间建立回归关系在一定程度上可以消除不同模态变量交叉噪声的干扰,在原始空间建立回归关系可以保留一些细节信息的传递,从而提高不同媒体模态之间转换的有效性和鲁棒性,进而保证分类器的分类精度和最終的识别效果。该方法有效地跨越了不同模态媒体之间的语义鸿沟,进而使得跨媒体搜索引擎返回的结果更加准确。附图说明图I是本专利技术方法的流程图;图2是本专利技术方法的实现示意图;图3是根据本专利技术的从文本到图像的跨媒体检索效果示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并參照附图对本专利技术进一歩详细说明。本专利技术通过线性泛化回归模型来学习不同模态对象之间的语义关系,获得不同模态对象特征之间进行转换的关联矩阵,从而建立不同模态对象之间的转换途径,然后利用获得的关联矩阵对待检索对象进行转换,再用相似性度量的方法来寻找数据库中与转换后的待检索对象最为相似的样本对象,最终实现跨媒体检索的目的。图I是本专利技术方法的流程图,图2是本专利技术方法的实现示意图,如图I和图2所示,本专利技术所提出的一种包括以下几个步骤步骤1,搜集不同模态的样本,建立跨模态检索数据库,并提取数据库中不同模态样本的特征向量。所述不同模态的样本之间为对应,比如可以是对应的图像和文本,本专利技术中以图像和文本这两种模态对象为例来描述所述跨媒体检索方法。本专利技术中,分别使用尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)算法和隐狄雷克雷分布(Latent Dirichlet Allocation, LDA)算法对图像和文本进行特征的提取。具体地,SIFT算法首先找到图像样本中以某关键点为中心的局部区域,然后对该区域进行梯度滤波,得到梯度响应,最后统计各方向的梯度信息作为该图像样本的特征向量。LDA算法是ー个包含词、主题和文档三层结构的概率混合模型,LDA算法将每个文档表示为ー个主题混合,其中每个主题是固定词表上的一个多项式分布。LDA算法假设词由一个主题混合产生,同时每个主题是在固定词表上的一个多项式分布,这些主题被集合中的文档所共享,每个文档从狄雷克雷分布中抽样产生ー个特定的主题作为特征向量。步骤2,利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵。本专利技术利用线性泛化回归模型来估计图像的SIFT特征向量X和文本的LDA特征向量Y之间的关联矩阵,从而建立两种模态对象之间的语义关系。所述线性泛化回归模型为利用最小ニ乘的原理在模态关联投影子空间建立回归关系,然后再映射到原始模态空间建立回归关系,其用公式可表示为Y = XB+E (I)其中,B为本专利技术建立模态关联的回归系数矩阵,即两个不同模态之间的关联矩阵,E为残差矩阵。如果数据库中含有多个模态对象,则需要估计两两模态对象之间的关联矩阵。步骤3,估计数据库中各个样本的特征向量属于某一个类别的后验概率。每个样本的特征向量中的数据属于多个类别中的ー个,多个样本的特征向量中的数据有可能属于共同的某ー类。因此,本专利技术首先采用多类Logistic回归算法来估计数据库中各个样本的特征向量属于某一个类别i的后验概率,以用于后续的相似度计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于线性泛化回归模型的跨媒体检索方法,其特征在于,该方法包括以下步骤 步骤1,搜集不同模态的样本,建立跨模态检索数据库,并提取数据库中不同模态样本的特征向量; 步骤2,利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵; 步骤3,估计数据库中各个样本的特征向量属于某一个类别的后验概率; 步骤4,用户输入待检索对象,并根据待检索对象的类型进行相应的特征提取; 步骤5,使用所述关联矩阵对提取到的待检索对象的特征进行特征转换; 步骤6,计算待检索对象转换后的特征与数据库中对应类别的样本对象的特征之间的相似度; 步骤7,根据所述步骤6计算得到的相似度对数据库中对应类别的样本对象进行排序,并返回其中最相似的几个样本对象作为跨媒体检索結果。2.根据权利要求I所述的方法,其特征在于,所述步骤I中,所述不同模态的样本之间为对应。3.根据权利要求I所述的方法,其特征在于,分别使用尺度不变特征变换算法和隐狄雷克雷分布算法对图像和文本进行特征的提取。4.根据权利要求I所述的方法,其特征在于,所述线性泛化回归模型表示为Y= XB+E, 其中,X和Y分别代表两个不同模态的特征向量,B为X和Y之间的关联矩阵,E为残差矩阵。5.根据权利要...

【专利技术属性】
技术研发人员:谭铁牛王亮陈永明
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1