本发明专利技术涉及一种基于局部关联图的跨媒体相似性度量方法和检索方法,包括以下步骤:建立包含多种媒体类型的跨媒体数据集,对其中所有数据进行分块处理,在得到局部分块的同时保留整体数据;对跨媒体数据集中每种媒体类型的整体数据和局部分块,都提取其特征向量;通过训练集中的整体数据,利用跨媒体统一特征表示方法为不同媒体类型学习得到统一特征映射矩阵,将不同媒体类型的整体数据与局部分块都映射到统一空间;在统一空间中构造局部关联图,计算媒体数据间的相似性。本发明专利技术在度量跨媒体数据的相似性时,既使用局部信息来挖掘细粒度的跨媒体关联,又利用整体信息有效屏蔽局部信息带来的噪声,从而优化了跨媒体相似性度量的全面性和准确性。
【技术实现步骤摘要】
本专利技术涉及多媒体检索领域,具体涉及一种基于局部关联图的跨媒体相似性度量方法和跨媒体检索方法。
技术介绍
随着多媒体技术和互联网技术的飞速发展,网络上的图像、文本、视频、音频等多媒体数据快速增长,多媒体的相关应用也越来越多,用户需要更加灵活有效的信息检索技术。传统的信息检索技术主要是基于文本的检索,即对数据进行人工标注,通过对用户输入文本进行匹配来返回检索结果。这种检索方式耗时耗力,无法应对大规模的多媒体数据。因此,许多学者提出了基于内容的多媒体检索,根据内容的相似性返回相关的检索结果。然而,该方法无法满足用户的跨媒体检索需求,比如对于图像查询,只能返回相关的图像,而无法得到文本、视频等其它媒体的数据,缺少灵活性。跨媒体检索可以描述为:使用任意一种媒体作为查询,得到另外一种(或多种)媒体的相关结果。如输入为一段音频,不仅能够返回音频,也可以根据用户需求返回图像、文本等其它媒体结果,这就大大提高了信息检索的灵活性。实现有效的跨媒体检索系统,不仅能够满足用户日益增长的检索需求,对于互联网多媒体数据的管理、标注与统计等工作也有重要帮助。跨媒体检索的主要问题是如何度量不同媒体之间的相似性。目前一种主要的跨媒体检索方法是基于统一特征表示的跨媒体检索,即通过变换把不同媒体的数据从各自的特征空间中映射到一个统一特征空间,从而进行直接的相似性度量。典型相关分析(CanonicalCorrelationAnalysis,简称CCA)是这类方法的一个代表,也是一种自然的选择方案。CCA通过分析两组向量之间的关系,学习能够最大化两组异构数据关联性的空间,从而完成向统一特征空间的映射。CCA被Kidron等人在文献“PixelsthatSound”中用来定位视频中与音源有关的事件,Bredin等人则在文献“Audio-visualSpeechSynchronyMeasureforTalking-faceIdentifyVerification”中利用CCA综合视觉和音频信息,实现身份检测的目标。Li等人在文献“MultimediaContentProcessingthroughCross-modalAssociation”中提出了跨模态因子分析(Cross-modalFactorAnalysis,简称CFA)方法。该方法在转换后的域中最小化一对数据间的弗罗贝尼乌斯范数(FrobeniusNorm),取得了比CCA更好的效果。在文献“ANewApproachtoCross-ModalMultimediaRetrieval”,Rasiwasia等人针对CCA等方法未对高层语义进行建模的不足,提出将CCA与语义表示相结合,即高层语义映射方法。他们先对不同媒体数据应用CCA得到统一特征表示,再使用逻辑回归得到语义表示。该方法由于利用了高层语义信息,得到了更好的检索效果。得到统一特征表示后,可以直接计算数据的距离得到相似度。Zhai等人在文献“EffectiveHeterogeneousSimilarityMeasurewithNearestNeighborsforCross-mediaRetrieval”中提出了一种基于k近邻分类器的相似性度量方法,通过在统一空间中计算k近邻属于同一类别的概率,得到两个数据的相似性。目前对于统一特征表示方面的研究已经有了一些经典方法,而在相似性度量方面的研究较少。然而,在跨媒体检索方法中,相似性度量对于结果的影响很大,使用有效的相似性度量方法,能够很大程度上改善检索结果。在跨媒体相似性度量的相关研究中,无论是通过距离计算还是k近邻分类器,现有的方法都只考虑到整体信息,并未考虑到从更细粒度的层面进行相似性度量。但跨媒体数据间的关联并不很严格。比如一段文本中,可能仅有一两句话提到图像的内容;一段音频中的声音,可能只是图像上某一个物体发出的。这种较细粒度下才能被有效利用的关联,限制了上述已有相似性度量方法的效果。
技术实现思路
针对现有技术的不足,本专利技术提出了一种基于局部关联图的跨媒体相似性度量方法和跨媒体检索方法,根据现有统一特征表示学习方法得到映射矩阵之后,能够先对媒体数据进行分割得到局部分块,分别得到整体数据和局部数据映射后的特征表示。在相似性度量过程中,使用局部信息更加细化地挖掘跨媒体数据间的关联,使用整体信息有效屏蔽局部信息带来的一些噪声。本专利技术统一考虑了整体数据与局部数据的相似性,从而得到更加准确有效的相似性度量。为达到以上目的,本专利技术采用的技术方案如下:一种基于局部关联图的跨媒体相似性度量方法,用于在现有跨媒体统一特征表示方法的基础上,同时利用数据的整体信息和局部信息,度量跨媒体数据的相似性,包括以下步骤:(1)建立包含多种媒体类型的跨媒体数据集,对跨媒体数据集中所有数据进行分块处理,在得到局部分块的同时保留其整体数据;(2)对跨媒体数据集中每种媒体类型的整体数据和局部分块,都提取其特征向量;(3)通过整体数据,利用跨媒体统一特征表示方法为不同媒体类型学习得到统一特征映射矩阵;(4)根据统一特征映射矩阵,将不同媒体类型的整体数据与局部分块都映射到统一空间,在统一空间中构造局部关联图,根据该局部关联图计算媒体数据间的相似性。进一步,上述一种基于局部关联图的跨媒体相似性度量方法,所述步骤(1)中的媒体类型为三种媒体类型:包括文本、图像、音频。进一步,上述一种基于局部关联图的跨媒体相似性度量方法,所述步骤(1)中进行分块处理的方法为:图像使用3×3网格进行固定分块;文本将标点符号作为分隔符,每两个标点符号之间的部分作为一个局部分块;音频按照固定的时间长度进行分割。进一步,上述一种基于局部关联图的跨媒体相似性度量方法,所述步骤(2)中的特征向量具体为:文本数据是提取隐狄雷克雷分布特征向量;图像数据是提取词袋特征向量;音频数据是提取其梅尔频率倒谱系数特征向量。进一步,上述一种基于局部关联图的跨媒体相似性度量方法,所述步骤(3)中的统一特征映射矩阵学习过程,使用的是现有的跨媒体统一特征表示方法,如CCA、CFA等。进一步,上述一种基于局部关联图的跨媒体相似性度量方法,所述步骤(4)中,跨媒体的相似性定义为两个媒体数据属于同一类别的概率。在计算中,本专利技术同时考虑了它们的整体相似性与局部分块相似性,最终的相似性为二者的和。一种跨媒体检索方法,指定一种媒体类型作为查询媒体,另一种媒体类型作为目标媒体,使用查询媒体中的数据,对目标媒体中的数据根据上述方法计算相似性,最终按照相似性从大到小排序输出检索结果。本文档来自技高网...
【技术保护点】
一种基于局部关联图的跨媒体相似性度量方法,包括以下步骤:(1)建立包含多种媒体类型的跨媒体数据集,对跨媒体数据集中的所有数据进行分块处理,在得到局部分块的同时保留其整体数据;(2)对跨媒体数据集中每种媒体类型的整体数据和局部分块,都提取其特征向量;(3)通过整体数据,利用跨媒体统一特征表示方法为不同媒体类型学习得到统一特征映射矩阵;(4)根据统一特征映射矩阵,将不同媒体类型的整体数据与局部分块都映射到统一空间,在统一空间中构造局部关联图,根据该局部关联图计算媒体数据间的相似性。
【技术特征摘要】
1.一种基于局部关联图的跨媒体相似性度量方法,包括以下步骤:
(1)建立包含多种媒体类型的跨媒体数据集,对跨媒体数据集中的所有数据进行分块处
理,在得到局部分块的同时保留其整体数据;
(2)对跨媒体数据集中每种媒体类型的整体数据和局部分块,都提取其特征向量;
(3)通过整体数据,利用跨媒体统一特征表示方法为不同媒体类型学习得到统一特征映
射矩阵;
(4)根据统一特征映射矩阵,将不同媒体类型的整体数据与局部分块都映射到统一空间,
在统一空间中构造局部关联图,根据该局部关联图计算媒体数据间的相似性。
2.如权利要求1所述的方法,其特征在于,步骤(1)所述的多种媒体类型包括三种媒体类
型:图像、文本和音频。
3.如权利要求1所述的方法,其特征在于,步骤(1)中的分块处理的方法为:图像使用3×3
网格进行固定分块;文本将标点符号作为分隔符,每两个标点符号之间的部分作为一个
局部分块;音频按照固定的时间长度进行分割。
4.如权利要求1所述的方法,其特征在于,步骤(2)中的特征向量具体为:文本数据是提
取隐狄雷克雷分布特征向量;图像数据是提取词袋特征向量;音频数据是提取其梅尔频
率倒谱系数特征向量...
【专利技术属性】
技术研发人员:彭宇新,黄鑫,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。