一种针对多源异构数据的异源间相似性度量方法技术

技术编号:14008001 阅读:518 留言:0更新日期:2016-11-17 06:15
本发明专利技术涉及一种针对多源异构数据的异源间相似性度量方法。该方法利用多源异构数据间的语义互补性,基于子空间学习方法,根据马氏距离度量和伪度量约束,将多源异构数据线性投影到一个特征同构空间,消除了异源间的特征异构性,实现了异源间的相似度对比,并在这个空间中充分嵌入异源间的互补信息。本发明专利技术对包括多源检索,聚类和分类这样的现实应用有着十分重要的意义。

【技术实现步骤摘要】

本专利技术属于信息
,针对海量多源异构数据环境下的相似度量问题,提出了一种多源异构大数据的异源间相似性度量方法。
技术介绍
现实世界中广泛存在着大量的多源异构数据。一般说来,多源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同模态、不同视角和不同背景等多种样式出现的数据。例如,在一张介绍“老虎”的网页中,采用了图像和音频两种模态共同表达“老虎”的概念。在特征层面上,从网页图像中提取的100维视觉特征向量,以及从音频中提取的50维听觉特征向量,共同表达了“老虎”的语义。前者从色彩,纹理和形状等特征层面描述了老虎的视觉画面,后者从时域或频率等特征层面描述了老虎的听觉信息。尽管这两个不同维数的特征向量共同表达了老虎的语义信息,但是由于特征异构性问题(参考文献:Chitra Dorai,Svetha Venkatesh.Computational Media Aestheties:Finding Meaning Beautiful.IEEE Multimedia,2001,8(4):10-12.),很难在底层特征上度量出两者间的相关性。所以,多源学习面临的第一道屏障正是不同来源的异构数据在底层特征上的相关性度量问题。因此,近年来,国内外的研究人员提出了一种基于投影的共享子空间方法以解决多源学习中的相关性度量问题。基于投影的共享子空间学习方法利用特征映射提取多个模态间共享的潜在子空间。此类方法分为线性投影和非线性投影两类。比较经典的线性投影方法主要包括:典型相关分析法(Canonical Correlation Analysis,CCA)(参考文献:Harold Hotelling.Relations between Two Sets of Variates.Biometrika,1936,28(3/4):321-377.)和偏最小二乘法(Partial Least Squares,PLS)(参考文献:Herman Wold.Partial Least Squares.Encyclopedia of Statistical Sciences,Wiley Online Library,2006.);而主流的非线性投影方法主要涉及:核典型相关分析法(Kernel Canonical Correlation Analysis,KCCA)(参考文献:David R.Hardoon,Sándor Szedmák,John Shawe-Taylor.Canonical Correlation Analysis:an Overview with Application to Learning Methods.Neural Computation,2004,16(12):2639-2664.)和深度典型相关分析法(Deep Canonical Correlation Analysis,DCCA)(参考文献:Galen Andrew,Raman Arora,Jeff Bilmes,Karen Livescu.Deep Canonical Correlation Analysis.Proc.ACM.International Conference on Machine Learning,2013,pp.1247-1255.)。CCA是一种比较经典的研究同一对象异源描述间相关性的有效算法。它会将异源数据线性投影到一个低维空间,并在这个空间中最大化异源数据间的相关性。CCA借助于主成分分析的思想,将每一组变量作为一个整体进行研究而不是分析每一组变量内部的各个变量。对每一组变量分别寻找线性组合,使生成的新综合变量能够代表原始变量的大部分信息,同时,与由另一组变量生成的新综合变量的相关程度最大。PLS是一种多因变量对多自变量的回归建模方法。特别是当各变量集合内部存在较高程度的相关性时,用偏最小二乘法进行回归建模分析,对比逐个因变量进行多元回归更加有效,其结论更加可靠,整体性更强。PLS是一种综合了主成分分析(Principal Component Analysis,PCA)和CCA的算法,该算法既具有典型相关分析的相关性分析能力,同时还具备主成分分析保持数据变化信息的能力。因此,在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究,提供更丰富、更深入的信息。KCCA是CCA方法在核空间上的非线性推广,它通过隐式非线性地将数据投影到一个高维特征空间,为CCA提供了一种可替代的解决方法。尽管KCCA能够学习高维非线性变换,但是也存在产生的非线性变换易受选择的核函数约束的缺陷。此外,KCCA还是一种非参数化的方法,所以它的计算复杂度的伸缩性很差。Andrew等人提出的DCCA方法通过深度网络可以灵活地学习两个相关源之间的非线性变换。DCCA同时学习两个来源的最大相关深度非线性映射,在学习过程中,每个来源对应一个深度网络,通过多层非线性变换,使输出层最大相关。不同于KCCA,DCCA并不需要内积,从而为KCCA提供了一种非线性替代。此外,DCCA作为一种参数模型,无需参考训练集就可计算未知数据点的描述。但是,DCCA也存在学习过程中需要设置大量参数且学习时间长的缺陷。表1总结了上述方法的特性。表1.基于投影的共享子空间学习方法的性能对比
技术实现思路
本专利技术的具体目的是针对多源异构数据的底层特征异构问题,提供一种多源异构大数据的异源间相似性度量方法。本专利技术提供了一种多源异构数据的异源度量方法。具体的技术方案为:这个方法由一个异源度量学习(Heterogeneous Source Metric Learning,HSML)模型组成。如图1所示,多源异构数据由源SX和源SY组成。HSML模型利用已有的多源异构数据X和Y,学习一组优良异源度量,具体步骤为:1)利用多源异构数据间的语义互补性,基于子空间学习方法,学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量;2)利用学习到的异源度量(异源间的线性度量),将多源异构数据线性投影到一个低维特征同构空间;3)在低维特征同构空间中,将目标对象(即相关的异源异构近邻)拉入邻域边缘,并且将噪声点推出邻域边缘,从而消除异源间的特征异构性;4)将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在低维特征同构空间中充分嵌入异源间的互补信息。本专利技术提供的异源度量学习HSML模型利用已有的多源异构数据(dx为来源SX的维度,dy为来源SY的维度,n为样本的数量),利用多源异构数据间的语义互补性,学习多个异源度量(如两个异源度量A和B),将多源异构数据线性投影到一个低维特征同构空间,消除异源间的特征异构性,同时将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在这个空间中充分嵌入异源间的互补信息。该方法首先定义了一组马氏距离度量:其中,为来源SX中的第i个样本,为来源SY中的第j个样本。HSML方法的优化模型如下:其中,k≥min(dx,dy)为特征同构子空间的维度,fA,B(·)为边缘函数,gA,B(·)为相关性度量函数。HLML方法利用半正定约束和确保模型Ψ1能够学习到多个良好定义的伪度量(即异源度量A本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610439325.html" title="一种针对多源异构数据的异源间相似性度量方法原文来自X技术">针对多源异构数据的异源间相似性度量方法</a>

【技术保护点】
一种多源异构大数据的异源间相似性度量方法,其特征在于,包括以下步骤:1)利用多源异构数据间的语义互补性,基于子空间学习方法,学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量;2)利用学习到的异源度量,将多源异构数据线性投影到一个低维特征同构空间;3)在低维特征同构空间中,将目标对象即相关的异源异构近邻拉入邻域边缘,并且将噪声点推出临域边缘,从而消除异源间的特征异构性;4)将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在低维特征同构空间中充分嵌入异源间的互补信息。

【技术特征摘要】
1.一种多源异构大数据的异源间相似性度量方法,其特征在于,包括以下步骤:1)利用多源异构数据间的语义互补性,基于子空间学习方法,学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量;2)利用学习到的异源度量,将多源异构数据线性投影到一个低维特征同构空间;3)在低维特征同构空间中,将目标对象即相关的异源异构近邻拉入邻域边缘,并且将噪声点推出临域边缘,从而消除异源间的特征异构性;4)将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在低维特征同构空间中充分嵌入异源间的互补信息。2.如权利要求1所述的方法,其特征在于,采用如下的优化模型:其中,k≥min(dx,dy)为特征同...

【专利技术属性】
技术研发人员:张磊王树鹏云晓春张晓宇
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1