本发明专利技术涉及一种多源异构大数据的腐蚀源联合去噪方法。该方法包括两个模型,一个为异构线性度量学习(HLML)模型,另一个为多源半监督联合去噪(MSCD)模型。其中,通过学习多个异构线性度量,HLML模型将多源异构数据线性投影到一个高维特征同构空间,并在这个空间中充分嵌入异源间的互补信息,从而可以有效地捕捉到不同来源间的语义互补性和分布相似性。为了消除源内和源间噪声,MSCD模型利用初等变换约束和梯度能量竞争策略,在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系,进而净化多源异构数据的腐蚀源,有助于获得准确且鲁棒的多源数据评估分析结果。
【技术实现步骤摘要】
一种多源异构大数据的腐蚀源联合去噪方法
本专利技术属于信息
,针对海量多源异构腐蚀数据环境下的源内噪声和源间噪声问题,提出了一种多源异构大数据的腐蚀源联合去噪方法。
技术介绍
近年来,随着大量高技术数码产品的出现,由这些异源电子设备产生的多源异构数据(Multi-sourceHeterogeneousData)己经遍布到人们现实生活的各个角落。所谓多源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同模态、不同视角和不同背景等多种样式出现的数据。例如,新浪微博、腾讯微信和搜狐网站关于相同的新闻的不同形式的报道;老年痴呆症(Alzheimer)患者的大脑可以由核磁共振(MRI)、正电子成像技术(PET)和X光产生多种不同视角的医学成像;Wikipedia网站上对花豹的描述采用了图片、文本和语音等不同模态的媒介;相同的建筑物白宫可以处在不同的背景之下。然而,由于人为错误等原因,在现实世界中,某些多源数据受到噪声的腐蚀,并不是现实事物的真实反映。因此,国内外的研究人员提出了一些多源数据的腐蚀源去噪方法,借助辅助源的数据信息,完成主源噪声的消除。Zhang等人寻求通过联合去除不同来源中的噪声,修复所有的针孔成像图片。他们提出了一种多源图片去噪(Depth-GuidedMulti-ViewImageDenoising,DGMVID)方法,借助于主成分分析(PrincipalComponentAnalysis,PCA)思想,利用多源图片间的深度估计(DepthEstimation)去除多源数据中的噪声。Zhang等人发现将多源图片用于噪声去除具有独特的优势:一张图片和其它图片的像素间的对应关系取决于其单一深度图。这一点和视频去噪形成鲜明地对比。在视频去噪中,帧间运动通常具有更大的自由度。Zhang等人正是利用这一点,在多源图片去噪中,寻找相似图片块(SimilarImagePatches)。DGMVID方法包含联合多源图片匹配(JointMulti-ViewPatchMatching,JMVPM)和联合多源图片去噪(JointMulti-ViewPatchDenoising,JMVPD)两个部分。其中,JMVPM借助多源图片间的相关性,使用深度估计度量不同来源的图片中对应像素块的相似度,并根据相似度的大小,将相似图片块分组到一起。而JMVPD为了去除信号相关噪声(Signal-DependentNoise),利用PCA和张量分析(TensorAnalysis),在微光(Low-Light)条件下,消除光子噪声(PhotonNoise)。(参考文献:LiZhang,SundeepVaddadi,HailinJin,ShreeK.Nayar.Multipleviewimagedenoising.IEEEInternationalConferenceonComputerVisionandPatternRecognition2009:1542-1549.)在音频去噪中,噪声往往夹杂在背景中,即没有其它可见来源的噪声数据。由于干扰音频来源的噪声多为复合噪声源(例如,背景音乐),往往不稳定且无法直接观测,所以去除单一来源的音频数据的噪声是相当困难的。针对这一问题,Segev等人提出了一种基于样本的跨来源去噪(Example-basedCross-ModalDenoising,ECMD)方法,通过不同来源间的关联性,借助无噪的视频来源信息,消除有噪的音频来源中的噪声。ECMD方法假设“已经看到且听到的事物,如果能再一次见到该事物,那么就能再一次听清楚它”。根据该假设,ECMD方法利用先验知识的一致性(ConsistencywithPriorKnowledge),首先学习跨来源间的相关性。然后,基于学习到的相关性和来自于无噪来源(视频)的无腐蚀训练样本,协助去除音频来源的噪声。例如,任何智能手机都具有麦克风和摄像头。由于无噪的视频数据相对更容易获得,所以若干无噪环境下的视频通话就可以建立一个无腐蚀的样本库。而某些通话是在嘈杂环境下(例如,火车站、酒吧、商场)完成的。于是,便可利用无噪的视频样本集去除音频数据的噪声。(参考文献:DanaSegev,YoavY.Schechner,MichaelElad.Example-basedcross-modaldenoising.IEEEInternationalConferenceonComputerVisionandPatternRecognition2012:486-493.)Lee等人提出了一种概率深度诱导多源去噪(ProbabilisticDepth-guidedMulti-viewDenoising,PDMD)算法。该方法将多源图片去噪问题转化为有噪环境下深度估计中的不确定性问题,利用非局部近邻的几何分布和块相似性,近似深度估计的概率,并基于这些概率平均非局部近邻,完成最小均方差(MinimumMeanSquareError,MMSE)去噪。(参考文献:ChulLee,Chang-SuKim,Sang-UkLee.Probabilisticdepth-guidedmulti-viewimagedenoising.IEEEInternationalConferenceonImageProcessing2013:905-908.)上述这些方法的缺陷在于,它们都只能用来处理特定来源的噪声(例如,图片或者语音),而无法解决其它形式的多源数据中的噪声问题。近来,在机器学习和数据挖掘领域,知识迁移(KnowledgeTransfer)技术越来越受到国内外研究人员的青睐。Quanz等人便利用知识迁移技术,提出了一种基于稀疏编码(SparseCoding)的特征提取(KnowledgeTransferwithLow-QualityData,KTLQD)方法,借助高质量的辅助有标签数据源的信息,预测主源无标签数据的类别,并提高主源低质数据的性能。然而,KTLQD方法的缺陷在于,它无法处理异构数据。(参考文献:BrianQuanz,JunHuan,MeenakshiMishra.KnowledgeTransferwithLow-QualityData:AFeatureExtractionIssue.IEEETransactionsonKnowledgeandDataEngineering24(10):1789-1802(2012).)表1总结了上述多源数据噪声去除方法的不足。表1.已有的多源数据噪声去除方法的不足
技术实现思路
在现实情况下,由于不正确的数据处理、人为错误和硬件故障等原因,并不是所有的样本描述都是客观现实的正确反映,从而导致多源异构数据的腐蚀源的存在。这些噪声会极大地降低多源异构数据的性能,进而导致错误的分类、聚类、检索和分析结果。然而,多源异构数据的腐蚀源问题完全不同于单源学习中的噪声数据问题。其原因在于多源数据往往受到两种不同类型的噪声的腐蚀。一种指的是源内噪声,这种噪声会使同源内的异类样本成为近邻。另一种指的是源间噪声,这种噪声会破坏同一对象异源描述间的互补关系。如图1所示,源内噪声的存在导致斑马的图片被错误地和老虎的图片归为一类;而由人为错误造成本文档来自技高网...
【技术保护点】
一种多源异构大数据的腐蚀源联合去噪方法,其步骤包括:1)通过学习多个异构线性度量,将多源异构数据线性投影到一个高维特征同构空间,并在这个空间中充分嵌入异源间的互补信息,以有效地捕捉到不同来源间的语义互补性和分布相似性;2)利用异源间的分布相似性,将腐蚀数据线性投影到所述高维特征同构空间中,以消除多源腐蚀数据中的源内噪声,并通过基于梯度能量竞争策略的初等变换约束,修复多源腐蚀数据的异构描述间的互补关系;所述初等变换约束根据异源间的语义互补性,交换腐蚀矩阵中相应描述的位置,以消除多源腐蚀数据中的源间噪声。
【技术特征摘要】
1.一种多源异构大数据的腐蚀源联合去噪方法,其步骤包括:1)通过学习多个异构线性度量,将多源异构数据线性投影到一个高维特征同构空间,并在这个空间中充分嵌入异源间的互补信息,以有效地捕捉到不同来源间的语义互补性和分布相似性;2)利用异源间的分布相似性,将腐蚀数据线性投影到所述高维特征同构空间中,以消除多源腐蚀数据中的源内噪声,并通过基于梯度能量竞争策略的初等变换约束,修复多源腐蚀数据的异构描述间的互补关系;所述初等变换约束根据异源间的语义互补性,交换腐蚀矩阵中相应描述的位置,以消除多源腐蚀数据中的源间噪声;所述步骤1)对不同来源间的语义互补性和分布相似性建立如下优化模型:该优化模型利用已有的多源无腐蚀数据和学习异构线性度量A和B,其中,dx为来源Vx的维度,dy为来源Vy的维度,n1为无腐蚀样本的数量,k≥min(dx,dy)为特征同构子空间的维度,α和β为平衡参数;利用半正定约束ATA≥0和BTB≥0确保模型Ψ1能够学习到多个良好定义的伪度量,目标函数中的第一项用来捕捉不同来源间的语义互补性,而通过在模型Ψ1中引入由不同来源的分类准确率构成的交叉验证g(A,B)以挖掘不同来源间的分布相似性;目标函数中的第三项h(A,B)为基于迹范数的低秩正规化项,用以使变换后的数据MU=XUA和RU=YUB携带更多的类间差异信息;所述步骤2)建立如下优化模型:其中,和为初等行变换矩阵,为决策矩阵,为XU和YU的标签矩阵,m为标签数量,为一组初等行变换矩阵的集合,γ和τ为平衡参数;在模型Ω1中,目标函数中的第一项利用学习到的T、H和W,修复多源腐蚀数据间的互补关系;目标函数中的第...
【专利技术属性】
技术研发人员:张磊,王树鹏,云晓春,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。