本申请公开基于多源异构特征的无监督表示学习方法及装置,包括:提取和集成多源异构数据,设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;对第一编码结果和第二编码结果进行处理得到描述实例的多源异构融合特征;基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。本申请基于无监督条件下,实现了实例级别的判别性表示学习;并且提供了更多的训练数据和更好的网络结构。和更好的网络结构。和更好的网络结构。
【技术实现步骤摘要】
基于多源异构特征的无监督表示学习方法及装置
[0001]本申请涉及无监督表示学习和大数据分析
,尤其涉及基于多源异构特征的无监督表示学习方法及装置。
技术介绍
[0002]在实际生活中,学习一个复杂概念时,总想有一条捷径可以化繁为简。机器学习模型也不例外,如果有经过提炼的对于原始数据的更好表达,往往可以使得后续任务事倍功半。这也是表示学习的基本思路,即找到对于原始数据更好的表达,以方便后续任务(比如分类),这具有重要的现实意义。
[0003]大多数成功的表示学习模型都是通过监督学习来训练的,监督学习需要为特定的任务完全标注的大型数据集。然而,现实场景中,获取带标注的数据通常是非常昂贵的,甚至是不可行的。所以如何通过纯粹的判别性学习(无监督表示学习)来学习反映实例间明显相似性的有意义度量对于企业来说非常重要,这样不但可以节省企业为获取大量标注数据所耗费的昂贵成本,而且还可以提高工作效率。
[0004]另外,现有的表示学习研究中,不论是无监督表示学习,抑或是有监督表示学习,大部分都学习一个好的特征表示,以捕获类别之间的明显相似性,而不是实例,因为实例上的相似性计算成本大且困难。而且描述实例的特征来源多样且结构多样,面对多源异构的数据特征,如何将类特征表示学习推向实例特征表示的极端,进而通过判别性的无监督学习来学习实例级别的特征表示是当前表示学习的难点。
技术实现思路
[0005]本申请提供基于多源异构特征的无监督表示学习方法及装置,以解决现有技术中监督学习成本过高、实例相似性计算成本大且困难的问题。
[0006]为解决上述技术问题,本申请提出一种基于多源异构特征的无监督表示学习方法,包括:提取和集成多源异构数据,其中,多源异构数据包括结构化数据和非结构化数据;设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;对第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。
[0007]可选地,设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果,包括:对多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的第一编码器,对多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
[0008]可选地,设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结
构化数据进行编码,得到第二编码结果,包括:对多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的第二编码器,对多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
[0009]可选地,基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量,包括:自定义用于表示学习的DNN 网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
[0010]为解决上述技术问题,本申请提出一种基于多源异构特征的无监督表示学习装置,包括:提取模块,用于提取和集成多源异构数据,其中,多源异构数据包括结构化数据和非结构化数据;第一编码器模块,用于设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;第二编码器模块,用于设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;处理模块,用于对第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;向量模块,用于基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;任务模块,用于利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。
[0011]可选地,第一编码器模块还用于:对多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的第一编码器,对多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
[0012]可选地,第二编码器模块还用于:对多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的第二编码器,对多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
[0013]可选地,向量模块还用于:自定义用于表示学习的DNN网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
[0014]为解决上述技术问题,本申请提出一种电子设备,包括存储器和处理器,存储器连接处理器,存储器存储有计算机程序,计算机程序被处理器执行时实现上述的基于多源异构特征的无监督表示学习方法。
[0015]为解决上述技术问题,本申请提出一种计算机可读存储介质,存储有计算机程序,计算机程序被执行时实现上述的基于多源异构特征的无监督表示学习方法。
[0016]本申请与现有技术相比,具有如下优点和有益效果:
[0017]1、基于无监督条件下,实现了实例级别的判别性表示学习,而且在特定场景中性能与效果上都优于现有的方法,并且提供了更多的训练数据和更好的网络结构;
[0018]2、区别于现有的方法通常以单一化的数据特征进行实例特征表示学习的方式,本申请的方法考虑了关于实例的异构多源数据特征进行表示学习,基于多种来源和结构的特征对实例进行更全面的表示,并且得益于无监督属性,本方法更加高效,且节省了大量人力成本(标注成本)。
[0019]3、非参数softmax消除了在训练表示学习模型计算和存储梯度的需求,使得它对于大数据应用程序更具可伸缩性。
附图说明
[0020]为了更清楚地说明本申请的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请基于多源异构特征的无监督表示学习方法一实施本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多源异构特征的无监督表示学习方法,其特征在于,包括:提取和集成多源异构数据,其中,所述多源异构数据包括结构化数据和非结构化数据;设计并训练结构化数据特征的第一编码器,并利用所述第一编码器对所述结构化数据进行编码,得到第一编码结果;设计并训练非结构化数据特征的第二编码器,并利用所述第二编码器对所述非结构化数据进行编码,得到第二编码结果;对所述第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;基于所述多源异构融合特征,设计DNN网络,并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量;利用所述特征表示向量进行实例间的相似度匹配,分类和聚类的任务。2.根据权利要求1所述的基于多源异构特征的无监督表示学习方法,其特征在于,所述设计并训练结构化数据特征的第一编码器,并利用所述第一编码器对所述结构化数据进行编码,得到第一编码结果,包括:对所述多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的所述第一编码器,对所述多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。3.根据权利要求1所述的基于多源异构特征的无监督表示学习方法,其特征在于,所述设计并训练非结构化数据特征的第二编码器,并利用所述第二编码器对所述非结构化数据进行编码,得到第二编码结果,包括:对所述多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的所述第二编码器,对所述多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。4.根据权利要求1所述的基于多源异构特征的无监督表示学习方法,其特征在于,所述基于所述多源异构融合特征,设计DNN网络,并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量,包括:自定义用于表示学习的DNN网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。5.一种基于多源异构特征的无监督表示学习装置,其特征在于,包括:提取模块,用于提取和集成多源异构数据,其中,所述多源异构数据包括结构...
【专利技术属性】
技术研发人员:林木兴,丁明,徐洪亮,林晓辉,许洁斌,
申请(专利权)人:广州市玄武无线科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。