基于多源异构特征的无监督表示学习方法及装置制造方法及图纸

技术编号：32779601 阅读：68 留言：0更新日期：2022-03-23 19:37

本申请公开基于多源异构特征的无监督表示学习方法及装置，包括：提取和集成多源异构数据，设计并训练结构化数据特征的第一编码器，并利用第一编码器对结构化数据进行编码，得到第一编码结果；设计并训练非结构化数据特征的第二编码器，并利用第二编码器对非结构化数据进行编码，得到第二编码结果；对第一编码结果和第二编码结果进行处理得到描述实例的多源异构融合特征；基于多源异构融合特征，设计DNN网络，并训练得到多源异构融合特征投影到多维的空间的特征表示向量；利用特征表示向量进行实例间的相似度匹配，分类和聚类的任务。本申请基于无监督条件下，实现了实例级别的判别性表示学习；并且提供了更多的训练数据和更好的网络结构。和更好的网络结构。和更好的网络结构。

全部详细技术资料下载

【技术实现步骤摘要】
基于多源异构特征的无监督表示学习方法及装置

[0001]本申请涉及无监督表示学习和大数据分析
，尤其涉及基于多源异构特征的无监督表示学习方法及装置。

技术介绍

[0002]在实际生活中，学习一个复杂概念时，总想有一条捷径可以化繁为简。机器学习模型也不例外，如果有经过提炼的对于原始数据的更好表达，往往可以使得后续任务事倍功半。这也是表示学习的基本思路，即找到对于原始数据更好的表达，以方便后续任务(比如分类)，这具有重要的现实意义。
[0003]大多数成功的表示学习模型都是通过监督学习来训练的，监督学习需要为特定的任务完全标注的大型数据集。然而，现实场景中，获取带标注的数据通常是非常昂贵的，甚至是不可行的。所以如何通过纯粹的判别性学习(无监督表示学习)来学习反映实例间明显相似性的有意义度量对于企业来说非常重要，这样不但可以节省企业为获取大量标注数据所耗费的昂贵成本，而且还可以提高工作效率。
[0004]另外，现有的表示学习研究中，不论是无监督表示学习，抑或是有监督表示学习，大部分都学习一个好的特征表示，以捕获类别之间的明显相似性，而不是实例，因为实例上的相似性计算成本大且困难。而且描述实例的特征来源多样且结构多样，面对多源异构的数据特征，如何将类特征表示学习推向实例特征表示的极端，进而通过判别性的无监督学习来学习实例级别的特征表示是当前表示学习的难点。

技术实现思路

[0005]本申请提供基于多源异构特征的无监督表示学习方法及装置，以解决现有技术中监督学习成本过高、实例相似性计算成本...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构特征的无监督表示学习方法，其特征在于，包括：提取和集成多源异构数据，其中，所述多源异构数据包括结构化数据和非结构化数据；设计并训练结构化数据特征的第一编码器，并利用所述第一编码器对所述结构化数据进行编码，得到第一编码结果；设计并训练非结构化数据特征的第二编码器，并利用所述第二编码器对所述非结构化数据进行编码，得到第二编码结果；对所述第一编码结果和第二编码结果进行处理，得到用于描述实例的多源异构融合特征；基于所述多源异构融合特征，设计DNN网络，并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量；利用所述特征表示向量进行实例间的相似度匹配，分类和聚类的任务。2.根据权利要求1所述的基于多源异构特征的无监督表示学习方法，其特征在于，所述设计并训练结构化数据特征的第一编码器，并利用所述第一编码器对所述结构化数据进行编码，得到第一编码结果，包括：对所述多源异构数据进行抽样，以抽样数据为训练集训练结构化特征的第一编码器；基于已训练的所述第一编码器，对所述多源异构数据中的结构化数据进行推理，得到编码后的第一编码结果。3.根据权利要求1所述的基于多源异构特征的无监督表示学习方法，其特征在于，所述设计并训练非结构化数据特征的第二编码器，并利用所述第二编码器对所述非结构化数据进行编码，得到第二编码结果，包括：对所述多源异构数据进行抽样，以抽样数据为训练集训练非结构化特征的第二编码器；基于已训练的所述第二编码器，对所述多源异构数据中的非结构化数据进行推理，得到编码后的第二编码结果。4.根据权利要求1所述的基于多源异构特征的无监督表示学习方法，其特征在于，所述基于所述多源异构融合特征，设计DNN网络，并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量，包括：自定义用于表示学习的DNN网络；通过将网络中的softmax替换成非参数softmax，将无监督学习表述为实例级判别的方法，通过非参数方法将实例级别的判别描述为一个度量学习问题，其中实例之间的距离是直接从特征以非参数的方式计算出来的；对问题进行自适应处理，将多类分类问题转化为一组二值分类问题，通过噪声对比估计来近似softmax计算；基于多源异构融合特征训练DNN，以得到其最优的特征表示向量。5.一种基于多源异构特征的无监督表示学习装置，其特征在于，包括：提取模块，用于提取和集成多源异构数据，其中，所述多源异构数据包括结构...

【专利技术属性】
技术研发人员：林木兴，丁明，徐洪亮，林晓辉，许洁斌，
申请(专利权)人：广州市玄武无线科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人