当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于自适应Dropout非负矩阵分解的特征学习模型制造技术

技术编号:15502661 阅读:53 留言:0更新日期:2017-06-03 23:27
一种基于自适应Dropout非负矩阵分解的特征学习模型。本发明专利技术基于对NMF中隐藏特征之间关系的分析,提出一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization),能够主动学习隐藏特征之间的相异度,并将其转化为隐藏特征的数据表示能力。然后在此基础上构造概率函数,并对隐藏特征进行Dropout,从而降低隐藏特征在优化过程中的相互影响,提高隐藏特征的语义独立性。本发明专利技术具有良好的可解释性和泛化性,能够在文本和图像数据上取得明显的性能提升,并能够应用到已有的基于NMF的算法中。此外,本发明专利技术还具有良好的可并行性,可以部署到并行平台上运行,用来处理大规模数据。

A feature learning model based on adaptive Dropout non negative matrix factorization

A feature learning model based on adaptive Dropout non negative matrix factorization. The invention is based on the analysis of the relationship between the hidden features in NMF, presents a model of learning characteristics of non negative matrix factorization based adaptive Dropout (Adaptive Dropout Non negative Matrix Factorization), will take the initiative to learn the hidden features between the dissimilarity, and transformed into the hidden features of data representation ability. Then, the probabilistic function is constructed, and the hidden features are Dropout, thus reducing the mutual influence of the hidden features in the optimization process, and improving the semantic independence of the hidden features. The invention has good interpretability and generalization, and can achieve obvious performance promotion on text and image data, and can be applied to existing NMF based algorithms. In addition, the invention also has good parallelism, and can be deployed on a parallel platform for processing large-scale data.

【技术实现步骤摘要】
一种基于自适应Dropout非负矩阵分解的特征学习模型
本专利技术属于计算机应用
,具体涉及数据挖掘和机器学习,特别是基于自适应Dropout非负矩阵分解的特征学习模型。
技术介绍
随着互联网技术的发展,社交网络的兴起,信息的获取和分享手段越来越便捷,互联网中充斥着大量的文本、图像等非结构化数据。同时,由于数据发布时的随意性、不规范性等问题,数据中存在大量的噪声。即使在经过数据清洗之后,数据也面临着数据稀疏、维度过高等问题。因此,在进行聚类、分类、推荐等任务之前,往往先需要进行特征学习。非负矩阵分解(Non-negativeMatrixFactorization,NMF)是近年来较为流行的多变量分析模型,因其在文本和图像等数据上具有良好的可解释性,在数据挖掘领域有着十分广泛的应用。通过对输入数据矩阵和输出隐藏特征矩阵以及系数矩阵采用非负约束,得到文本和图像的表示,并进行文本聚类和图像恢复[1][2]。而Cai和He等人在此基础上,采用关系图来约束数据在隐含空间中的表示,提高了非负矩阵分解模型在文本聚类中的性能[3]。而在[4]中,作者提出一种关系约束的矩阵分解模型,融合数据间关联关系和数据内容,抽取隐含特征,并在文本分类数据中取得良好效果。Takeuchi等人则将多个非负矩阵共同分解,融合用户记录、用户社交关系和歌曲标签,得到用户和歌曲的统一表示,并进行歌曲推荐[5]。然而,现有的NMF模型相关的研究成果,往往是通过对输入输出矩阵进行变换或对目标函数增加正则化因子来进行的,缺少对隐藏特征之间关系的分析和利用。在实际应用中,由于缺乏领域先验知识和辅助信息,现有的基于NMF的模型中所采用的矩阵变换和正则化因子往往无法构造,或受到数据稀疏、噪声等问题的影响,出现性能下降。Dropout是一种来源于神经网络模型的优化方法,在迭代优化中通过随机选取隐藏特征的子集进行更新来打破隐藏层节点之间的共现关系,从而防止过拟合,提升模型性能[6,7]。从对数据重构的角度来看,NMF具有与浅层神经网络类似的结构,而Zhai等人也已经将Dropout算法应用到了传统的矩阵分解当中[10]。而自适应Dropout算法通过学习隐藏特征之间的关系,来构造新的Dropout概率函数以取代传统的完全随机Dropout函数,从而实现性能的进一步提升[8,9]。因此,本专利技术采用来自于神经网络中的Dropout方法[6,7],通过学习和利用隐藏特征之间的关系,从一个全新的角度来提升NMF模型的性能,使数据的隐藏特征表示具有更好的可解释性。
技术实现思路
本专利技术目的是解决现有NMF模型中存在的隐藏特征语义模糊和语义重叠的问题,提供一种基于自适应Dropout非负矩阵分解的特征学习模型。本专利技术采用自适应Dropout算法[6,7,8]来对NMF模型进行改进,并提出基于自适应Dropout非负矩阵分解的特征学习模型(AdaptiveDropoutNon-negativeMatrixFactorization),简称ADNMF模型,通过学习隐藏特征之间的相异度关系,使隐藏特征在语义上更加独立,从而改善样本在隐藏特征空间中的表示。本专利技术将自适应Dropout算法应用到NMF模型中,显式地衡量隐藏特征在语义上的相关性,构造新的Dropout概率函数,提高隐藏特征的语义独立性,改善样本的特征表示。同时,本专利技术提出的算法具有很高的可并行性,能够部署到并行系统上,用以处理大规模数据。实验表明,本专利技术提出的算法在文本和图像数据的聚类任务上,均能明显的性能提升。本专利技术技术方案一种基于自适应Dropout非负矩阵分解的特征学习模型(ADNMF模型)。ADNMF模型包括:1):采用矩阵来表示输入数据中的所有样本和特征;所述数据包括文本、图像或网络数据;对输入的数据集,根据数据类型进行不同的预处理,构建样本的特征表示矩阵,作为ADNMF模型的输入。本专利技术可以应用到文本、图像、网络等多种数据处理任务中,在进行ADNMF建模之前,需要对数据进行预处理和格式化表示,具体如下:1.1)、数据预处理。数据预处理是指对数据进行特征抽取,并将所有的样本表示成相同维度的向量。因此,对文本数据,需要进行分词和词汇统计,再使用词频或tfidf算法得到每一篇文本在相同的字典空间中的向量表示。而对于图像数据,需要对图片进行剪切、拉伸和缩放处理,使图片具有相同的维度,然后可以采取灰度值或RGB值来将图片表示成相同维度的特征向量——作为图片的特征表示。而在网络数据处理任务中,则需要统计网络中包含的节点数量和节点之间的连接权重,得到每个节点的基于连接权重的表示。最后,对所有样本的特征表示进行非负处理,筛选出符合非负性要求的特征。1.2)、数据格式化。在数据预处理之后,需要将数据表示成矩阵,作为ADNMF模型的输入。因此,所有样本的特征表示将进一步格式化为相同维度的向量,向量的每一维表示样本在对应特维度上的权值,并将所有样本的特征向量组合为特征表示矩阵,矩阵的每一行表示一维特征,每一列表示一个样本。2):基于所述的特征表示矩阵,建立ADNMF模型的优化目标,设计合理的求解算法——采用自适应Dropout算法学习特征之间的关系,并进行优化求解,得到样本的隐藏特征表示,作为模型的输出;所述ADNMF模型的优化目标包括3个方面:(1)最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失;(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性;(3)保持输出矩阵的非负性,使得到的样本的隐藏特征表示具有较好的可解释性;所述ADNMF模型优化目标的求解算法应当满足三个基本条件:(1)算法能够在可接受的时间内收敛,(2)算法对存储空间的需求要控制在合理范围内,(3)算法能够并行执行,以提高计算效率。2.1):所述的目标函数求解算法为自适应Dropout算法,具体处理过程是;在迭代优化过程中,自适应Dropout算法根据隐藏特征的语义表达能力来进行Dropout,而每个隐藏特征的语义表达能力被形式化为该隐藏特征本身与所有其他隐藏特征之间的语义相异度。首先计算所有隐藏特征两两之间的相异度,得到隐藏特征相异度矩阵。其次对相异度矩阵的每一行进行线性融合(参数将在ADNMF算法中进行优化求解),得到对应隐藏特征的语义表达能力。然后采用Sigmoid函数将隐藏特征的语义表达能力转化为隐藏特征在迭代优化过程中,经过Dropout过程后被保留的概率。最后求每个隐藏特征在优化过程中被保留的概率的期望值,作为隐藏特征在目标函数中的权值直接进行模型优化求解,从而降低所需的迭代次数。2.2):所述的求解样本的隐藏特征表示的方法(ADNMF算法)如下:本项目提出一种基于梯度下降的ADNMF迭代优化算法,能够有效的求解ADNMF模型的目标函数,得到样本的隐藏特征表示。ADNMF模型需要优化求解的参数包括:隐藏特征矩阵、系数矩阵以及隐藏特征相异度的线性融合参数矩阵。在每次迭代过程中:首先采用所述的自适应Dropout算法,计算隐藏特征在Dropout之后被保留的概率期望值;然后按步骤分别计算目标函数的各个部分对隐藏特征矩阵、系数矩阵和线性融合参数矩阵的梯度;最后将梯度矩阵中的正值和负值加以区分,据此分别对隐藏特本文档来自技高网
...
一种基于自适应Dropout非负矩阵分解的特征学习模型

【技术保护点】
一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization),简称ADNMF模型,其特征在于所述ADNMF模型主要包括:1):采用矩阵来表示输入数据中的所有样本和特征;所述数据包括文本、图像或网络数据;对输入的数据集,根据数据类型进行不同的预处理,构建样本的特征表示矩阵,作为ADNMF模型的输入;2):基于特征表示矩阵,建立ADNMF模型的优化目标,采用自适应Dropout算法学习特征之间的关系,并进行优化求解,得到样本的隐藏特征表示,作为模型的输出;所述ADNMF模型的优化目标包括3个方面:(1)能够最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失;(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性;(3)保证输出矩阵的非负特性,使得到的样本的隐藏特征表示具有较好的可解释性;所述ADNMF模型优化目标的求解算法应当满足三个基本条件:(1)算法能够在可接受的时间内收敛,(2)算法对存储空间的需求要控制在合理范围内,(3)算法能够并行执行,以提高计算效率。

【技术特征摘要】
1.一种基于自适应Dropout非负矩阵分解的特征学习模型(AdaptiveDropoutNon-negativeMatrixFactorization),简称ADNMF模型,其特征在于所述ADNMF模型主要包括:1):采用矩阵来表示输入数据中的所有样本和特征;所述数据包括文本、图像或网络数据;对输入的数据集,根据数据类型进行不同的预处理,构建样本的特征表示矩阵,作为ADNMF模型的输入;2):基于特征表示矩阵,建立ADNMF模型的优化目标,采用自适应Dropout算法学习特征之间的关系,并进行优化求解,得到样本的隐藏特征表示,作为模型的输出;所述ADNMF模型的优化目标包括3个方面:(1)能够最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失;(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性;(3)保证输出矩阵的非负特性,使得到的样本的隐藏特征表示具有较好的可解释性;所述ADNMF模型优化目标的求解算法应当满足三个基本条件:(1)算法能够在可接受的时间内收敛,(2)算法对存储空间的需求要控制在合理范围内,(3)算法能够并行执行,以提高计算效率。2.根据权利要求1所述的基于自适应Dropout非负矩阵分解的特征学习模型,其特征在于1)中所述的根据数据类型建立不同的特征表示矩阵包括:1.1)、数据预处理指对数据进行特征抽取,将样本表示成相同维度的向量;对文本数据,需要进行分词和词汇统计,再使用词频或tfidf算法得到每一篇文本在相同的字典空间中的向量表示;对于图像数据,需要对图片进行剪切、拉伸和缩放处理,使图片具有相同的维度,然后采取灰度值或RGB值来将图片表示成相同维度的特征向量;对于网络数据,需要统计网络中包含的节点数量和节点之间的连接权重,得到每个节点的基于连接权重的表示;最后,对所有样本的特征表示进行非负处理,筛选出符合非负性要求的特征;1.2)、数据格式化;在数据预处理之后,需要将数据表示成矩阵,作为ADNMF模型的输入...

【专利技术属性】
技术研发人员:刘杰何志成刘才华王嫄
申请(专利权)人:南开大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1