A feature learning model based on adaptive Dropout non negative matrix factorization. The invention is based on the analysis of the relationship between the hidden features in NMF, presents a model of learning characteristics of non negative matrix factorization based adaptive Dropout (Adaptive Dropout Non negative Matrix Factorization), will take the initiative to learn the hidden features between the dissimilarity, and transformed into the hidden features of data representation ability. Then, the probabilistic function is constructed, and the hidden features are Dropout, thus reducing the mutual influence of the hidden features in the optimization process, and improving the semantic independence of the hidden features. The invention has good interpretability and generalization, and can achieve obvious performance promotion on text and image data, and can be applied to existing NMF based algorithms. In addition, the invention also has good parallelism, and can be deployed on a parallel platform for processing large-scale data.
【技术实现步骤摘要】
一种基于自适应Dropout非负矩阵分解的特征学习模型
本专利技术属于计算机应用
,具体涉及数据挖掘和机器学习,特别是基于自适应Dropout非负矩阵分解的特征学习模型。
技术介绍
随着互联网技术的发展,社交网络的兴起,信息的获取和分享手段越来越便捷,互联网中充斥着大量的文本、图像等非结构化数据。同时,由于数据发布时的随意性、不规范性等问题,数据中存在大量的噪声。即使在经过数据清洗之后,数据也面临着数据稀疏、维度过高等问题。因此,在进行聚类、分类、推荐等任务之前,往往先需要进行特征学习。非负矩阵分解(Non-negativeMatrixFactorization,NMF)是近年来较为流行的多变量分析模型,因其在文本和图像等数据上具有良好的可解释性,在数据挖掘领域有着十分广泛的应用。通过对输入数据矩阵和输出隐藏特征矩阵以及系数矩阵采用非负约束,得到文本和图像的表示,并进行文本聚类和图像恢复[1][2]。而Cai和He等人在此基础上,采用关系图来约束数据在隐含空间中的表示,提高了非负矩阵分解模型在文本聚类中的性能[3]。而在[4]中,作者提出一种关系约束的矩阵分解模型,融合数据间关联关系和数据内容,抽取隐含特征,并在文本分类数据中取得良好效果。Takeuchi等人则将多个非负矩阵共同分解,融合用户记录、用户社交关系和歌曲标签,得到用户和歌曲的统一表示,并进行歌曲推荐[5]。然而,现有的NMF模型相关的研究成果,往往是通过对输入输出矩阵进行变换或对目标函数增加正则化因子来进行的,缺少对隐藏特征之间关系的分析和利用。在实际应用中,由于缺乏领域先验知识和辅助信 ...
【技术保护点】
一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization),简称ADNMF模型,其特征在于所述ADNMF模型主要包括:1):采用矩阵来表示输入数据中的所有样本和特征;所述数据包括文本、图像或网络数据;对输入的数据集,根据数据类型进行不同的预处理,构建样本的特征表示矩阵,作为ADNMF模型的输入;2):基于特征表示矩阵,建立ADNMF模型的优化目标,采用自适应Dropout算法学习特征之间的关系,并进行优化求解,得到样本的隐藏特征表示,作为模型的输出;所述ADNMF模型的优化目标包括3个方面:(1)能够最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失;(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性;(3)保证输出矩阵的非负特性,使得到的样本的隐藏特征表示具有较好的可解释性;所述ADNMF模型优化目标的求解算法应当满足三个基本条件:(1)算法能够在可接受的时间内收敛,(2)算法对存储空间的需求要控制在合理范围内,(3)算法能够并行执行,以提高计算效率。
【技术特征摘要】
1.一种基于自适应Dropout非负矩阵分解的特征学习模型(AdaptiveDropoutNon-negativeMatrixFactorization),简称ADNMF模型,其特征在于所述ADNMF模型主要包括:1):采用矩阵来表示输入数据中的所有样本和特征;所述数据包括文本、图像或网络数据;对输入的数据集,根据数据类型进行不同的预处理,构建样本的特征表示矩阵,作为ADNMF模型的输入;2):基于特征表示矩阵,建立ADNMF模型的优化目标,采用自适应Dropout算法学习特征之间的关系,并进行优化求解,得到样本的隐藏特征表示,作为模型的输出;所述ADNMF模型的优化目标包括3个方面:(1)能够最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失;(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性;(3)保证输出矩阵的非负特性,使得到的样本的隐藏特征表示具有较好的可解释性;所述ADNMF模型优化目标的求解算法应当满足三个基本条件:(1)算法能够在可接受的时间内收敛,(2)算法对存储空间的需求要控制在合理范围内,(3)算法能够并行执行,以提高计算效率。2.根据权利要求1所述的基于自适应Dropout非负矩阵分解的特征学习模型,其特征在于1)中所述的根据数据类型建立不同的特征表示矩阵包括:1.1)、数据预处理指对数据进行特征抽取,将样本表示成相同维度的向量;对文本数据,需要进行分词和词汇统计,再使用词频或tfidf算法得到每一篇文本在相同的字典空间中的向量表示;对于图像数据,需要对图片进行剪切、拉伸和缩放处理,使图片具有相同的维度,然后采取灰度值或RGB值来将图片表示成相同维度的特征向量;对于网络数据,需要统计网络中包含的节点数量和节点之间的连接权重,得到每个节点的基于连接权重的表示;最后,对所有样本的特征表示进行非负处理,筛选出符合非负性要求的特征;1.2)、数据格式化;在数据预处理之后,需要将数据表示成矩阵,作为ADNMF模型的输入...
【专利技术属性】
技术研发人员:刘杰,何志成,刘才华,王嫄,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。