融合自学习和低秩表示的基因表达数据癌症分类方法技术

技术编号：16919645 阅读：52 留言：0更新日期：2017-12-31 15:04

本发明专利技术公开了一种融合自学习和低秩表示的基因表达数据癌症分类方法，包括：步骤1、对于给定的癌症基因表达数据集，将数据合并构建数据矩阵，并作归一化处理；步骤2、对于得到的数据矩阵，利用低秩表达方法进行分解，得到一个低秩矩阵和一个稀疏矩阵；步骤3、利用训练集的标签信息，在低秩矩阵和稀疏矩阵上分别计算每个类别的初始点；步骤4、分别在低秩矩阵和稀疏矩阵上使用一种无监督聚类方法，分别获得基于低秩矩阵和稀疏矩阵的预测结果；步骤5、对比两个预测结果，若无预测相同的样本或达到最大迭代次数，输出基于低秩表达矩阵的预测结果；否则，将预测相同的样本移除测试集并加入训练集，回到步骤3。利用本发明专利技术可在利用少量标注样本的情况下提高预测精度，减少了标注样本中的时间和人力成本。

全部详细技术资料下载

【技术实现步骤摘要】
融合自学习和低秩表示的基因表达数据癌症分类方法
本专利技术涉及生物信息学基因表达和癌症分类领域，具体地说，是一种融合自学习和低秩表示的基因表达数据癌症分类方法。
技术介绍
癌症是一种由于细胞非正常生长而产生的致命疾病，迄今为止，仍未有完全有效的治疗方法。及早地诊断能有效得帮助癌症治疗，所以如何对癌症进行准确的分类预测是一个非常具有研究价值的问题。随着高通量技术的发展，有关癌症的基因表达数据迅速地累积，同时机器学习技术也在近年来获得长足的进步，因此利用基因表达数据和机器学习来预测癌症类别成为可能，例如:(1)Chen,X.Y.andJian,C.R.Geneexpressiondataclusteringbasedongraphregularizedsubspacesegmentation.Neurocomputing2014；143:44-50.(2)Liao,Q.,Guan,N.andZhang,Q.Gauss-Seidelbasednon-negativematrixfactorizationforgeneexpressionclustering.In,2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE；2016.p.2364-2368.(3)Liu,J.X.,etal.RPCA-BasedTumorClassificationUsingGeneExpressionData.IEEEACMTComputBi2015；12(4):964-970...
融合自学习和低秩表示的基因表达数据癌症分类方法

【技术保护点】
一种融合自学习和低秩表示的基因表达数据癌症分类方法，其特征在于包括以下步骤：步骤1、对于给定癌症基因表达数据集，其中有标签数据的集合为训练集，无标签数据集合为测试集；将数据合并构建数据矩阵X，并作归一化处理；步骤2、对于得到的数据矩阵，利用低秩表达方法进行分解，得到一个低秩矩阵Z和一个稀疏矩阵E；步骤3、利用训练集的标签信息，在低秩矩阵Z和稀疏矩阵E上分别计算每个类别i的初始点坐标p

【技术特征摘要】
1.一种融合自学习和低秩表示的基因表达数据癌症分类方法，其特征在于包括以下步骤：步骤1、对于给定癌症基因表达数据集，其中有标签数据的集合为训练集，无标签数据集合为测试集；将数据合并构建数据矩阵X，并作归一化处理；步骤2、对于得到的数据矩阵，利用低秩表达方法进行分解，得到一个低秩矩阵Z和一个稀疏矩阵E；步骤3、利用训练集的标签信息，在低秩矩阵Z和稀疏矩阵E上分别计算每个类别i的初始点坐标p(i)；步骤4、分别在低秩矩阵Z和稀疏矩阵E上使用一种无监督聚类方法，分别获得基于低秩矩阵Z和稀疏矩阵E的预测结果lZ和lE；步骤5、对比两个预测结果lZ和lE，若无预测相同的样本或达到最大迭代次数，输出基于低秩表达矩阵的预测结果lZ；否则，将预测相同的样本移除测试集并加入训练集，返回步骤3。2.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法，其特征在于：步骤1中所述给定癌症基因表达数据集包含有标签数据和无标签数据，其中标签为癌症类别。3.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法，其特征在于，所述步骤1中，获得的数据矩阵X需满足：X＝[x1,x2,…,xn]∈Rd×n其中，xi为一个基因表达数据样本的列向量，向量维数为d，X中共有n个样本，n为训练集和测试集中样本数的和；每个向量都需经过归一化处理。4.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法，其特征在于：所述步骤2中，对于所给定的数据矩阵X，利用低秩表达方法进行分解，得到的低秩矩阵Z和稀疏矩阵E需满足如下条件：s.t.,X＝XZ+E其中，||Z||*＝∑iσi(Z)为Z的核范数，σi(Z)为Z的第i个奇异值；指E的l2,1范数；λ为平衡参数。5.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法，其特征在于：所述步骤3中，Z中每个类别i的初始点坐标计算方式如下：

【专利技术属性】
技术研发人员：於东军，夏春秋，韩珂，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人