本发明专利技术公开了一种融合自学习和低秩表示的基因表达数据癌症分类方法,包括:步骤1、对于给定的癌症基因表达数据集,将数据合并构建数据矩阵,并作归一化处理;步骤2、对于得到的数据矩阵,利用低秩表达方法进行分解,得到一个低秩矩阵和一个稀疏矩阵;步骤3、利用训练集的标签信息,在低秩矩阵和稀疏矩阵上分别计算每个类别的初始点;步骤4、分别在低秩矩阵和稀疏矩阵上使用一种无监督聚类方法,分别获得基于低秩矩阵和稀疏矩阵的预测结果;步骤5、对比两个预测结果,若无预测相同的样本或达到最大迭代次数,输出基于低秩表达矩阵的预测结果;否则,将预测相同的样本移除测试集并加入训练集,回到步骤3。利用本发明专利技术可在利用少量标注样本的情况下提高预测精度,减少了标注样本中的时间和人力成本。
【技术实现步骤摘要】
融合自学习和低秩表示的基因表达数据癌症分类方法
本专利技术涉及生物信息学基因表达和癌症分类领域,具体地说,是一种融合自学习和低秩表示的基因表达数据癌症分类方法。
技术介绍
癌症是一种由于细胞非正常生长而产生的致命疾病,迄今为止,仍未有完全有效的治疗方法。及早地诊断能有效得帮助癌症治疗,所以如何对癌症进行准确的分类预测是一个非常具有研究价值的问题。随着高通量技术的发展,有关癌症的基因表达数据迅速地累积,同时机器学习技术也在近年来获得长足的进步,因此利用基因表达数据和机器学习来预测癌症类别成为可能,例如:(1)Chen,X.Y.andJian,C.R.Geneexpressiondataclusteringbasedongraphregularizedsubspacesegmentation.Neurocomputing2014;143:44-50.(2)Liao,Q.,Guan,N.andZhang,Q.Gauss-Seidelbasednon-negativematrixfactorizationforgeneexpressionclustering.In,2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE;2016.p.2364-2368.(3)Liu,J.X.,etal.RPCA-BasedTumorClassificationUsingGeneExpressionData.IEEEACMTComputBi2015;12(4):964-970.等。然而,现有的方法大多为无监督方法和监督方法,两者都有着各自的缺陷。无监督方法学习方法通过提出一个模型来从无标签数据中发现潜在结构。由于所有的样本都是未标注的,所以在模型的训练中无法使用标签信息来进行误差修正。无监督学习的这一特性导致模型的预测能力较弱,无法提供有效的预测精度。监督学习方法与无监督学习相反,它通过使用有标签数据来训练模型。由于能够在训练中使用标签数据,监督学习方法得到的模型可以提供较高的预测精度。但利用监督方法训练一个模型需要使用大量的标注数据,而标注数据的成本往往十分昂贵且需要耗费大量的人力和时间,尤其是对基因表达数据进行标注。鉴于两种学习方法都有着无法克服的缺陷,半监督学习的提出为解决上述问题提供了一个新思路:利用大量的无标签数据和少量有标签数据来训练模型,该模型可以提供远好于无监督方法的预测效果。本方法改进的自学习模型就是是一种传统的半监督学习方法,它通过将预测中可信度较高的样本加入训练集,不断迭代的训练和预测,最后对所有测试集中的数据进行分类。如今,已有不少有效的半监督方法被用于癌症基因表达数据的分析,例如:(1)Cai,X.F.,etal.LocalandGlobalPreservingSemi-supervisedDimensionalityReductionBasedonRandomSubspaceforCancerClassification.IEEEJBiomedHealth2014;18(2):500-507.(2)Halder,A.andMisra,S.Semi-supervisedfuzzyK-NNforcancerclassificationfrommicroarraygeneexpressiondata.2014FirstInternationalConferenceonAutomation,Control,Energy&Systems(ACES-14)2014:266-270.等。然而,基因表达数据的处理仍留有挑战:(1)基因表达数据有很高的维度由于基因表达数据的每个特征对应于一个基因,而人类有不少于2.5万个基因,所以基因表达数据往往有数万个特征分量。传统的分类方法在处理高维数据时,对数据中的噪声和冗余非常敏感,很难提供准确的预测;(2)基因表达数据的数据集很小由于使用基因微阵列技术测定基因表达较为昂贵,时间和人力成本很高,因此,一次性获得的数据集很小,常常只包含几十或几百个样本,过小的数据量很难训练出有效的模型。
技术实现思路
本专利技术的目的在于提供一种融合自学习和低秩表示的基因表达数据癌症分类方法,解决现有技术中利用基因表达数据进行癌症分类预测存在的问题:数据维度高、测试集小以及标注数据少。实现本专利技术目的的技术解决方案为:一种融合自学习和低秩表示的基因表达数据癌症分类方法,包括以下步骤:步骤1、对于给定癌症基因表达数据集,其中有标签数据的集合为训练集,无标签数据集合为测试集;将数据合并构建数据矩阵X,并作归一化处理;步骤2、对于得到的数据矩阵,利用低秩表达方法进行分解,得到一个低秩矩阵Z和一个稀疏矩阵E;步骤3、利用训练集的标签信息,在低秩矩阵Z和稀疏矩阵E上分别计算每个类别i的初始点坐标p(i);步骤4、分别在低秩矩阵Z和稀疏矩阵E上使用一种无监督聚类方法,分别获得基于低秩矩阵Z和稀疏矩阵E的预测结果lZ和lE;步骤5、对比两个预测结果lZ和lE,若无预测相同的样本或达到最大迭代次数,输出基于低秩表达矩阵的预测结果lZ;否则,将预测相同的样本移除测试集并加入训练集,返回步骤3。本专利技术与现有技术相比,其显著优点为:1)本方法中结合了低秩表示方法,可以从原始的高维数据中提取本质的全局特征;(2)本方法同时使用了低秩表示中分解得到的低秩矩阵信息和稀疏矩阵信息,比传统的基于低秩表示的方法(仅利用一个矩阵中的信息)更为有效。附图说明图1为融合自学习和低秩表示的基因表达数据癌症分类方法的一个示例性流程图。图2为在某一癌症基因表达数据集上的示意图,(a),(b),(c)分别为原数据矩阵和低秩分解后低秩矩阵、稀疏矩阵,矩阵中每个表达值对应一个像素点的灰度值。每个矩阵上方的横条中,每个色块对应一个癌症的类别。具体实施方式利用基因表达数据进行癌症分类预测是一个典型的高维小样本问题。为了解决这个问题,借鉴了低秩表示,一种在图像处理领域常用于矩阵恢复的特征提取方法,它通过约束数据矩阵的秩,来获得数据的本质低维结构。通过使用半监督学习方法和特征提取方法,可以解决利用基因表达数据来进行癌症分类预测的问题。下面将结合附图以举例方式对本专利技术的实施方式进行详细描述。如图1所示,根据本专利技术的较优实施例,融合自学习和低秩表示的基因表达数据癌症分类方法,用于对一个癌症基因表达数据集中的样本进行类别预测。为了反映实际应用的情景,将其中部分数据看作无标签数据,并定义为测试集;将剩余的样本集合定义为训练集。在训练和预测过程中,只能使用训练集中样本的标签信息,测试集的类别信息用于和测试集的预测类别作对比。。分类预测分为两个阶段:特征提取阶段与训练和预测阶段,下面结合图1所示,详细说明上述两个阶段的实现。(1)特征提取阶段第一步、将训练集和测试集中的特征向量合并,构建一个数据矩阵X,获得的数据矩阵X需满足:X=[x1,x2,…,xn]∈Rd×n其中,xi为一个基因表达数据样本的列向量,向量维数为d。X中共有n个样本,n为训练集和测试集中样本数的和。每个向量都需经过归一化处理。第二步、对于所述给定的数据矩阵X,利用低秩表达方法进行分本文档来自技高网...
【技术保护点】
一种融合自学习和低秩表示的基因表达数据癌症分类方法,其特征在于包括以下步骤:步骤1、对于给定癌症基因表达数据集,其中有标签数据的集合为训练集,无标签数据集合为测试集;将数据合并构建数据矩阵X,并作归一化处理;步骤2、对于得到的数据矩阵,利用低秩表达方法进行分解,得到一个低秩矩阵Z和一个稀疏矩阵E;步骤3、利用训练集的标签信息,在低秩矩阵Z和稀疏矩阵E上分别计算每个类别i的初始点坐标p
【技术特征摘要】
1.一种融合自学习和低秩表示的基因表达数据癌症分类方法,其特征在于包括以下步骤:步骤1、对于给定癌症基因表达数据集,其中有标签数据的集合为训练集,无标签数据集合为测试集;将数据合并构建数据矩阵X,并作归一化处理;步骤2、对于得到的数据矩阵,利用低秩表达方法进行分解,得到一个低秩矩阵Z和一个稀疏矩阵E;步骤3、利用训练集的标签信息,在低秩矩阵Z和稀疏矩阵E上分别计算每个类别i的初始点坐标p(i);步骤4、分别在低秩矩阵Z和稀疏矩阵E上使用一种无监督聚类方法,分别获得基于低秩矩阵Z和稀疏矩阵E的预测结果lZ和lE;步骤5、对比两个预测结果lZ和lE,若无预测相同的样本或达到最大迭代次数,输出基于低秩表达矩阵的预测结果lZ;否则,将预测相同的样本移除测试集并加入训练集,返回步骤3。2.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法,其特征在于:步骤1中所述给定癌症基因表达数据集包含有标签数据和无标签数据,其中标签为癌症类别。3.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法,其特征在于,所述步骤1中,获得的数据矩阵X需满足:X=[x1,x2,…,xn]∈Rd×n其中,xi为一个基因表达数据样本的列向量,向量维数为d,X中共有n个样本,n为训练集和测试集中样本数的和;每个向量都需经过归一化处理。4.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法,其特征在于:所述步骤2中,对于所给定的数据矩阵X,利用低秩表达方法进行分解,得到的低秩矩阵Z和稀疏矩阵E需满足如下条件:s.t.,X=XZ+E其中,||Z||*=∑iσi(Z)为Z的核范数,σi(Z)为Z的第i个奇异值;指E的l2,1范数;λ为平衡参数。5.根据权利要求1所述的融合自学习和低秩表示的基因表达数据癌症分类方法,其特征在于:所述步骤3中,Z中每个类别i的初始点坐标计算方式如下:
【专利技术属性】
技术研发人员:於东军,夏春秋,韩珂,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。