【技术实现步骤摘要】
自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法
本专利技术涉及生物大数据分析与变量选择
,具体涉及一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法。
技术介绍
在生物信息学领域,利用具有大量变量的基因数据集来预测临床结果是一项十分重要的技术。在这样的数据集中,与预测因子(基因)的数量相比,样本量往往非常小,因此导致了n<p问题。此外,预测因子之间复杂且未知的相关结构给分类结果和变量选择带来了很大的困难。因此,对基因数据进行分类需要一套新的且适合高维小样本特性的统计或数据挖掘方法,在保持高精度的同时降低数据的维数。现有技术中,正则化方法是解决高维小样本数据的重要降维方法,它能够在对模型进行训练的同时对基因数据进行降维。其典型方法包括基于L1范数的Lasso,自适应Lasso,基于L2范数的岭回归。典型方法中的L1范数和L2范数惩罚函数不能同时满足无偏性、稀疏性和连续性等要求,而且传统的SCAD方法并没有将基因与基因的交互纳入考虑范围,只是单纯从基因的角度去考虑与疾病的关系,因而降低了使用SCAD方法进行基因选择和癌症分类的有效性。其次,典型的正则化方法还包括基于L1和L2范数的弹性网和自适应弹性网。然而,当将自适应弹性网应用于高维基因表达数据时,由于精度要求较低,一些重要基因可能在初始估计中被错误地赋予较小的权值。因此,容易将这些重要的基因错误地从模型中删除,导致微阵列DNA数据的信息性基因选择预测精度较低。另外,如果变量之间的成对相关性不高,自适应弹性网的性能可能 ...
【技术保护点】
1.为解决基因数据样本量远小于特征以及深度学习方法在生物信息学中受到的限制问题,本专利技术提出一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,首先基于自适应弹性网方法进行变量选择,在此基础上,基于深度神经网络进行分类;具体包括如下步骤:/n步骤1、基于最大相关最小共同冗余自适应弹性网方法的变量选择,包括如下子步骤:/n步骤1.1利用互信息测量共同冗余,体现基因表达数据之间的内在关联和驱动特性:/n癌症可能发生在人体的任何地方,值得注意的是,癌症的初期治疗要比晚期容易的多,基于基因数据的分析已经成为早期癌症鉴定的有效方法,在基因表达数据的收集过程中,由于临床受试者数目有限以及受试群体之间的异质性,导致样本数量远小于基因数目,为了进行分类,第一步便是识别出一小部分基因,这些基因是导致疾病发生的主要原因,破坏不适当的和无效的基因,提高对分类模型的理解;/n在数学定义中,假定X
【技术特征摘要】
1.为解决基因数据样本量远小于特征以及深度学习方法在生物信息学中受到的限制问题,本发明提出一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,首先基于自适应弹性网方法进行变量选择,在此基础上,基于深度神经网络进行分类;具体包括如下步骤:
步骤1、基于最大相关最小共同冗余自适应弹性网方法的变量选择,包括如下子步骤:
步骤1.1利用互信息测量共同冗余,体现基因表达数据之间的内在关联和驱动特性:
癌症可能发生在人体的任何地方,值得注意的是,癌症的初期治疗要比晚期容易的多,基于基因数据的分析已经成为早期癌症鉴定的有效方法,在基因表达数据的收集过程中,由于临床受试者数目有限以及受试群体之间的异质性,导致样本数量远小于基因数目,为了进行分类,第一步便是识别出一小部分基因,这些基因是导致疾病发生的主要原因,破坏不适当的和无效的基因,提高对分类模型的理解;
在数学定义中,假定Xi是候选变量,Y是响应变量,Xj∈S是一个被选变量,S是被选变量子集,定义候选变量Xi与响应变量Y之间的互信息为相关项,候选变量Xi与被选变量Xj之间的互信息称为冗余项;任何变量选择问题的目标都是选择相关项,排除无关项,对于冗余项,可以看作是存在相依性的有用变量,例如在测量相关变量时犯了一些错误,则预测器工作性能很差,但如果预测器选择了一些相关变量的冗余项,这些错误即可纠正,因此预测器可选择某些冗余变量,以提高预测的鲁棒性;
因此在基因数据的变量选择过程中,将基因视为自变量,受试者状态标签(有病/无病)视为响应变量,其目的在变量集中选取对标签变量起作用的相关基因,排除无关基因,选择冗余基因;
对基因数据进行变量选择时,考虑候选基因Xi与响应变量Y之间的信息量,同时考虑其与被选基因子集S中的基因Xj之间的信息包含程度,保留相关基因,选择冗余基因,并排除无关的基因,因此,对于一个基因Xj∈S(S是被选基因子集),Xj和一个候选基因Xi之间的冗余信息可以用二者之间的互信息I(Xj,Xi)测量其计算方式如公式(5)所示,基因Xi相应的冗余信息率如下:
RI(Xi,Xj)为基因Xi,Xj的冗余信息率,I(Xj,Xi)为Xi,Xj之间的冗余信息,I(Xi,Y)为Xi,Y的间相关性,I(Xj,Y)为Xj,Y间的相关性;
乘以min{I(Xi;Y),I(Xj;Y)},引入共同互信息CI(Xi,Xj,Y)的定义:
Xi,Xj和Y之间的互信息可以测量这些基因当中的共同信息量,对于一个基因数据集T={X1,X2,...,Xp},变量选择过程可识别T的一个子集,该子集记为S,扩展共同互信息CI(Xi,Xj,Y)到CI(Xi,S,Y),并定义其为共同冗余如下:
I(Xi;S)为基因Xi和被选子集S的互信息;
步骤1.2利用共同冗余信息构造最大相关最小共同冗余基因排序方法:
对于基因表达数据,每个基因基因作为载体,其中的元素表示它们在不同条件或样品中的表达值,最大相关最小共同冗余方法避免了对基因之间冗余项的过低估计,达到选择相关基因,排除无关基因,控制冗余基因的目的,考虑了目标(响应)变量的全局归一化,其表达式如下:
f(Xi)=I(Xi,Y)-CI(Xi,S,Y)(4)
其中:
p(x,y)是联合分布,p(x)和p(y)是边际分布;
公式(6)作为公式(3)的扩展,使用最大公共互信息来度量候选基因Xi与已选基因子集S关于Y的冗余性;其中Xi表示基因变量,Y表示响应变量,S表示已选基因子集,I(Xi,Y)表示基因与响应变量之间的互信息,CI(Xi,S,Y)表示候选基因Xi与已选基因子集S关于Y的冗余性,xj∈S;
步骤1.3最大相关最小共同冗余方法构造基因重要性:
设基因表达数据为n×p矩阵,其中,n为观测数,p为基因个数,第k,(k∈p)个基因的重要性由下式给出:
Sk=f(Xk)=I(Xk,Y)-CI(Xk,S,Y)(7)
第k个基因的权重系数:
其中,0<η≤1为给定阈值,当Sk>η时,第k个基因具有明显的意义,当Sk≤η时,第k个基因对解释变量的预测不显著,将权重矩阵表示为:
W=diag(w1,...,wp)(9)
步骤1.4变量选择模型的构建:
基因表达数据的分类问题,可以抽象地表述为从训练集中学习一个判别规则,并为一个新样本分配一个类标签,对于基因表达数据,n和p分别代表样本大小和基因数目;设Y=(y1,y2,...yn)′为响应变量,X=(X1,X2,...,Xp),Xi...
【专利技术属性】
技术研发人员:秦喜文,王芮,李绍松,谭佳伟,徐定鑫,崔薛腾,张斯琪,
申请(专利权)人:长春工业大学,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。