自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法技术

技术编号:29616918 阅读:21 留言:0更新日期:2021-08-10 18:35
自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,其特征在于,该方法包括复杂基因数据的变量选择,复杂数据的分类;变量选择模块从复杂基因数据的内在关联结构出发,考虑基因之间的相互依赖性,结合系数压缩和互信息理论,对自适应弹性网的惩罚项进行加权估计,建立基于数据驱动的无模型假设的自适应变量选择方法;复杂数据的分类模块利用灰狼优化方法优化算法优化深度神经网络的结构参数,提高模型泛化能力。

【技术实现步骤摘要】
自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法
本专利技术涉及生物大数据分析与变量选择
,具体涉及一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法。
技术介绍
在生物信息学领域,利用具有大量变量的基因数据集来预测临床结果是一项十分重要的技术。在这样的数据集中,与预测因子(基因)的数量相比,样本量往往非常小,因此导致了n<p问题。此外,预测因子之间复杂且未知的相关结构给分类结果和变量选择带来了很大的困难。因此,对基因数据进行分类需要一套新的且适合高维小样本特性的统计或数据挖掘方法,在保持高精度的同时降低数据的维数。现有技术中,正则化方法是解决高维小样本数据的重要降维方法,它能够在对模型进行训练的同时对基因数据进行降维。其典型方法包括基于L1范数的Lasso,自适应Lasso,基于L2范数的岭回归。典型方法中的L1范数和L2范数惩罚函数不能同时满足无偏性、稀疏性和连续性等要求,而且传统的SCAD方法并没有将基因与基因的交互纳入考虑范围,只是单纯从基因的角度去考虑与疾病的关系,因而降低了使用SCAD方法进行基因选择和癌症分类的有效性。其次,典型的正则化方法还包括基于L1和L2范数的弹性网和自适应弹性网。然而,当将自适应弹性网应用于高维基因表达数据时,由于精度要求较低,一些重要基因可能在初始估计中被错误地赋予较小的权值。因此,容易将这些重要的基因错误地从模型中删除,导致微阵列DNA数据的信息性基因选择预测精度较低。另外,如果变量之间的成对相关性不高,自适应弹性网的性能可能不好。同时,深度学习模型已被证明是一种强有力的分类工具,但由于n<p问题,其在生物信息学中的应用受到限制。这是因为细胞群体和临床受试者群体表现出很大的异质性,不同实验室的数据变量不一致,导致基因表达数据集的样本数量与大量变量相比是有限的。另一方面,在图像分类等领域,深度学习通常需要大量的训练样本,这一矛盾阻碍了深度学习技术在生物信息学领域的应用。基于这些事实,需要使用n<p的基因表达数据来改进适合疾病结果分类的深度学习模型。与通常的深度神经网络分类器相比,在深度神经网络分类器的基础上构建一个变量选择器是自然选择,其原因如下:(1)检测器以有监督的方式检测有效变量,即利用训练结果的信息,产生准确的变量表示;(2)与原始变量集相比,深度神经网络的输入具有更小的维数;由于深度神经网络是一个多层神经网络,包含两个以上的隐含层,通过增加更多的层以及每层神经元的个数提高训练模型的专业性。但如果网络结构过于复杂可能会降低模型的泛化能力,需要一种方法来确定深度神经网络模型的结构参数,以提高其泛化能力。因此,自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法是为n<p数据而开发的。
技术实现思路
为解决上述问题,本专利技术提出一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,首先基于自适应弹性网方法进行变量选择,在此基础上,基于深度神经网络进行分类;具体包括如下步骤:步骤1、基于最大相关最小共同冗余自适应弹性网方法的变量选择,包括如下子步骤:步骤1.1利用互信息测量共同冗余,体现基因表达数据之间的内在关联和驱动特性:癌症可能发生在人体的任何地方,值得注意的是,癌症的初期治疗要比晚期容易的多,基于基因数据的分析已经成为早期癌症鉴定的有效方法,在基因表达数据的收集过程中,由于临床受试者数目有限以及受试群体之间的异质性,导致样本数量远小于基因数目,为了进行分类,第一步便是识别出一小部分基因,这些基因是导致疾病发生的主要原因,破坏不适当的和无效的基因,提高对分类模型的理解;在数学定义中,假定Xi是候选变量,Y是响应变量,Xj∈S是一个被选变量,S是被选变量子集,定义候选变量Xi与响应变量Y之间的互信息为相关项,候选变量Xi与被选变量Xj之间的互信息称为冗余项;任何变量选择问题的目标都是选择相关项,排除无关项,对于冗余项,可以看作是存在相依性的有用变量,例如在测量相关变量时犯了一些错误,则预测器工作性能很差,但如果预测器选择了一些相关变量的冗余项,这些错误即可纠正,因此预测器可选择某些冗余变量,以提高预测的鲁棒性;因此在基因数据的变量选择过程中,将基因视为自变量,受试者状态标签(有病/无病)视为响应变量,其目的在变量集中选取对标签变量起作用的相关基因,排除无关基因,选择冗余基因;对基因数据进行变量选择时,考虑候选基因Xi与响应变量Y之间的信息量,同时考虑其与被选基因子集S中的基因Xj之间的信息包含程度,保留相关基因,选择冗余基因,并排除无关的基因,因此,对于一个基因Xj∈S(S是被选基因子集),Xj和一个候选基因Xi之间的冗余信息可以用二者之间的互信息I(Xj,Xi)测量其计算方式如公式(5)所示,基因Xi相应的冗余信息率如下:RI(Xi,Xj)为基因Xi,Xj的冗余信息率,I(Xj,Xi)为Xi,Xj之间的冗余信息,I(Xi,Y)为Xi,Y的间相关性,I(Xj,Y)为Xj,Y间的相关性;乘以min{I(Xi;Y),I(Xj;Y)},引入共同互信息CI(Xi,Xj,Y)的定义:Xi,Xj和Y之间的互信息可以测量这些基因当中的共同信息量,对于一个基因数据集T={X1,X2,...,Xp},变量选择过程可识别T的一个子集,该子集记为S,扩展共同互信息CI(Xi,Xj,Y)到CI(Xi,S,Y),并定义其为共同冗余如下:I(Xi;S)为基因Xi和被选子集S的互信息;步骤1.2利用共同冗余信息构造最大相关最小共同冗余基因排序方法:对于基因表达数据,每个基因基因作为载体,其中的元素表示它们在不同条件或样品中的表达值,最大相关最小共同冗余方法避免了对基因之间冗余项的过低估计,达到选择相关基因,排除无关基因,控制冗余基因的目的,考虑了目标(响应)变量的全局归一化,其表达式如下:f(Xi)=I(Xi,Y)-CI(Xi,S,Y)(4)其中:p(x,y)是联合分布,p(x)和p(y)是边际分布;公式(6)作为公式(3)的扩展,使用最大公共互信息来度量候选基因Xi与已选基因子集S关于Y的冗余性;其中Xi表示基因变量,Y表示响应变量,S表示已选基因子集,I(Xi,Y)表示基因与响应变量之间的互信息,CI(Xi,S,Y)表示候选基因Xi与已选基因子集S关于Y的冗余性,xj∈S;步骤1.3最大相关最小共同冗余方法构造基因重要性:设基因表达数据为n×p矩阵,其中,n为观测数,p为基因个数,第k,(k∈p)个基因的重要性由下式给出:Sk=f(Xk)=I(Xk,Y)-CI(Xk,S,Y)(7)第k个基因的权重系数:其中,0<η≤1为给定阈值,当Sk>η时,第k个基因具有明显的意义,当Sk≤η时,第k个基因对解释变量的预测不显著,将权重矩阵表示为:W=diag(w1,...,wp)(9)步骤1.4变量选择模型的构本文档来自技高网
...

【技术保护点】
1.为解决基因数据样本量远小于特征以及深度学习方法在生物信息学中受到的限制问题,本专利技术提出一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,首先基于自适应弹性网方法进行变量选择,在此基础上,基于深度神经网络进行分类;具体包括如下步骤:/n步骤1、基于最大相关最小共同冗余自适应弹性网方法的变量选择,包括如下子步骤:/n步骤1.1利用互信息测量共同冗余,体现基因表达数据之间的内在关联和驱动特性:/n癌症可能发生在人体的任何地方,值得注意的是,癌症的初期治疗要比晚期容易的多,基于基因数据的分析已经成为早期癌症鉴定的有效方法,在基因表达数据的收集过程中,由于临床受试者数目有限以及受试群体之间的异质性,导致样本数量远小于基因数目,为了进行分类,第一步便是识别出一小部分基因,这些基因是导致疾病发生的主要原因,破坏不适当的和无效的基因,提高对分类模型的理解;/n在数学定义中,假定X

【技术特征摘要】
1.为解决基因数据样本量远小于特征以及深度学习方法在生物信息学中受到的限制问题,本发明提出一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,首先基于自适应弹性网方法进行变量选择,在此基础上,基于深度神经网络进行分类;具体包括如下步骤:
步骤1、基于最大相关最小共同冗余自适应弹性网方法的变量选择,包括如下子步骤:
步骤1.1利用互信息测量共同冗余,体现基因表达数据之间的内在关联和驱动特性:
癌症可能发生在人体的任何地方,值得注意的是,癌症的初期治疗要比晚期容易的多,基于基因数据的分析已经成为早期癌症鉴定的有效方法,在基因表达数据的收集过程中,由于临床受试者数目有限以及受试群体之间的异质性,导致样本数量远小于基因数目,为了进行分类,第一步便是识别出一小部分基因,这些基因是导致疾病发生的主要原因,破坏不适当的和无效的基因,提高对分类模型的理解;
在数学定义中,假定Xi是候选变量,Y是响应变量,Xj∈S是一个被选变量,S是被选变量子集,定义候选变量Xi与响应变量Y之间的互信息为相关项,候选变量Xi与被选变量Xj之间的互信息称为冗余项;任何变量选择问题的目标都是选择相关项,排除无关项,对于冗余项,可以看作是存在相依性的有用变量,例如在测量相关变量时犯了一些错误,则预测器工作性能很差,但如果预测器选择了一些相关变量的冗余项,这些错误即可纠正,因此预测器可选择某些冗余变量,以提高预测的鲁棒性;
因此在基因数据的变量选择过程中,将基因视为自变量,受试者状态标签(有病/无病)视为响应变量,其目的在变量集中选取对标签变量起作用的相关基因,排除无关基因,选择冗余基因;
对基因数据进行变量选择时,考虑候选基因Xi与响应变量Y之间的信息量,同时考虑其与被选基因子集S中的基因Xj之间的信息包含程度,保留相关基因,选择冗余基因,并排除无关的基因,因此,对于一个基因Xj∈S(S是被选基因子集),Xj和一个候选基因Xi之间的冗余信息可以用二者之间的互信息I(Xj,Xi)测量其计算方式如公式(5)所示,基因Xi相应的冗余信息率如下:



RI(Xi,Xj)为基因Xi,Xj的冗余信息率,I(Xj,Xi)为Xi,Xj之间的冗余信息,I(Xi,Y)为Xi,Y的间相关性,I(Xj,Y)为Xj,Y间的相关性;
乘以min{I(Xi;Y),I(Xj;Y)},引入共同互信息CI(Xi,Xj,Y)的定义:



Xi,Xj和Y之间的互信息可以测量这些基因当中的共同信息量,对于一个基因数据集T={X1,X2,...,Xp},变量选择过程可识别T的一个子集,该子集记为S,扩展共同互信息CI(Xi,Xj,Y)到CI(Xi,S,Y),并定义其为共同冗余如下:



I(Xi;S)为基因Xi和被选子集S的互信息;
步骤1.2利用共同冗余信息构造最大相关最小共同冗余基因排序方法:
对于基因表达数据,每个基因基因作为载体,其中的元素表示它们在不同条件或样品中的表达值,最大相关最小共同冗余方法避免了对基因之间冗余项的过低估计,达到选择相关基因,排除无关基因,控制冗余基因的目的,考虑了目标(响应)变量的全局归一化,其表达式如下:
f(Xi)=I(Xi,Y)-CI(Xi,S,Y)(4)
其中:



p(x,y)是联合分布,p(x)和p(y)是边际分布;



公式(6)作为公式(3)的扩展,使用最大公共互信息来度量候选基因Xi与已选基因子集S关于Y的冗余性;其中Xi表示基因变量,Y表示响应变量,S表示已选基因子集,I(Xi,Y)表示基因与响应变量之间的互信息,CI(Xi,S,Y)表示候选基因Xi与已选基因子集S关于Y的冗余性,xj∈S;
步骤1.3最大相关最小共同冗余方法构造基因重要性:
设基因表达数据为n×p矩阵,其中,n为观测数,p为基因个数,第k,(k∈p)个基因的重要性由下式给出:
Sk=f(Xk)=I(Xk,Y)-CI(Xk,S,Y)(7)
第k个基因的权重系数:



其中,0<η≤1为给定阈值,当Sk>η时,第k个基因具有明显的意义,当Sk≤η时,第k个基因对解释变量的预测不显著,将权重矩阵表示为:
W=diag(w1,...,wp)(9)
步骤1.4变量选择模型的构建:
基因表达数据的分类问题,可以抽象地表述为从训练集中学习一个判别规则,并为一个新样本分配一个类标签,对于基因表达数据,n和p分别代表样本大小和基因数目;设Y=(y1,y2,...yn)′为响应变量,X=(X1,X2,...,Xp),Xi...

【专利技术属性】
技术研发人员:秦喜文王芮李绍松谭佳伟徐定鑫崔薛腾张斯琪
申请(专利权)人:长春工业大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1