System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于异亲图信息最大化的癌症驱动基因识别方法技术_技高网

一种基于异亲图信息最大化的癌症驱动基因识别方法技术

技术编号:39940457 阅读:4 留言:0更新日期:2024-01-08 22:31
本发明专利技术公开了一种基于异亲图信息最大化的癌症驱动基因识别方法,属于生物信息技术领域。本发明专利技术首先将异亲生物分子网络、网络中基因节点特征以及使用个性化PageRank算法生成的辅助网络输入至特征增强模块,接着特征增强模块利用图信息最大化生成基因增强特征矩阵,再将异亲生物分子网络、辅助网络和基因增强特征矩阵一同输入至下游节点预测模块中,经过训练后输出异亲生物分子网络中每个基因的预测得分,最后根据预测得分识别癌症驱动基因。本发明专利技术克服了异亲生物分子网络全局结构特征提取问题,提升了异亲生物分子网络中的癌症驱动基因识别准确性。

【技术实现步骤摘要】

本专利技术属于生物信息,涉及一种基于异亲图信息最大化的癌症驱动基因识别方法


技术介绍

1、癌症是一组由遗传突变引起的细胞异常和失控增殖的疾病的总称。这些突变被称为驱动突变,使得癌细胞相对于其周围正常细胞具有选择性优势,进而能够在组织内迅速生长和扩散,与这些驱动突变相关联的基因被称为驱动基因。鉴定癌症驱动基因对于推进精准治疗和发现生物标志物具有重大意义。

2、近年来,大规模的癌症研究项目,例如癌症基因组图谱项目(the cancer genomeatlas,tcga)和国际癌症基因组图谱项目(the international cancer genomeconsortium,icgc),为鉴定癌症驱动基因提供了有价值的多组学数据,这些数据集提供了各种类型癌症的全面分子特征信息,为癌症基因组学研究人员开发计算方法提供了可能。

3、在早期的研究中,识别癌症驱动基因的方法可分为三类:基于突变频率的方法、基于网络的方法和基于传统机器学习的方法。但是这三类方法都有各自的局限性,比如基于突变频率的方法在识别带有罕见突变的驱动基因方面能力有限;基于网络的方法很大程度上依赖于完整的生物分子网络,因此在网络不完整的情况下性能会受到很大影响;基于传统机器学习的方法忽视了网络结构信息在癌症驱动基因识别过程中的关键作用。

4、随着图神经网络一类的深度学习方法的发展,许多研究人员将基于图神经网络的方法用于识别癌症驱动基因,且取得了良好的效果,但这些方法在捕捉异亲生物分子网络的全局结构特征上仍有局限性。异亲生物分子网络被定义为涵盖不同类型生物分子之间多种交互类型的网络,这些交互类型包括蛋白质-蛋白质相互作用、蛋白质-dna相互作用和蛋白质-rna相互作用等,同时在这些相互作用网络的内部,节点与节点之间的链接也可能具有不同的含义,比如ppi网络中蛋白质分子之间的链接可以是功能关联也可以是物理相互作用。过去的研究主要集中在同亲性假设上,即将单一基因-基因网络中具有链接的相邻节点归类到相同的类别,但癌症驱动基因通常通过参与不同类型的相互作用来促进癌症的发展,因此基于同亲性假设的方法会降低癌症驱动基因的识别效率。为了解决此类问题,目前最新的研究利用个性化pagerank扩展图卷积网络以适应异亲生物分子网络,提升了模型对癌症驱动基因的识别能力。然而,该方法并未充分考虑到个性化pagerank和图卷积网络在捕捉异亲生物分子网络全局结构特征方面的能力有限,某些远程相关的基因特征仍然可能会被忽视,导致模型对异亲生物分子网络的学习能力不足。因此,需要设计一种更好的方法来克服异亲生物分子网络全局结构特征提取问题,提升异亲生物分子网络中的癌症驱动基因识别准确性。


技术实现思路

1、针对上述问题,本专利技术提供了一种基于异亲图信息最大化的癌症驱动基因识别方法。它将图信息最大化模块捕捉全局结构特征的能力与个性化pagerank算法的异亲图适应性相结合以丰富原始基因特征,使得本专利技术在运行时能够充分捕捉异亲生物分子网络中的全局结构信息。接着,本专利技术下游节点预测模块中引入的一种双重残差结构通过双重残差连接解决了因模型复杂性增加而导致的基因节点原始特征信息丢失问题,有助于提升模型性能。这些整合使得本专利技术在受试者工作特性曲线下面积(area under receiveroperating characteristic,auroc)和精确率-召回率曲线下面积(area under theprecision-recall curve,auprc)方面优于其他传统方法,能准确识别异亲生物分子网络中的癌症驱动基因。

2、本专利技术的技术方案是:一种基于异亲图信息最大化的癌症驱动基因识别方法,首先在异亲生物分子网络上使用个性化pagerank算法生成辅助网络,接着使用带有图信息最大化模块的特征增强模块生成基因增强特征矩阵,再将异亲生物分子网络、辅助网络和基因增强特征矩阵放入带有双重残差结构的下游节点预测模块中,经过训练后预测新的癌症驱动基因,并输出异亲生物分子网络中每个基因的预测得分,根据预测得分识别癌症驱动基因。

3、上述一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征具体包括以下步骤:

4、s1、输入异亲生物分子网络、网络中基因节点特征以及使用个性化pagerank算法生成的辅助网络至特征增强模块;

5、s2、特征增强模块利用图信息最大化模块生成两个增强特征,之后将两个增强特征取平均与网络中基因节点特征相加生成基因增强特征矩阵;

6、s3、将异亲生物分子网络、辅助网络与增强特征矩阵一同输入下游节点预测模块进行训练;

7、s4、经过下游节点预测模块的训练后将模型用于预测新的癌症驱动基因,并输出异亲生物分子网络中每个基因的预测得分,根据预测得分识别癌症驱动基因。

8、具体地说,所述异亲生物分子网络、网络中基因节点特征分别来自encori(starbasev2.0)数据库、tcga数据库,而辅助网络是将异亲生物分子网络与网络中基因节点特征输入至个性化pagerank算法生成的。

9、具体地说,所述图信息最大化模块是由两个编码器、一个扰乱器、一个摘要总结模块、两个判别器和一个目标函数组成;两个编码器结构相同,都是由自适应图采样聚合与基于切比雪夫多项式的图卷积叠加构成,自适应图采样聚合的计算公式如下:

10、x′i=w1xi+w2·meanj∈n(i)xj,

11、

12、其中,x′i和xi分别表示基因节点i的嵌入表示向量和特征向量,meanj∈n(i)xj表示节点集n(i)中相邻基因节点的平均聚集,w1和w2都是可学习权重,hi表示对x′i进行归一化得到的归一化基因节点特征向量;编码器的第二层,即基于切比雪夫多项式的图卷积的计算公式如下:

13、

14、其中,代表基于切比雪夫多项式的图卷积学习到的特征表示,参数k控制切比雪夫过滤器的大小,其值为2,θ是一个权重矩阵,而z(k)是一个递归计算方法,其公式为:

15、z(1)=xpre,

16、

17、

18、其中,指从自适应图采样聚合得到的基因特征表示,指缩放归一化的拉普拉斯矩阵,这里的λmax为拉普拉斯矩阵l的最大特征值,i为一个单位矩阵;扰乱器计算方法为其中π表示随机排列顺序,x(π)表示根据排列顺序π对x进行重新排序,得到负样本特征矩阵摘要总结模块沿第一个维度计算正样本特征编码的平均值,其结果是一个与基因节点特征相同维度的特征向量随后将与正样本特征编码、负样本特征编码一同输入判别器,以计算正样本与摘要信息的相似概率得分和计算负样本与摘要信息的相似概率得分,其过程可以用公式表示为:

19、

20、其中,p表示基因节点是样本与摘要信息的相似概率得分,表示基因节点样本表示,既可以是负样本基因节点特征编码,也可以是正样本基因节点的特征编码,w是一个权重矩阵;目标函数用于最大化正样本与负样本文档来自技高网...

【技术保护点】

1.一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,所述异亲生物分子网络、网络中基因节点特征分别来自ENCORI(starBase v2.0)数据库、TCGA数据库,而辅助网络是将异亲生物分子网络与网络中基因节点特征输入至个性化PageRank算法生成的。

3.根据权利要求1所述的一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,所述图信息最大化模块是由两个编码器、一个扰乱器、一个摘要总结模块、两个判别器和一个目标函数组成;

4.根据权利要求1所述的一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,所述下游节点预测模块具体由自适应图采样聚合、图卷积层以及一种双重残差结构组成,图卷积层具体计算公式为:

5.根据权利要求1所述的一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,所述下游节点预测模块的训练,其具体过程为:先在下游节点预测模块中分别对H′enh和应用全连接层将其维度降至1维,再通过加权求和得到预测得分这一过程可用公式表述如下:

...

【技术特征摘要】

1.一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,所述异亲生物分子网络、网络中基因节点特征分别来自encori(starbase v2.0)数据库、tcga数据库,而辅助网络是将异亲生物分子网络与网络中基因节点特征输入至个性化pagerank算法生成的。

3.根据权利要求1所述的一种基于异亲图信息最大化的癌症驱动基因识别方法,其特征在于,所述图信息最大化模块是由两个编码器、一个...

【专利技术属性】
技术研发人员:谢兵苏波刘宁
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1