基于图嵌入和层次聚类识别癌症驱动模块方法技术

技术编号:38666068 阅读:13 留言:0更新日期:2023-09-02 22:46
本发明专利技术公开了一种基于图嵌入和层次聚类识别癌症驱动模块方法,包括如下步骤:1)设定模型;2)构建加权网络;3)通过图嵌入技术提取加权蛋白质相互作用网络PPI的特征;4)对特征向量聚类;5)构建驱动模块集。这种方法更有效、更准确地识别驱动模块,而且识别出具有更高覆盖度和互斥度的驱动模块,还检测遗漏了的癌症相关的基因。相关的基因。相关的基因。

【技术实现步骤摘要】
基于图嵌入和层次聚类识别癌症驱动模块方法


[0001]本专利技术涉及机器学习及生物信息学领域,具体是一种基于图嵌入和层次聚类识别癌症驱动模块方法。

技术介绍

[0002]癌症涉及多个生物组学,现有研究表明癌症是由于赋予细胞选择性生长优势的突变而产生的克隆增殖,这种对癌症的发生起促进作用的突变被称为驱动突变。驱动突变是肿瘤发生的病因,能被正选择,驱动正常细胞向增殖癌细胞的转化。这种突变的基因被称为驱动基因。在大量的体细胞突变中,其中大部分突变是在正常或癌细胞DNA复制和细胞增殖过程中产生的。这样的突变称之为乘客突变,这种突变的基因被称为乘客基因。为了挖掘体细胞突变数据,已经启动了多个大规模的癌症基因组测序项目,如癌症基因组图谱(TCGA)和国际癌症基因组联合会等,为多种癌症类型提供了各种各样的高通量数据。癌症基因组研究的一个重要挑战是识别驱动突变和驱动基因。功能相关的驱动基因组,也称为驱动模块或通路。最近的研究表明,单独识别和分析某个驱动基因并不能有效解释癌症复杂的遗传机制。因此,与单个驱动基因相比,具有驱动突变的基因组成的驱动模块在癌症发展中发挥着更重要的作用。针对之前技术存在不足和识别率低的问题,利用机器学习的方法去提升效率和准确度。
[0003]Vandin等人提出了Dendrix方法,以从体细胞突变数据中识别驱动路径。该方法引入了一个权重W,并且最大化函数W来实现目标,被称为最大权重子矩阵问题。Dendrix方法可以得到权重函数W较大的基因集,但是由于采用的是随机搜索过程,该方法可能只能得到局部最优解。
[0004]iMCMC方法融合了体细胞突变、拷贝数变异和基因表达数据。但是iMCMC只计算了模块中基因突变的互斥性,并没有计算基因对突变的互斥性。
[0005]ComMDP和SpeMDP(Zhang等人,2017)方法通过利用整数线性规划计算最大排除子矩阵问题,重点是识别互斥基因集。由于存在大量突变基因的组合,从头识别方法通常通过使用基于突变频率的预过滤来降低固有的计算复杂性,并可能忽略一些包含罕见突变的致癌基因或通路。
[0006]HotNet2方法,Leiserson等人提出一个HotNet2方法,该方法基于网络模型,通过网络分析来识别驱动模块和蛋白质复合物。HotNet2使用绝缘的热扩散过程,该过程考虑了单个基因的突变频率以及相应蛋白质之间相互作用的已知拓扑,从而获得了一个扩散矩阵,并从该矩阵中识别出癌症驱动模块。虽然许多被识别出来的驱动模块在泛癌或单癌中均表现出显著的共现性,但是互斥性却只在模块内表现,没有在模块之间表现出来。
[0007]MEMCover方法Kim等人将互斥度分为三类分别是:组织内互斥、跨组织类型互斥度、组织类型之间的互斥度。该方法识别出的子网络中不仅包括目前已知的泛癌失调的模块,而且包含了跨癌症作用尚未探索到的新模块。然而,MEMCover方法中子网的选择受互斥、相互作用的网络的连通性及样本覆盖度等三个因素的影响。因此,该方法识别出的子网
络一定包含互斥基因集。
[0008]MEXCOwalk方法,Ahmed等人提出的MEXCOwalk方法是一种基于边缘加权的随机游走的方法。该方法将突变数据与蛋白质

蛋白质相互作用网相融合,将基因的互斥性和覆盖度与蛋白质相互作用相结合,形成了一个顶点和边缘加权的网络。顶点权重对应于基因的覆盖率,边缘权重对应于基因的互斥性与蛋白质相互作用网的连接信息。MEXCOwalk不仅可以识别已知的显著癌症基因,还可以识别在泛癌数据中很少发生突变的罕见突变致癌基因。
[0009]Wu等人提出了ECSWalk,它通过网络拓扑结构引入了一个基于JS散度的节点结构相似度,改进了MEXCOwalk中分裂和扩展的方法,使其识别具有更高生物相关性和统计显著性的候选基因集。

技术实现思路

[0010]本专利技术的目的是针对现有技术存在不足和识别率低的问题,而提出一种基于图嵌入和层次聚类识别癌症驱动模块方法。这种方法能够更有效、更准确地识别驱动模块,而且能够识别出具有更高覆盖度和互斥度的驱动模块,还能检测遗漏了的癌症相关的基因。
[0011]实现本专利技术目的的技术方案是:
[0012]基于图嵌入和层次聚类识别癌症驱动模块方法,包括如下步骤:
[0013]1)设定模型:
[0014]假设有一个来自L种L≥1癌症的体细胞数据的突变矩阵C
m
×
n
,其中行代表一组癌症样本S={s
i
|i=1,2,

,m},列代表一组基因GS={g
j
|j=1,2,

,n},矩阵中每一项c
ij
,i=1,2,

,m,j=1,2,

,n的值为1或0,表示基因g
j
在样本S
i
中是否突变,1表示突变,0表示不突变,对于每个g
j
∈GS,令S
j
表示样本集合,其中基因g
j
都是突变的基因,令P={M1,M2,

,M
r
}为模块集,如下所示:
[0015][0016]对于任何一对基因g
i
,g
j
∈M,其中g
i
≠g
j
,M表示一组选定的基因,也代表一个模块,基因子集M的互斥度通常表示为:
[0017][0018]若MEX(M)=1,则子集M中的基因是互斥的,即每个样本中子集M中至少有一个基因突变,基因子集M的覆盖度通常表示为:
[0019][0020]若COV(M)=1,则基因子集M完全覆盖所有患者,即每个样本至少有一个子集M内的至少一个基因发生突变;
[0021]假设M
q
∈P是基因的一个子集,尽管许多先前的研究对此提供了互斥度和覆盖度的定义,但它们均未考虑模块大小的影响,用RS(M
q
)表示模块M
q
相对大小,即P的互斥度得分定义为:
[0022][0023]P的覆盖度得分定义为:
[0024][0025]对于一个图G和一组M
q
的基因,让G(M
q
)表示由M
q
中基因对应的顶点G的子图,癌症驱动模块识别问题:给定作为输入的PPI网络G,每个基因g
i
的S
i
,total_genes和min_module_size,找到一组不相交的模块P,该模块集分数通常定义为:
[0026]DMSS(P)=MS(P)
×
CS(P)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0027]并满足以下条件:
[0028]1.M
q
∈P,G(M
q
)是连通的
[0029]2.
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图嵌入和层次聚类识别癌症驱动模块方法,其特征在于,包括如下步骤:1)设定模型:假设有一个来自L种L≥1癌症的体细胞数据的突变矩阵C
m
×
n
,其中行代表一组癌症样本S={s
i
|i=1,2,

,m},列代表一组基因GS={g
j
|j=1,2,

,n},矩阵中每一项c
ij
,i=1,2,

,m,j=1,2,

,n的值为1或0,表示基因g
j
在样本S
i
中是否突变,1表示突变,0表示不突变,对于每个g
j
∈GS,令S
j
表示样本集合,其中基因g
j
都是突变的基因,令P={M1,M2,

,M
r
}为模块集,如下所示:对于任何一对基因g
i
,g
j
∈M,其中g
i
≠g
j
,M表示一组选定的基因,也代表一个模块,基因子集M的互斥度通常表示为:若MEX(M)=1,则子集M中的基因是互斥的,即每个样本中子集M中至少有一个基因突变,基因子集M的覆盖度通常表示为:若COV(M)=1,则基因子集M完全覆盖所有患者,即每个样本至少有一个子集M内的至少一个基因发生突变;假设M
q
∈P是基因的一个子集,用RS(M
q
)表示模块M
q
相对大小,即P的互斥度得分定义为:P的覆盖度得分定义为:对于一个图G和一组M
q
的基因,让G(M
q
)表示由M
q
中基因对应的顶点G的子图,癌症驱动模块识别问题:给定作为输入的PPI网络G,每个基因g
i
的S
i
,total_genes和min_module_size,找到一组不相交的模块P,该模块集分数通常定义为:DMSS(P)=MS(P)
×
CS(P)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(6)并满足以下条件:1.M
q
∈P,G(M
q
)是连通的2.3.2)构建加权网络:给定一个PPI网络G=(V,E)表示连接的蛋白质相互作用网络,构造一个无向加权图G
w

其中每个顶点v
i
∈V表示从基因g
i
表达生成的蛋白质,每个无向边(v
i
,v
k
)∈E表示基因g
i
和基因g
k
,i≠k相应的蛋白质之间的相互作用,因此,g
i
既代表基因又代表蛋白质与蛋白质相互作用网络中相应的顶点;考虑基因与直接邻居基因存在紧密的联系,将节点g
i
及其直接邻居节点的集合定义为Ne(g
i
),如下所示:为了平衡基因之间的互斥性以及基因与其周围基因共存的机会,利用MEX(Ne(g
i
))和MEX(Ne(g
j
))的平均值作为网络中基因对的互斥度MEX(g
i
,g
j
),如下所示:为了减少单个基因的覆盖度过大或过小,使用两个基因的覆盖度乘积表示基因对之间的覆盖度COV(g
i
,g
j
),如下所示:COV(g
i
,g
j
)=COV({g
i
})
×
COV({g
j
})
ꢀꢀꢀꢀꢀ
(9)通过引入mirDIP数据库上基因与miRNA的置信度,用IS(e)表示,其中e表示边,计算出基因g
i
与g
j
之间的置信度TS(g
i
,g
j
):G
i
=(V
i
,E
i
)表示g
i
与miRNA相互作用网络,V
i
表示miRNA的节点集合,V
i
只含有miRNA节点,E
i
表示g
i
与miRNA边的集合,V
ij
=V
i
∩V
j
,V
ij
只含有miRNA节点,表示g
i
与V
ij
节点集之间边的集合,表示g
j
与V
ij
节点集之间边的集合,表示g
i
与V
ij
节点集之间边的个数,表示g
j
与V
ij
节点集之间边的个数,当g
i
与g
j
之间没有共同的miRNA节点时即则Ts(g
i
,g
j
)设置为0.2;综合基因对之间的互斥度、覆盖度和置信度三个特征,计算加权无向图G
w
的边权如下:w

(g
i
,g
j
...

【专利技术属性】
技术研发人员:邓诗宇吴璟莉李高仕刘佳飞
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1