基于图嵌入和层次聚类识别癌症驱动模块方法技术

技术编号：38666068 阅读：13 留言：0更新日期：2023-09-02 22:46

本发明专利技术公开了一种基于图嵌入和层次聚类识别癌症驱动模块方法，包括如下步骤：1）设定模型；2）构建加权网络；3）通过图嵌入技术提取加权蛋白质相互作用网络PPI的特征；4）对特征向量聚类；5）构建驱动模块集。这种方法更有效、更准确地识别驱动模块，而且识别出具有更高覆盖度和互斥度的驱动模块，还检测遗漏了的癌症相关的基因。相关的基因。相关的基因。

全部详细技术资料下载

【技术实现步骤摘要】
基于图嵌入和层次聚类识别癌症驱动模块方法

[0001]本专利技术涉及机器学习及生物信息学领域，具体是一种基于图嵌入和层次聚类识别癌症驱动模块方法。

技术介绍

[0002]癌症涉及多个生物组学，现有研究表明癌症是由于赋予细胞选择性生长优势的突变而产生的克隆增殖，这种对癌症的发生起促进作用的突变被称为驱动突变。驱动突变是肿瘤发生的病因，能被正选择，驱动正常细胞向增殖癌细胞的转化。这种突变的基因被称为驱动基因。在大量的体细胞突变中，其中大部分突变是在正常或癌细胞DNA复制和细胞增殖过程中产生的。这样的突变称之为乘客突变，这种突变的基因被称为乘客基因。为了挖掘体细胞突变数据，已经启动了多个大规模的癌症基因组测序项目，如癌症基因组图谱(TCGA)和国际癌症基因组联合会等，为多种癌症类型提供了各种各样的高通量数据。癌症基因组研究的一个重要挑战是识别驱动突变和驱动基因。功能相关的驱动基因组，也称为驱动模块或通路。最近的研究表明，单独识别和分析某个驱动基因并不能有效解释癌症复杂的遗传机制。因此，与单个驱动基因相比，具有驱动突变的基因组成的驱动模块在癌症发展中发挥着更重要的作用。针对之前技术存在不足和识别率低的问题，利用机器学习的方法去提升效率和准确度。
[0003]Vandin等人提出了Dendrix方法，以从体细胞突变数据中识别驱动路径。该方法引入了一个权重W,并且最大化函数W来实现目标，被称为最大权重子矩阵问题。Dendrix方法可以得到权重函数W较大的基因集，但是由于采用的是随机搜索过程，该方法可能只能得到局部最优解。...

【技术保护点】

【技术特征摘要】
1.基于图嵌入和层次聚类识别癌症驱动模块方法，其特征在于，包括如下步骤：1)设定模型：假设有一个来自L种L≥1癌症的体细胞数据的突变矩阵C
m
×
n
，其中行代表一组癌症样本S＝{s
i
|i＝1,2,
…
,m}，列代表一组基因GS＝{g
j
|j＝1,2,
…
,n}，矩阵中每一项c
ij
，i＝1,2,
…
,m,j＝1,2,
…
,n的值为1或0，表示基因g
j
在样本S
i
中是否突变，1表示突变，0表示不突变，对于每个g
j
∈GS，令S
j
表示样本集合，其中基因g
j
都是突变的基因，令P＝{M1,M2,
…
,M
r
}为模块集，如下所示：对于任何一对基因g
i
,g
j
∈M，其中g
i
≠g
j
，M表示一组选定的基因，也代表一个模块，基因子集M的互斥度通常表示为：若MEX(M)＝1，则子集M中的基因是互斥的，即每个样本中子集M中至少有一个基因突变，基因子集M的覆盖度通常表示为：若COV(M)＝1，则基因子集M完全覆盖所有患者，即每个样本至少有一个子集M内的至少一个基因发生突变；假设M
q
∈P是基因的一个子集，用RS(M
q
)表示模块M
q
相对大小，即P的互斥度得分定义为：P的覆盖度得分定义为：对于一个图G和一组M
q
的基因，让G(M
q
)表示由M
q
中基因对应的顶点G的子图，癌症驱动模块识别问题：给定作为输入的PPI网络G，每个基因g
i
的S
i
，total_genes和min_module_size，找到一组不相交的模块P，该模块集分数通常定义为：DMSS(P)＝MS(P)
×
CS(P)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(6)并满足以下条件：1.M
q
∈P,G(M
q
)是连通的2.3.2)构建加权网络：给定一个PPI网络G＝(V,E)表示连接的蛋白质相互作用网络，构造一个无向加权图G
w
，
其中每个顶点v
i
∈V表示从基因g
i
表达生成的蛋白质，每个无向边(v
i
,v
k
)∈E表示基因g
i
和基因g
k
，i≠k相应的蛋白质之间的相互作用，因此，g
i
既代表基因又代表蛋白质与蛋白质相互作用网络中相应的顶点；考虑基因与直接邻居基因存在紧密的联系，将节点g
i
及其直接邻居节点的集合定义为Ne(g
i
)，如下所示：为了平衡基因之间的互斥性以及基因与其周围基因共存的机会，利用MEX(Ne(g
i
))和MEX(Ne(g
j
))的平均值作为网络中基因对的互斥度MEX(g
i
,g
j
)，如下所示：为了减少单个基因的覆盖度过大或过小，使用两个基因的覆盖度乘积表示基因对之间的覆盖度COV(g
i
,g
j
)，如下所示：COV(g
i
，g
j
)＝COV({g
i
})
×
COV({g
j
})
ꢀꢀꢀꢀꢀ
(9)通过引入mirDIP数据库上基因与miRNA的置信度，用IS(e)表示，其中e表示边，计算出基因g
i
与g
j
之间的置信度TS(g
i
,g
j
)：G
i
＝(V
i
,E
i
)表示g
i
与miRNA相互作用网络，V
i
表示miRNA的节点集合，V
i
只含有miRNA节点,E
i
表示g
i
与miRNA边的集合，V
ij
＝V
i
∩V
j
，V
ij
只含有miRNA节点,表示g
i
与V
ij
节点集之间边的集合，表示g
j
与V
ij
节点集之间边的集合，表示g
i
与V
ij
节点集之间边的个数,表示g
j
与V
ij
节点集之间边的个数，当g
i
与g
j
之间没有共同的miRNA节点时即则Ts(g
i
,g
j
)设置为0.2；综合基因对之间的互斥度、覆盖度和置信度三个特征，计算加权无向图G
w
的边权如下：w
′
(g
i
，g
j
...

【专利技术属性】
技术研发人员：邓诗宇，吴璟莉，李高仕，刘佳飞，
申请(专利权)人：广西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人