基于多组学数据的肿瘤准确分型的方法、其建立的评估肿瘤药物治疗效果的模型及模型的应用技术

技术编号：43045510 阅读：30 留言：0更新日期：2024-10-22 14:30

本发明专利技术公开了基于多组学数据的肿瘤准确分型的方法、其建立的评估肿瘤药物治疗效果的模型及该模型的应用，属于生物信息技术领域。包括以下步骤：S1、获取五种组学数据，分别是肾透明细胞癌(KIRC)患者的转录组数据；获得了Illumina DNA甲基化数据；获取体细胞基因突变数据和临床病理学特征数据；从癌症基因组图谱数据库中筛选具备五种组学数据的肾透明细胞癌(KIRC)患者用于组学分析；S5、使用机器学习模型对五种临床相关组学数据进行多组学数据分析，建立肾透明细胞癌(KIRC)患者的MOMC‑VM分子分型分类模型。本发明专利技术通过该方法，可以实现对肾透明细胞癌患者进行准确分子分型，能够评估肿瘤药物治疗效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息，具体涉及基于多组学数据的肿瘤准确分型的方法、其建立的评估肿瘤药物治疗效果的模型及该模型的应用。

技术介绍

1、目前早期肾癌能通过超声、ct、mri被诊断发现，能够和良性肾占位性疾病相互区分开来，例如肾囊肿、肾血管平滑肌脂肪瘤。通过术后或穿刺后的病理分级、tnm分期等指标能够揭示或指导患者后期抗肿瘤用药以及预后情况，但仍会在肿瘤异质性、耐药性方面无法做到明确的辨别。原因是不同于乳腺癌、卵巢癌、肺癌等常见癌症，目前肾癌没有较为明确的分子分型方式，肾癌没有分子分型的原因主要有两方面。首先，肾癌的组织学类型有多种，如透明细胞癌(kirc)、嫌色细胞癌(kich)、乳头状细胞癌(kirp)以及其他未分类的肾细胞癌等，这些类型肿瘤的生物学特性都有差异，因此在治疗和预后评估上会有所不同；其次，肾癌的分子分型主要依赖于肾癌的基因表达情况，而肾癌的基因表达往往存在异质性，这使得肿瘤的分子分型较为复杂。肾透明细胞癌是病理分型中占比最大的肾癌，有报道通过基因测序测定特定基因表达对肾透明细胞癌患者进行特定的分子分型区分，但区分效果并不如人意，往往只能从生存预后的角度发现生存预后组间存在较为明显的表达差异，并不能有效的对肾透明细胞癌患者进行区分，进而无法对特定的肾透明细胞癌患者的临床诊疗中提供有效的指导意见，无法为患者制定个性化的治疗方案。

技术实现思路

1、为了克服现有技术的不足，本专利技术的目的之一在于提供基于多组学数据的肿瘤准确分型的方法，通过该方法，可以实现对肾透明细胞癌患者

2、本专利技术的目的之二在于提供基于多组学数据的肿瘤准确分型的方法、及其在建立评估肿瘤药物治疗效果的模型中的应用。

3、本专利技术的目的之三在于提供基于多组学数据的肿瘤准确分型的方法的筛选鉴定方法，能够筛选鉴定到基于多组学数据的肿瘤准确分型的方法。

4、本专利技术的目的之一采用如下技术方案实现：

5、基于多组学数据的肿瘤准确分型的方法，包括以下步骤：

6、s1、获取五种组学数据，分别是癌症基因组图谱数据库(tcga)中的肾透明细胞癌(kirc)患者的转录组数据，所述转录组数据包括mrna表达谱数据和lncrna表达谱的数据(mrna/lncrna)；从xena数据库中获得了illumina dna甲基化数据；从cbioportal数据库中获取体细胞基因突变数据和临床病理学特征数据；从所述癌症基因组图谱数据库中筛选具备所述五种组学数据的肾透明细胞癌(kirc)患者用于组学分析；

7、s2、五种组学数据的处理，具体是：对于所述mrna表达谱数据和所述lncrna表达谱的数据，用fpkm计算处理；对于所述dna甲基化数据，保留基因启动子区cpg岛上有探针id标记的数据；对于所述体细胞基因突变数据，保留基因突变矩阵中具有非同义变异的体细胞基因突变数据；

8、s3、根据cox回归生存分析筛选所述五种组学数据中与总生存期最相关的因素组学数据，得到五种临床相关组学数据；

9、s4、通过计算聚类预测指数cpi和gap统计量，确定组学聚类的数目；

10、s5、使用movics分子分型r工具包中的机器学习模型对所述五种临床相关组学数据按照确定的组学聚类的数目进行多组学数据分析，建立肾透明细胞癌(kirc)患者的momc-vm分子分型分类模型，用于指导肿瘤准确分型。

11、进一步地，步骤s2中，将所述lncrna表达谱数据中的转录本记为：非编码、3'端重叠非编码rna、反义rna、长间隔非编码rna(lincrna)、内含子感应性正义重叠型及双向启动子lncrna亚型，并通过gencode27映射将所述转录本的ensembl id转换为基因符号。

12、进一步地，步骤s2中，所述体细胞基因突变数据包括移码缺失/插入突变数据、框内缺失/插入突变数据、错义/无义/非停止密码子突变数据以及剪接位点或起始密码子突变数据，即为所述具有非同义变异的体细胞基因突变数据。

13、进一步地，步骤s3中，对fpkm计算处理后的lncrna表达谱的数据在cox回归生存分析基础上，然后根据与金属离子诱导细胞死亡相关的mrna的相关性进行相关性筛选，相关性cor＞0.3的lncrna被纳入组学分析中。

14、进一步地，步骤s5中，所述movics分子分型r工具包中的机器学习模型为支持向量机(support vector machines)、k近邻算法(k-nearestneighbor)、随机森林(randomforest)、极限树(extra tree)、梯度提升机(xgboost)、mlp、lightgbm、naivebayes、adaboost、gradientboosting中的一种。

15、进一步地，分别采用多种所述机器学习模型得到的不同的聚类结果，将不同的聚类结果进行进一步整合，生成稳健的聚类结果模型，其中整合步骤如下：

16、s1、数据预处理：确保所有模型使用的数据集是一致的，包括特征选择、标准化等；

17、s2、模型选择：分别选择权利要求5中多种不同的聚类算法，包括支持向量机(support vectormachines)、k近邻算法(k-nearestneighbor)、随机森林(randomforest)、极限树(extra tree)、梯度提升机(xgboost)、mlp、lightgbm、naivebayes、adaboost、gradientboosting，以确保从不同角度分析数据；

18、s3、模型训练：分别对每种聚类算法进行训练，得到各自的聚类结果；

19、s4、结果分析：分析每种模型的聚类结果，包括聚类的数量、聚类的质量。

20、s5、一致性评估：评估不同模型聚类结果的一致性，使用的评估指标包括调整兰德系数(adjusted rand index)、归一化互信息(normalized mutual information)的一种。

21、s6、集成方法：使用集成方法来整合不同模型的聚类结果，常见的集成方法包括：

22、投票机制：每个数据点根据多数模型的聚类结果进行投票，最终确定其聚类；

23、堆叠(stacking)：将不同模型的聚类结果作为特征输入到一个新的分类模型中，训练这个模型来确定最终的聚类；

24、基于图的方法：构建一个图，其中节点表示数据点，边的权重表示数据点在不同模型中属于同一聚类的置信度，然后使用图聚类算法来整合结果；

25、s7、稳健性检验：对集成后的聚类结果进行稳健性检验，确保结果不是由个别模型的异常表现所驱动；

26、s8、结果解释：对最终的聚类结果进行解释，理解聚类背后的逻辑和数据结构；

27、s9、应本文档来自技高网...

【技术保护点】

1.基于多组学数据的肿瘤准确分型的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤S2中，将所述lncRNA表达谱数据中的转录本记为：非编码、3'端重叠非编码RNA、反义RNA、长间隔非编码RNA(lincRNA)、内含子感应性正义重叠型及双向启动子lncRNA亚型，并通过GENCODE27映射将所述转录本的Ensembl ID转换为基因符号。

3.根据权利要求2所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤S2中，所述体细胞基因突变数据包括移码缺失/插入突变数据、框内缺失/插入突变数据、错义/无义/非停止密码子突变数据以及剪接位点或起始密码子突变数据，即为所述具有非同义变异的体细胞基因突变数据。

4.根据权利要求3所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤S3中，对FPKM计算处理后的lncRNA表达谱的数据在Cox回归生存分析基础上，然后根据与金属离子诱导细胞死亡相关的mRNA的相关性进行相关性筛选，相关性COR＞0.3的lncRNA被纳入组学分析中。

5.根据权利要求4所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤S5中，所述MOVICS分子分型R工具包中的机器学习模型为支持向量机(supportvectormachines)、K近邻算法(K-NearestNeighbor)、随机森林(random forest)、极限树(Extra tree)、梯度提升机(Xgboost)、MLP、LightGBM、NaiveBayes、AdaBoost、GradientBoosting中的一种。

6.根据权利要求5所述的基于多组学数据的肿瘤准确分型的方法在建立评估肿瘤药物治疗效果的模型中的应用，其特征在于，分别采用权利要求5中多种所述机器学习模型得到的不同的聚类结果，将不同的聚类结果进行进一步整合，生成稳健的聚类结果模型，其中整合步骤如下：

7.根据权利要求6所述的基于多组学数据的肿瘤准确分型的方法在建立评估肿瘤药物治疗效果的模型中的应用，其特征在于，步骤S5后，将所述肾透明细胞癌(KIRC)患者的MOMC-VM分子分型分类模型从ROC曲线、DCA曲线、混淆矩阵、准确度方面进行预测能力评价，选择建立最优MOMC-VM分子分型分类模型的所述机器学习模型作为最终的分子分型的分类算法。

8.根据权利要求7所述的基于多组学数据的肿瘤准确分型的方法在建立评估肿瘤药物治疗效果的模型中的应用，其特征在于，步骤S3中，采用MAD算法对所述五种临床相关组学数据进行筛选，分别得到mRNA的精英标志物、lncRNA的精英标志物，基于所述mRNA的精英标志物、所述lncRNA的精英标志物，使用所述MOVICS分子分型R工具包中的机器学习模型按照确定的组学聚类的数目进行多组学数据分析，建立所述肾透明细胞癌(KIRC)患者的MOMC-VM分子分型分类模型。

9.基于多组学数据的肿瘤准确分型的方法建立的MOMC-VM分子分型分类模型，其特征在于，采用权利要求5所述的基于多组学数据的肿瘤准确分型的方法建立得到。

10.基于多组学数据的肿瘤准确分型的方法建立的MOMC-VM分子分型分类模型在评估肿瘤药物治疗效果中的应用，其特征在于，包括以下步骤：

...

【技术特征摘要】

1.基于多组学数据的肿瘤准确分型的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤s2中，将所述lncrna表达谱数据中的转录本记为：非编码、3'端重叠非编码rna、反义rna、长间隔非编码rna(lincrna)、内含子感应性正义重叠型及双向启动子lncrna亚型，并通过gencode27映射将所述转录本的ensembl id转换为基因符号。

3.根据权利要求2所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤s2中，所述体细胞基因突变数据包括移码缺失/插入突变数据、框内缺失/插入突变数据、错义/无义/非停止密码子突变数据以及剪接位点或起始密码子突变数据，即为所述具有非同义变异的体细胞基因突变数据。

4.根据权利要求3所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤s3中，对fpkm计算处理后的lncrna表达谱的数据在cox回归生存分析基础上，然后根据与金属离子诱导细胞死亡相关的mrna的相关性进行相关性筛选，相关性cor＞0.3的lncrna被纳入组学分析中。

5.根据权利要求4所述的基于多组学数据的肿瘤准确分型的方法，其特征在于，步骤s5中，所述movics分子分型r工具包中的机器学习模型为支持向量机(supportvectormachines)、k近邻算法(k-nearestneighbor)、随机森林(random forest)、极限树(extra tree)、梯度提升机(xgboost)、mlp、lightgbm、naivebayes、adaboost、gradien...

【专利技术属性】
技术研发人员：刘晶，王亮，王启飞，吴广圳，綦晓晨，王世锦，
申请(专利权)人：大连医科大学附属第一医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人