【技术实现步骤摘要】
本专利技术涉及肝细胞癌患者预后评估,特别是一种基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型。
技术介绍
1、肝细胞癌是全球最常见的恶性肿瘤之一。肝细胞癌预后极差,转移性肝癌的5年生存率仅有2.4%。在世界范围内,72%的肝癌病例发生于亚洲,其中以中国最多。近年来肝细胞癌发病率仍在持续增加,在我国,肝细胞癌的发病率亦呈逐年上升趋势,已成为我国公共卫生问题的重要组成部分。尽管肝细胞癌研究取得了新的进展,晚期肝细胞癌患者的生存率仍然很低,肝细胞癌的和预后评估一直是临床医学研究的热点问题。线粒体是细胞重要的代谢枢纽,其功能障碍被视为肿瘤细胞的重要特征。线粒体动力学是一种重要的细胞活动,包括线粒体的融合、分裂和质量控制等行为。线粒体动力学通过代谢重编程、减少线粒体融合、促进线粒体分裂、增加线粒体自噬和生物发生等过程促进肿瘤的发生、发展和转移,影响肿瘤细胞的耐药性。目前,肝细胞癌的评估主要依赖于影像学检查、血清生物标志物检测和病理学检查。尽管这些方法在一定程度上有助于肝细胞癌的早期发现,但在评估患者的预后状况上仍存在较大局限性。传统预后评估方法主要依据肿瘤大小、数目、血管侵犯程度等因素,但这些指标难以全面反映患者病情和预后。因此,寻找一种更为准确、高效的肝细胞癌预后模型具有重要意义。
2、近年来,随着人工智能技术的快速发展,机器学习算法在医学领域得到了广泛应用。机器学习算法通过对大量数据进行训练,挖掘潜在规律,为预后评估和临床管理提供有力支持。随着个体化医疗理念的深入人心,针对患者特定特征的预后模型越来越受到重视。将机
技术实现思路
1、本专利技术的目的在于提供一种基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型,旨在通过分析和处理基因转录组数据,基于线粒体动力学基因,利用机器学习算法辅助评估肝细胞癌患者未来的生存概率。
2、为实现上述目的及其他相关目的,本专利技术提供的技术方案是:一种基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,包括下列步骤:
3、步骤1:数据获取
4、从癌症基因组图谱数据库和基因型-组织表达数据库下载肝细胞癌患者的基因转录组数据和临床信息;经过清洗,得到肝细胞癌样本和1正常组织对照样本;对其按照7:3的比例随机划分为训练集和内部验证集;从mitocarta3.0网站得到线粒体动力学相关基因;
5、步骤2:进行关键基因的筛选
6、1、准备分析环境
7、准备r软件,加载r软件包limma、survival、ggplot2、tdm、randomforestsrc、proc;准备python软件,加载python软件程序库scikit-survival、streamlit;
8、2、数据预处理
9、(1)获取表达矩阵:从癌症基因组图谱数据库下载的数据中分别提取表达矩阵和患者临床生存信息;表达矩阵包含了各个样本的基因表达水平;对应的患者临床生存信息包括患者随访时间以及最后一次随访时的生存状态,还包括相关信息;并且以基因型-组织表达数据库的正常肝组织的转录组测序数据进行补充;
10、(2)将表达矩阵转换为数据框;
11、(3)对于转录组测序数据,首先基于基因注释文件将ensembl id转换为genesymbols名称,然后通过r语言apply函数按行计算基因表达量的均值,并基于均值对表达谱数据进行倒序排列;随后,对于重复的基因名称只保留其中表达量最大的一行作为代表;然后,基于每个样本的barcode标识将其标注为肿瘤组织样本和正常组织样本,为后续分析创建二元变量:"tumor"或"normal",并将其转换为因子;最后,使用r软件包“limma”对癌症基因组图谱数据库和基因型-组织表达数据库的正常肝组织转录组测序数据去除了批次效应而保留生物学效应使其具有可比性;对于患者的临床信息数据,从中提取了患者的随访时间及其最后一次随访对应的生存状态,然后通过样本的id与表达谱数据进行匹配;
12、3、差异基因分析
13、(1)使用r软件包“limma”对癌症基因组图谱数据库和基因型-组织表达数据库的数据进行转录组基因的差异表达分析;计算基因的校准后p值和对数倍数变化log2;
14、(2)创建设计矩阵后,使用lmfit基于拟合线性模型以评估组间是否存在显著的差异表达,使用ebayes进行贝叶斯统计推断;最后使用toptable提取差异表达基因,根据调整后的p值和对数倍数变化log2排序;
15、(3)将|对数倍数变化log2>1和fdr<0.05作为筛选标准,筛选出表达量显著上调和表达量显著下调的基因;
16、(4)根据差异基因分析结果绘制热图及火山图;共获得了6464个在肝细胞癌中表达量显著上调的基因和4771个表达显著下调的基因;
17、4、预后相关基因分析
18、(1)将所得差异基因与mitocarta3.0所获线粒体动力学基因取交集,得到20个肝细胞癌中差异表达的线粒体动力学基因,对其做预后显著性的分析;
19、(2)使用r软件包的“survival”包,整合基因表达数据和临床生存数据进行单因素cox回归分析,计算基因的危险比和p值,p<0.05被认为有预后显著性;最后得到10个在肝细胞癌中差异表达且与预后相关的线粒体动力学基因;
20、5、rf算法筛选关键基因
21、(1)通过得到的在肝细胞癌中差异表达且与预后相关的线粒体动力学基因,使用r软件包“randomforestsrc”中rf算法进一步减少基因数量;
22、(2)根据rf算法所得的基因重要性评分对基因排序,选取得分最高的6个基因:mtfr2、mtx1、bak1、chchd3、bax、mtfp1用于模型构建;
23、步骤3:肝细胞癌预后模型的构建
24、第1节:提取输入变量及预测变量
25、数据集为右删失类型数据,故使用python软件“scikit-survival”库中的get_x_y函数进行输入变量和预测变量的提取;其中输入变量包括六个基因的表达量数据,预测变量包括随访时间以及随访结局;
26、第2节:进行十折交叉验证
27、接着使用python软件“scikit-learn”库中的kfold函数将训练数据集进一步划分为训练数据和内部验证数据,其中交叉验证折数被设定为10;
28、第3节:构造目标函数
29、在十折交叉验证的基础上构造自定义函数,使用python软件“scikit-survival”库中的随机生存森林算法对训练数据进行拟合,并对内部验证数据进行预测,然后使用本文档来自技高网...
【技术保护点】
1.一种基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,其特征在于:包括下列步骤:
2.根据权利要求1所述的基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,其特征在于:相关信息包括性别、年龄、临床分期和病理分级。
3.根据权利要求1所述的基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,其特征在于:P值即错误发现率false discovery rate,FDR。
4.根据权利要求1所述的基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,其特征在于:表达量显著上调即对数倍数变化log2>1且FDR<0.05;表达量显著下调对数倍数变化log2<-1且FDR<0.05)的基因。
【技术特征摘要】
1.一种基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,其特征在于:包括下列步骤:
2.根据权利要求1所述的基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构建方法,其特征在于:相关信息包括性别、年龄、临床分期和病理分级。
3.根据权利要求1所述的基于线粒体动力学基因通过机器学习构建的肝细胞癌预后模型的构...
【专利技术属性】
技术研发人员:张宇辰,解茵茵,阎嘉琪,张宁,刘畅,吴越,
申请(专利权)人:安徽医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。