当前位置: 首页 > 专利查询>云南大学专利>正文

基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质技术方案

技术编号:24414399 阅读:56 留言:0更新日期:2020-06-06 10:45
本发明专利技术公开了一种基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质,该方法利用训练数据集对改进XGBoost模型进行训练,至模型收敛;其中,改进的XGBoost模型为在XGBoost模型基础上,增加了阈值选择流程,阈值用于控制正负样本的分类边界,阈值选择流程根据分类指标对阈值进行调整。本发明专利技术以树形结构XGBoost为基础,通过分裂节点选取的方式,解决了生物数据连续值中异常值的问题,同时解决因数据预处理带来的数据分类边界偏移的问题;支持交叉验证,可通过提前停止来获得最优的训练效果。创新的改进XGBoost,增加阈值控制,解决因类别数据样本不平衡带来的权重偏移问题,提升预测的AUROC和AUPR值,使分类效果达到更优。

Pan cancer gene pathway prediction method, system and storage medium based on improved xgboost

【技术实现步骤摘要】
基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质
本专利技术涉及生物基因领域,尤其是一种基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质。
技术介绍
根据TCGA基因表达数据预测泛癌症基因通路,能够对癌症进行早期诊断,并发现基因表达和癌症通路激活之间的关系,提出一个泛癌症基因通路分析算法XBPCPA,利用机器学习XGBoost算法,对9000多个样本1.8亿多个特征点进行数据整合,挖掘分析了泛癌症基因表达对通路激活情况的影响。设计了阈值控制超参数对正负样本的分类边界进行控制,解决数据中样本不平衡的问题,提升分类评估参数AUC和AUPR。对比实验表明,XBPCPA算法对癌症通路预测具有较高的泛化性能。泛癌症(Pan-Cancer)包含了人类33种常见的癌症,癌症基因图谱(TheCancerGenomeAtlas,TCGA)是由美国国家人类基因组和美国国家癌症研究所共同完成收集33种常见的癌症11000多个肿瘤样本基因数据的项目(https://cancergenome.nih.gov/),本实验根据TCGA上的泛癌症图谱(PanCancerAtlas)的基因表达数据,数目变异数据对泛癌症相关的基因通路进行预测,并在此基础上对不同的基因的表达对基因通路的激活的贡献程度进行排序,在预测的通路的同时得出与该通路相关的基因及其表达情况。对RAS通路和P53通路进行了实验和验证可以发现,RAS通路在大部分的癌症中发生了改变,当RAS通路被激活,通常是发生了数目变异,其中包括增加模式变异(KRAS,NRAS和HRAS变异)和丢失模式变异(NF1变异)。诸如胰腺癌,皮肤黑色素瘤,甲状腺癌,肺腺癌等癌症类型确定有RAS基因通路变异引发的。除此之外,RAS通路的变异被证实是癌症发生的早期事件。RAS通路变异引发的癌症较难治疗,准确的预测和定位引发RAS通路激活的条件对后续的治疗至关重要。P53通路是目前已知和癌症相关程度最高的基因,在已知的大量癌症中,发现P53的变异和异常表达。P53更是被作为癌症诊断的标志,准确的预测无疑会更早的发现并进行相应的治疗。2018年,GregoryP.Wa在《cellreport》上的文章《Machinelearningdetectspan-cancerraspathwayactivationinthecancergenomeatlas》,使用记忆型算法逻辑回归,对RAS通路进行预测,在该方法中,5迭交叉验证的拟合能力表现AUROC为0.86,AUPR为0.61,在新数据集上的泛化能力表现AUROC为0.76,AUPR为0.58。但是该方法泛化能力低,不能用于除RAS通路的其他通路。并且方法的评估参数AUROC,AUPR并未达到数据的理论上限。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种针对泛癌症基因通路的泛化性能强,用于多种数据类型和预测多种泛癌症基因通路的方法。本专利技术以树形结构XGBoost为基础,通过分裂节点选取的方式,解决了生物数据连续值中异常值的问题,同时解决因数据预处理带来的数据分类边界偏移的问题;支持交叉验证,可通过提前停止来获得最优的训练效果。创新的改进XGBoost,增加阈值控制,解决因类别数据样本不平衡带来的权重偏移问题,提升预测的AUROC和AUPR值,使分类效果达到更优。本专利技术采用的技术方案如下:一种基于改进XGBoost的泛癌症基因通路预测方法,其包括以下步骤:利用训练数据集对改进XGBoost模型进行训练,至模型收敛;其中,改进的XGBoost模型为在XGBoost模型基础上,增加了阈值选择流程,所述阈值用于控制正负样本的分类边界,所述阈值选择流程根据分类指标对阈值进行调整。上述的训练数据集,为获取的癌症样本数据,各癌症样本对应于所属的癌症类型。在XGBoost模型基础上增加阈值选择流程,可以解决因类别数据样本不平衡带来的权重偏移问题。以树形结构XGBoost为基础,通过分裂节点选取的方式,解决了生物数据连续值中异常值的问题,同时解决因数据预处理带来的数据分类边界偏移的问题。进一步的,所述利用训练数据集对改进XGBoost模型进行训练的方法具体包括:将训练数据集使用改进XGBoost模型训练,利用K折交叉验证训练所述改进XGBoost模型。本专利技术支持交叉验证,可通过提前停止来获得最优的训练效果。进一步的,所述分类指标为ROC-AUC。进一步的,所述利用K折交叉验证训练所述改进XGBoost模型过程中,调整的参数包括迭代次数、生成树的最大深度、下采样系数、正则化系数和学习率。进一步的,所述K=5。进一步的,所述根据分类指标对阈值进行调整的过程包括:以0.5作为基准阈值,对正负样本区间进行预测,计算AUROC,根据计算结果对阈值进行调整。进一步的,所述训练数据集的准备过程包括:将数目变异矩阵和基因表达矩阵根据样本ID进行合并;使用样本的突变数据打上标签;其中,数目变异矩阵和基因表达矩阵由RNA-seq、拷贝数和突变数据对应录入生成;对合并后的矩阵进行预处理,所述预处理包括过滤步骤,以最终得到训练数据集。进一步的,所述对整合后的数据进行预处理的步骤包括:根据样本ID整合表达数据和变异数据,过滤患者数据量未达预定数量的癌症类别。一种计算机可读存储介质,其存储有计算机程序,运行该计算机程序可执行上述的基于改进XGBoost的泛癌症基因通路预测方法。一种基于改进XGBoost的泛癌症基因通路预测系统,包括处理器和上述的计算机可读存储介质,所述处理器用于运行所述计算机可读存储介质中存储的计算机程序,以运行基于改进XGBoost的泛癌症基因通路预测方法。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术以树形结构XGBoost为基础,通过分裂节点选取的方式,解决了生物数据连续值中异常值的问题,同时解决因数据预处理带来的数据分类边界偏移的问题;支持交叉验证,可通过提前停止来获得最优的训练效果。创新的改进XGBoost,增加阈值控制(阈值选取),解决因类别数据样本不平衡带来的权重偏移问题,提升预测的AUROC和AUPR值(基因通路预测的评价指标),使分类效果达到更优,模型泛化性能有很大的提升。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是本专利技术基于改进XGBoost的泛癌症基因通路预测方法流程图。图2是改进XGBoost模型结构图。图3是样本过滤后各癌症的P53通路分布图。图4是采用本专利技术方法训练的P53模型的预测结果的评价指标。图5是样本过滤后各癌症的RAS通路分布图。图6是采用本专利技术方法训练的RAS模型的预测结果的评价指标。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任本文档来自技高网
...

【技术保护点】
1.一种基于改进XGBoost的泛癌症基因通路预测方法,其特征在于,包括以下步骤:/n利用训练数据集对改进XGBoost模型进行训练,至模型收敛;其中,改进的XGBoost模型为在XGBoost模型基础上,增加了阈值选择流程,所述阈值用于控制正负样本的分类边界,所述阈值选择流程根据分类指标对阈值进行调整。/n

【技术特征摘要】
1.一种基于改进XGBoost的泛癌症基因通路预测方法,其特征在于,包括以下步骤:
利用训练数据集对改进XGBoost模型进行训练,至模型收敛;其中,改进的XGBoost模型为在XGBoost模型基础上,增加了阈值选择流程,所述阈值用于控制正负样本的分类边界,所述阈值选择流程根据分类指标对阈值进行调整。


2.如权利要求1所述的基于改进XGBoost的泛癌症基因通路预测方法,其特征在于,所述利用训练数据集对改进XGBoost模型进行训练的方法具体包括:将训练数据集使用改进XGBoost模型训练,利用K折交叉验证训练所述改进XGBoost模型。


3.如权利要求2所述的基于改进XGBoost的泛癌症基因通路预测方法,其特征在于,所述分类指标为ROC-AUC。


4.如权利要求2所述的基于改进XGBoost的泛癌症基因通路预测方法,其特征在于,所述利用K折交叉验证训练所述改进XGBoost模型过程中,调整的参数包括迭代次数、生成树的最大深度、下采样系数、正则化系数和学习率。


5.如权利要求2所述的基于改进XGBoost的泛癌症基因通路预测方法,其特征在于,所述K=5。


6.如权利要求1~4任一所述的基于改进XGBoost的泛癌症基因通路预测方法,其特征在...

【专利技术属性】
技术研发人员:阿丽玛刘朝锐张玉周维
申请(专利权)人:云南大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1