一种基于KRAS突变结肠癌基因的预后模型的建立方法技术

技术编号:34976843 阅读:20 留言:0更新日期:2022-09-21 14:18
本发明专利技术公开了一种基于KRAS突变结肠癌基因的预后模型的建立方法,属于预后模型的技术领域,包括以下步骤:S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用LASSO

【技术实现步骤摘要】
一种基于KRAS突变结肠癌基因的预后模型的建立方法


[0001]本专利技术是关于预后模型的
,特别是关于一种基于KRAS突变结肠癌基因的预后模型的建立方法。

技术介绍

[0002]结肠癌是一种常见的恶性肿瘤,根据国际癌症研究机构(InternationalAgency for Research on cancer,IARC)报告的癌症统计数据,2020年全球CRC 新发病例超过190万,死亡病例90万,CRC已成为全球癌症死亡的第二大原因。目前,粪便潜血检查 (FOBT)、粪便免疫化学检查(FIT)、软性乙状结肠镜检查(FS)等方法已被开发用于早期诊断,有助于提高结直肠癌的预后。即便如此,许多结直肠癌患者在晚期才被诊断出来。因此,CRC患者的预后仍然较差。
[0003]Kirsten大鼠肉瘤病毒癌基因(KRAS)突变是多种肿瘤发生的驱动因素。 KRAS基因突变占所有结肠病例的40%,其作为结肠癌分子靶向治疗药物—西妥昔单抗选择的重要治疗预测标志物;然而,KRAS基因突变是否能作为结肠癌的预后标志物?肿瘤学界仍然争论不休;一些回顾性资料支持KRAS 突变可能预示结肠癌患者预后不良;而另一些研究则不支持这种观点,认为单一KRAS突变指标无法预测结肠癌患者的预后,联合p53基因异常或微卫星稳定患者才有预后价值。
[0004]到目前为止,没有证据证明KRAS突变能够作为结肠癌的预后因素,本专利技术通过建立基于KRAS突变结肠癌基因的预后模型,进一步通过建立36个基因的表达检测把KRAS突变结肠癌分为低危和高危,有利于区别对待(治疗)。
[0005]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0006]本专利技术的目的在于提供一种基于KRAS突变结肠癌基因的预后模型的建立方法,其能够建立一个KRAS突变结肠癌的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现。
[0007]为实现上述目的,本专利技术提供了一种基于KRAS突变结肠癌基因的预后模型的建立方法,包括以下步骤:
[0008]S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;
[0009]S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用 LASSO

COX回归建立预后模型;
[0010]S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;
[0011]S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
[0012]在本专利技术的一实施方式中,所述矩阵数据共包括5个COAD数据集,分别为3个微阵
列数据集和2个RNA

seq数据集;3个微阵列数据集分别为 GSE41258数据集、GSE39582数据集和GSE17536数据集;2个RNA

seq数据集包括TCGA

COAD队列和CPTAC

COAD队列。
[0013]在本专利技术的一实施方式中,步骤S2包括以下具体的步骤:
[0014]S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集;
[0015]S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包采用LASSO

COX回归建立预后模型;
[0016]S203:根据所选基因的表达水平和系数计算样本的风险评分:
[0017][0018]在本专利技术的一实施方式中,步骤S3中,使用随机森林算法在GSE39582 数据集中对GEO队列中的KRAS突变状态进行了估计。
[0019]在本专利技术的一实施方式中,步骤S4中,使用GSE39582数据集的测试集作为内部验证,RNA

seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。
[0020]在本专利技术的一实施方式中,步骤S4包括以下具体的步骤:
[0021]S401:根据风险评分公式计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组;
[0022]S402:采用Kaplan

Meier生存分析估计和绘制高危和低危样本的生存曲线,log

rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性;
[0023]S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
[0024]与现有技术相比,根据本专利技术的一种基于KRAS突变结肠癌基因的预后模型的建立方法,采用LASSO

COX方法选择最优组合,并根据训练集中的预后基因,建立了一个新的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现,能够为KRAS突变的COAD患者的个体化预后管理提供了新的策略,为精准治疗提供新的思路。
附图说明
[0025]图1是根据本专利技术一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的步骤流程图;
[0026]图2是根据本专利技术一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的流程示意图。
具体实施方式
[0027]下面结合附图,对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。
[0028]除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
[0029]如图1至图2所示,根据本专利技术优选实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法,使用Randomforest方法以在更大样本量下获得更可靠的结果。
[0030]该方法包括以下步骤:
[0031]S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息。
[0032]本步骤中,矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA

seq数据集。
[0033]3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和 GSE17536数据集;2个RNA

seq数据集包括TCGA

COAD队列和 CPTAC

COAD队列,获取途径具体如下:
[0034]GSE39582数据集中的数据从GPL570平台中获取。具体地,从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE39582中的585例样本的矩阵数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,包括以下步骤:S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用LASSO

COX回归建立预后模型;S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。2.如权利要求1所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,所述矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA

seq数据集;3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和GSE17536数据集;2个RNA

seq数据集包括TCGA

COAD队列和CPTAC

COAD队列。3.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S2包括以下具体的步骤:S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集;S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包...

【专利技术属性】
技术研发人员:张鹤董伟伟赵慧霞胡琰琰杨静文张丰云曾志艳李秋文肖文华
申请(专利权)人:中国人民解放军总医院第四医学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1