乳腺癌预后模型的构建方法及应用方法、电子设备技术

技术编号:28298263 阅读:41 留言:0更新日期:2021-04-30 16:24
一种乳腺癌预后模型的构建方法及应用方法、电子设备及存储介质。该构建方法包括:获取多个乳腺癌样本集的转录组表达谱数据,其中,每个乳腺癌样本集包括多个乳腺癌样本;基于每个乳腺癌样本集的转录组表达谱数据,分析每个乳腺癌样本集中的每个乳腺癌样本的免疫浸润情况,并确定每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组;基于每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组的转录组表达数据,确定每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组之间的差异表达基因;基于每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组之间的差异表达基因,确定候选基因;以及基于候选基因,构建风险评分模型。

【技术实现步骤摘要】
乳腺癌预后模型的构建方法及应用方法、电子设备
本公开的实施例涉及一种乳腺癌预后模型的构建方法及应用方法、电子设备及存储介质。
技术介绍
预后是指根据经验预测的疾病发展情况。预后主要涉及到三个方面,将发生什么结果、发生不良结果的可能性以及时间点。研究和评级预后的目的,在于便于了解疾病对人类危害性的大小、探索影响预后的因素、研究改善预后的具体措施。预后分析是临床非常实用、对临床很有指导作用的临床研究。乳腺癌(BRCA)是最常见的恶性肿瘤之一,也是全球女性癌症死亡的第二大原因。仅在中国,BRCA预计占所有女性新发癌症病例的15%,是45岁以下女性癌症死亡的主要原因。乳腺癌是一种异质性疾病,具有不同的生物学表型、不同的治疗方案和预后。年龄、分子亚型、肿瘤AJCC分期等临床病理特征与预后及后续治疗方案有关。尽管许多分子分类已被广泛应用于临床诊断,并成为指导治疗方案选择的重要指标,但是,大多数研究(包括基于雌激素受体(ER)、孕激素受体(PR)、Ki-67和HER2的乳腺癌分子类型的研究)都倾向于关注肿瘤的特征,而对肿瘤微环境的研究却很少。
技术实现思路
本公开至少一些实施例提供一种乳腺癌预后模型的构建方法。该构建方法包括:获取多个乳腺癌样本集的转录组表达谱数据,其中,所述多个乳腺癌样本集中的每个乳腺癌样本集包括多个乳腺癌样本;基于所述每个乳腺癌样本集的转录组表达谱数据,分析所述每个乳腺癌样本集中的每个乳腺癌样本的免疫浸润情况,并确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组;基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组的转录组表达数据,确定所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因;基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因,确定候选基因;以及,基于所述候选基因,构建风险评分模型,其中,所述乳腺癌预后模型包括所述风险评分模型。例如,在本公开一些实施例提供的构建方法中,基于所述每个乳腺癌样本集的转录组表达谱数据,分析所述每个乳腺癌样本集中的每个乳腺癌样本的免疫浸润情况,并确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组,包括:基于所述每个乳腺癌样本集的转录组表达谱数据,采用单样本基因集富集分析对所述每个乳腺癌样本集中的每个乳腺癌样本的多种免疫浸润细胞的免疫浸润情况进行量化,并基于所述量化的结果对所述每个乳腺癌样本集中的所有乳腺癌样本进行相似性分析,以确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组。例如,在本公开一些实施例提供的构建方法中,基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因,确定所述候选基因,包括:将所述多个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因取交集,以得到所述候选基因。例如,在本公开一些实施例提供的构建方法中,基于所述候选基因,构建所述风险评分模型,包括:获取训练数据集;以及,通过LASSO-Cox回归分析结合十折交叉验证法,对所述候选基因进行筛选,以确定用于构建所述风险评分模型的基因以及所述风险评分模型,其中,所述风险评分模型表示为:RS=c1E1+…+cNEN,其中,RS表示风险评分,Ei表示用于构建所述风险评分模型的第i个基因的表达值,ci表示用于构建所述风险评分模型的第i个基因的系数,N表示用于构建所述风险评分模型的基因的数量。例如,在本公开一些实施例提供的构建方法中,用于构建所述风险评分模型的基因的数量为10,用于构建所述风险评分模型的基因包括C14orf79,C1orf168,C1orf226,CELSR2,FABP7,FGFBP1,IL-10,KLRB1,PLEKHO1和RAC2;所述风险评分模型表示为:RS=EC14orf79×(-0.114731735)+EC1orf168×(-0.019429183)+EC1orf226×(-0.049258060)+ECELSR2×(-0.055863001)+EFABP7×(-0.028295228)+EFGFBP1×(-0.008174118)+EIL-10×0.020753075+EKLRB1×(-0.121245004)+EPLEKHO1×(-0.049187024)+ERAC2×(-0.003657534),其中,EC14orf79表示基因C14orf79的表达值,EC1orf168表示基因C1orf168的表达值,EC1orf226表示基因C1orf226的表达值,ECELSR2表示基因CELSR2的表达值,EFABP7表示基因FABP7的表达值,EFGFBP1表示基因FGFBP1的表达值,EIL-10表示基因IL-10的表达值,EKLRB1表示基因KLRB1的表达值,EPLEKHO1表示基因PLEKHO1的表达值,ERAC2表示基因RAC2的表达值。例如,在本公开一些实施例提供的构建方法中,基于所述候选基因,构建所述风险评分模型,还包括:基于所述训练数据集,评估所述风险评分模型的预测性能。例如,在本公开一些实施例提供的构建方法中,基于所述训练数据集,评估所述风险评分模型的预测性能,包括:基于所述风险评分模型计算所述训练数据集中的每个受试者的风险评分;根据所述训练数据集中的所有受试者的风险评分确定分组截断值,并根据所述分组截断值将所述训练数据集中的受试者划分为第一高风险组与第一低风险组;以及,使用所述训练数据集的Kaplan-Meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。例如,在本公开一些实施例提供的构建方法中,基于所述训练数据集,评估所述风险评分模型的预测性能,还包括:对所述训练数据集进行多因素Cox回归分析,以评估风险评分用于预测生存情况的鲁棒性;以及,使用所述训练数据集的受试者操作特征曲线分析评估风险评分模型的拟合优度。例如,在本公开一些实施例提供的构建方法中,基于所述候选基因,构建所述风险评分模型,还包括:获取验证数据集;以及,基于所述验证数据集,验证所述风险评分模型的效能。例如,在本公开一些实施例提供的构建方法中,基于所述验证数据集,验证所述风险评分模型的效能,包括:基于所述风险评分模型计算所述验证数据集中的每个受试者的风险评分;以及,根据所述分组截断值将所述验证数据集中的所有受试者分为第二高风险组与第二低风险组,并使用所述验证数据集的Kaplan-Meier曲线验证所述第二高风险组与所述第二低风险组在生存情况方面是否具有显著差异。例如,本公开一些实施例提供的构建方法,还包括:结合所述风险评分、病理分期和年龄三个预后指标,利用多因素Cox回归分析构建列线图模型;其中,所述乳腺癌预后模型还包括所述列线图模型。本公开至少一些实施例还提供一种乳腺癌预后模型的应用方法,其中,所述乳腺癌预后模型包括本公开任一实施例提供的构建方法构建得到的所述风险评分模型,所述应本文档来自技高网...

【技术保护点】
1.一种乳腺癌预后模型的构建方法,包括:/n获取多个乳腺癌样本集的转录组表达谱数据,其中,所述多个乳腺癌样本集中的每个乳腺癌样本集包括多个乳腺癌样本;/n基于所述每个乳腺癌样本集的转录组表达谱数据,分析所述每个乳腺癌样本集中的每个乳腺癌样本的免疫浸润情况,并确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组;/n基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组的转录组表达数据,确定所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因;/n基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因,确定候选基因;以及/n基于所述候选基因,构建风险评分模型,/n其中,所述乳腺癌预后模型包括所述风险评分模型。/n

【技术特征摘要】
1.一种乳腺癌预后模型的构建方法,包括:
获取多个乳腺癌样本集的转录组表达谱数据,其中,所述多个乳腺癌样本集中的每个乳腺癌样本集包括多个乳腺癌样本;
基于所述每个乳腺癌样本集的转录组表达谱数据,分析所述每个乳腺癌样本集中的每个乳腺癌样本的免疫浸润情况,并确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组;
基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组的转录组表达数据,确定所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因;
基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因,确定候选基因;以及
基于所述候选基因,构建风险评分模型,
其中,所述乳腺癌预后模型包括所述风险评分模型。


2.根据权利要求1所述的构建方法,其中,基于所述每个乳腺癌样本集的转录组表达谱数据,分析所述每个乳腺癌样本集中的每个乳腺癌样本的免疫浸润情况,并确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组,包括:
基于所述每个乳腺癌样本集的转录组表达谱数据,采用单样本基因集富集分析对所述每个乳腺癌样本集中的每个乳腺癌样本的多种免疫浸润细胞的免疫浸润情况进行量化,并基于所述量化的结果对所述每个乳腺癌样本集中的所有乳腺癌样本进行相似性分析,以确定所述每个乳腺癌样本集中的第一免疫浸润组和第二免疫浸润组。


3.根据权利要求1或2所述的构建方法,其中,基于所述每个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因,确定所述候选基因,包括:
将所述多个乳腺癌样本集中的所述第一免疫浸润组和所述第二免疫浸润组之间的差异表达基因取交集,以得到所述候选基因。


4.根据权利要求1或2所述的构建方法,其中,基于所述候选基因,构建所述风险评分模型,包括:
获取训练数据集;以及
通过LASSO-Cox回归分析结合十折交叉验证法,对所述候选基因进行筛选,以确定用于构建所述风险评分模型的基因以及所述风险评分模型,其中,所述风险评分模型表示为:
RS=c1E1+…+cNEN,
其中,RS表示风险评分,Ei表示用于构建所述风险评分模型的第i个基因的表达值,ci表示用于构建所述风险评分模型的第i个基因的系数,N表示用于构建所述风险评分模型的基因的数量。


5.根据权利要求4所述的构建方法,其中,用于构建所述风险评分模型的基因的数量为10,用于构建所述风险评分模型的基因包括C14orf79,C1orf168,C1orf226,CELSR2,FABP7,FGFBP1,IL-10,KLRB1,PLEKHO1和RAC2;所述风险评分模型表示为:
RS=EC14orf79×(-0.114731735)+EC1orf168×(-0.019429183)+EC1orf226×(-0.049258060)+ECELSR2×(-0.055863001)+EFABP7×(-0.028295228)+EFGFBP1×(-0.008174118)+EIL-10×0.020753075+EKLRB1×(-0.121245004)+EPLEKHO1×(-0.049187024)+ERAC2×(-0.003657534),
其中,EC14orf79表示基因C14orf79的表达值,EC1orf168表示基因C1orf168的表达值,EC1orf226表示基因C1orf226的表达值,ECELSR2表示基因CELSR2的表达值,EFABP7表示基因FABP7的表达值,EFGFBP1表示基因FGFBP1的表达值,EIL-10表示基因IL-10的表达值,EKLRB1表示基因KLRB1的表达值,EPLEKHO...

【专利技术属性】
技术研发人员:王一澎张毅冯林程书钧张开泰肖汀
申请(专利权)人:中国医学科学院肿瘤医院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1