一种基于机器学习的基因组不稳定性评估方法及系统技术方案

技术编号:38031828 阅读:10 留言:0更新日期:2023-06-30 10:58
本发明专利技术公开了一种基于机器学习的基因组不稳定性评估方法及系统,方法包括:采集并接收生物样本,对生物样本进行处理获得基因组样本;将基因组样本分为训练集和验证集,基于训练集和验证集进行建模获得基因组不稳定性评估模型;基于多个HRR基因形成的基因集合形成建模标准,对基因组不稳定性评估模型进行训练;基于多个基因组不稳定指标对基因组不稳定性进行评估。本发明专利技术采用更加复杂精准的机器学习模型算法代替原有直接相加算法;建模标准包括BRCA1/2和其他在突变率、与基因组不稳定性的关联、与药物疗效的关联方面具有良好性能从而可纳入的HRR基因;从而通过精准的机器学习建模方法获得更好的基因组不稳定性分析和评估效果。估效果。估效果。

【技术实现步骤摘要】
一种基于机器学习的基因组不稳定性评估方法及系统


[0001]本专利技术涉及医疗
,尤其涉及一种基于机器学习的基因组不稳定性评估方法及系统。

技术介绍

[0002]同源重组修复缺陷(HRD)状态是多种肿瘤治疗选择及预后的关键指标,临床研究结果证实,HRD状态与铂类化疗药物、PARP抑制剂敏感性高度相关。目前FDA已经批准HRD检测为卵巢癌患者使用奥拉帕尼和尼拉帕利的伴随诊断标志物。奥拉帕尼是全球及国内上市的首个PARP抑制剂,分别在卵巢癌、乳腺癌、前列腺癌、胰腺癌等患者中获批。据报道,在卵巢癌患者中每两个患者就有一个存在HRD。相比BRCA突变,HRD检测可提高一倍PARP抑制剂敏感人群。正常的细胞中存在着复杂的DNA修复系统,其中包括修复DNA单链断裂的PARP(多聚二磷酸腺苷核酸聚合酶)和修复DNA双链断裂的BRCA1、BRCA2和PALB2等蛋白所在的DNA同源重组修复(HRR)通路。同源重组修复(HRR)是DNA双链断裂修复的重要机制。在DNA双链断裂修复(DSBR)通路中,BRCA1和BRCA2基因是同源重组修复通路商的两个关键基因,如果BRCA1或BRCA2出现基因突变导致蛋白功能丧失,就会引起同源重组修复功能缺陷HRD,此外,这些基因的突变或BRCA1基因启动子发生甲基化引起HRD,会导致基因组不稳定,表现为“基因组瘢痕”,包括LOH(基因组杂合性缺失)、TAI(端粒等位基因不平衡)以及LST(大片段迁移)。
[0003]PARP(聚腺苷二磷酸核糖聚合酶)是一种在DNA单链断裂修复过程中至关重要的酶,负责DNA单链损伤修复。如果使用PARP抑制剂使DNA单链修复功能被阻断,携带单链突变的细胞在复制增殖后就会造成DNA双链断裂,如果该细胞同时存在同源修复缺陷(HRD),大量双链断裂不能被修复,细胞就会死亡。PARP抑制剂的这种作用机制被称为“合成致死”效应。
[0004]HRD导致基因组不稳定,表现为“基因组瘢痕”HRD score检测是目前比较公认的评估HRD状态的方法。HRD score综合LOH、LST、TAI三个指标进行基因组不稳定性评分,具体数值通过对细胞内单核苷酸多态性位点(SNP)进行检测和计算得出。LOH、LST、TAI三个指标都能独立预测基因组的稳定性,将这三个指标简单相加得到HRD评分(HRD score),并且通过对BRCA1/2双等位失活的95%识别敏感性来确定HRD评分阈值是目前反应基因组不稳定的状态的一般做法。
[0005]然而,目前的一般做法存在如下技术缺陷:(1)三个基因不稳定性评估指标LOH、LST、TAI计算方法已经出现多年,基于多年的项目与科研经验,基因组瘢痕指标无论从数量上还是定义方法上都有改进空间;(2)将基因不稳定性评估指标直接相加来得到HRD评分的做法虽然简单直接,但是无法精确获得更好的分析效果;(3)通过BRCA1/2双等位失活作为标准来训练建模,并没有考虑到HRR通路其他基因对同源重组功能缺失的贡献,因此当其他HRR相关基因发生突变或者基因启动子发生甲
基化,导致基因组不稳定的情况并没有在不稳定性的评估范围内,评估的结果不够准确。

技术实现思路

[0006]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案,一种基于机器学习的基因组不稳定性评估方法及系统,结合项目与科研经验,以及基因组不稳定性领域的最新科研成果,重新设计评估基因组不稳定性的指标,使之更加全面和详细;尝试更加复杂和精准的机器学习模型算法来代替原有的直接相加算法;建模标准的选择除了BRCA1/2,发掘其他可以纳入的重要HRR基因,要求在突变率、与基因组不稳定性的关联、与药物疗效的关联方面都有良好的性能,通过更加精准的机器学习建模方法获得更好的基因组不稳定性分析和评估效果,特别适用于既往做过BRCA1/2检测结果为阴性,需要进一步评估HDR状态的患者。
[0007]本专利技术第一方面提供了一种基于机器学习的基因组不稳定性评估方法,包括:S1,采集并接收生物样本,对所述生物样本进行处理获得基因组样本;S2,将所述基因组样本分为训练集和验证集,基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型;S3,基于多个HRR基因形成的基因集合形成建模标准,对所述基因组不稳定性评估模型进行训练;S4,基于多个基因组不稳定指标对基因组不稳定性进行评估。
[0008]优选的,基因组样本包括新鲜血液样本、石蜡切片样本和/或新鲜组织样本;所述处理包括:对所述生物样本进行肿瘤含量评估、DNA提取及质检、文库构建及捕获、和上机测序。
[0009]优选的,所述S2中所述训练集和验证集相互独立,并且所述训练集和验证集的样本量都在450

500之间。
[0010]优选的,所述S2中所述基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型包括采用岭回归进行建模。
[0011]优选的,所述S3中所述多个HRR基因包括:BRCA1、BRCA2以及RAD51D组成的三基因的HRR3基因集。
[0012]优选的,所述S3中所述建模标准包括:满足第一组三项条件中的任意一项即定义为所述模型中的样本为真阳性样本,所述第一组三项条件包括:(1)BRCA1双等位失活;(2)BRCA2双等位失活;(3)RAD51D双等位失活;其中,基因组内的基因满足第二组三项条件中的任意一项条件即定义为所述双等位失活,所述第二组三项条件包括:(1)一个等位基因为4/5类突变,另一个等位基因为LOH;(2)在同一个基因上发生了两个4/5类突变;(3)一个等位基因为4/5类突变,另一个等位基因为高甲基化状态。
[0013]优选的,所述S4中所述多个基因组不稳定指标包括:将等位基因(allele)分成三类:等位基因平衡但扩增、非LOH但等位基因不平衡和
LOH;同时将三类等位基因按绝对长度拆分五个长度区间:0

5M,5

10M,10

15M,15

20M,>20M;其中等位基因(allele)为位于一对同源染色体的相同位置上控制着相对性状的一对基因;所述多个基因组不稳定指标包括19个基因组不稳定指标,分别为:(1)b_0

5M:等位基因平衡但扩增,长度在0

5M(含)的片段的个数;(2)b_5

10M:等位基因平衡但扩增,长度在5(不含)

10M(含)的片段的个数;(3)b_10

15M:等位基因平衡但扩增,长度在10(不含)

15M(含)的片段的个数;(4)b_15

20M:等位基因平衡但扩增,长度在15(不含)

20M(含)的片段的个数;(5)b_>20M:等位基因平衡但扩增,长度大于20M的片段的个数;(6)imb_0

5M:非LOH但等位基因不平衡,长度在0
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的基因组不稳定性评估方法,其特征在于,包括:S1,采集并接收生物样本,对所述生物样本进行处理获得基因组样本;S2,将所述基因组样本分为训练集和验证集,基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型;S3,基于多个HRR基因形成的基因集合形成建模标准,对所述基因组不稳定性评估模型进行训练;S4,基于多个基因组不稳定指标对基因组不稳定性进行评估。2.根据权利要求1所述的一种基于机器学习的基因组不稳定性评估方法,其特征在于,所述基因组样本包括新鲜血液样本、石蜡切片样本和/或新鲜组织样本;所述处理包括:对所述生物样本进行肿瘤含量评估、DNA提取及质检、文库构建及捕获、和上机测序。3.根据权利要求2所述的一种基于机器学习的基因组不稳定性评估方法,其特征在于,所述S2中所述训练集和验证集相互独立,并且所述训练集和验证集的样本量都在450

500之间。4.根据权利要求3所述的一种基于机器学习的基因组不稳定性评估方法,其特征在于,所述S2中所述基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型包括采用岭回归进行建模。5.根据权利要求4所述的一种基于机器学习的基因组不稳定性评估方法,其特征在于,所述S3中所述多个HRR基因包括:BRCA1、BRCA2以及RAD51D组成的三基因的HRR3基因集。6.根据权利要求5所述的一种基于机器学习的基因组不稳定性评估方法,其特征在于,所述S3中所述建模标准包括:满足第一组三项条件中的任意一项即定义为所述模型中的样本为真阳性样本,所述第一组三项条件包括:(1)BRCA1双等位失活;(2)BRCA2双等位失活;(3)RAD51D双等位失活;其中,基因组内的基因满足第二组三项条件中的任意一项条件即定义为所述双等位失活,所述第二组三项条件包括:(1)一个等位基因为4/5类突变,另一个等位基因为LOH;(2)在同一个基因上发生了两个4/5类突变;(3)一个等位基因为4/5类突变,另一个等位基因为高甲基化状态。7.根据权利要求6所述的一种基于机器学习的基因组不稳定性评估方法,其特征在于,所述S4中所述多个基因组不稳定指标包括:将等位基因(allele)分成三类:等位基因平衡但扩增、非LOH但等位基因不平衡和LOH;同时将三类等位基因按绝对长度拆分五个长度区间:0

5M,5

10M,10

15M,15

20M,>20M;其中等位基因(allele)为位于一对同源染色体的相同位置上控制着相对性状的一对基因;所述多个基因组不稳定指标包括19个基因组不稳定指标,分别为:(1)b_0

5M:等位基因平衡但扩增,长度在0

5M(含)的片段的个数;(2)b_5

10M:等位基因平衡但扩增,长度在5(不含)

10M(含)的片段的个数;(3)b_10

15M:等位基因平衡但扩增,长度在10(不含)

15M(含)的片段的个数;(4)b_15

20M:等位基因平衡但扩增,长度在15(不含)

20M(含)的片段的个数;
(5)b_>20M:等位基因平衡但...

【专利技术属性】
技术研发人员:季序我孙天齐李哲
申请(专利权)人:普瑞基准生物医药苏州有限公司北京普康瑞仁医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1