基于脱靶多核苷酸测序数据检测肿瘤的存在制造技术

技术编号:39294538 阅读:31 留言:0更新日期:2023-11-07 11:02
在本文描述的实施方式中,从来源于脱靶序列的样品获得的信息可用于确定样品的肿瘤细胞拷贝数和/或肿瘤分数的估计。另外,从种系SNP的存在获得的信息可用于确定样品的肿瘤细胞拷贝数或肿瘤分数中的至少一个的估计。胞拷贝数或肿瘤分数中的至少一个的估计。胞拷贝数或肿瘤分数中的至少一个的估计。

【技术实现步骤摘要】
【国外来华专利技术】基于脱靶多核苷酸测序数据检测肿瘤的存在
[0001]相关申请的交叉引用
[0002]本申请要求2021年3月9日提交的美国临时专利申请第63/158,824号和2021年4月8日提交的美国临时专利申请第63/173,273号的优先权的权益,为了所有目的将其中各项通过引用以其整体并入本文。
[0003]背景
[0004]肿瘤是细胞的异常生长。肿瘤可以是良性或恶性的。恶性肿瘤通常被称为癌症。癌症为全世界疾病的主要原因。每年,世界各地有数千万人被诊断为患有癌症,并且多于一半的人最终因其死亡。在许多国家,癌症列为继心血管疾病之后第二大最常见的死亡原因。早期检测与许多癌症的改善结果相关。
[0005]癌症通常通过肿瘤的活组织检查,随后分析细胞病理学、生物标志物或从细胞提取的DNA来检测。传统的活检可能是痛苦和侵入性的。基于从肿瘤提取的组织样品,这样的活检通常也只能检查受试者体内的一部分肿瘤细胞。因此,常规组织活检提供关于特定时期肿瘤的有限信息,并且不总是代表肿瘤细胞的群体。
[0006]最近已经提出,癌症还可以根据体液诸如血液或尿液中的无细胞核酸(例如,循环核酸、循环肿瘤核酸、外泌体(exosome)、来自凋亡细胞和/或坏死细胞的核酸)检测(参见例如,Siravegna等人,Nature Reviews,14:531

548(2017))。例如,当正常细胞和/或癌细胞死亡时,DNA通常被释放到体液中,作为无细胞DNA和/或循环肿瘤DNA。测量无细胞核酸的测试具有非侵入性的优点,可以在不识别可疑癌细胞进行活检的情况下进行,并且从癌症的所有部分取样核酸。分析在这样的检测中获得的数据以检测肿瘤的存在可能是复杂的,因为释放到体液中的核酸量低且可变,从这样的液体以可分析形式回收核酸也是如此。
[0007]附图简述
[0008]并入本说明书并构成其一部分的附图示出了某些实施方式,并与书面描述一起用于解释本文公开的方法、计算机可读介质和系统的某些原理。当结合附图阅读时,可以更好地理解本文提供的描述,附图以示例的方式而非限制的方式被包括在内。应当理解,除非上下文另有说明,否则在所有附图中,相同的附图标记表示相同的部件。还应当理解,一些或所有附图可以是出于说明目的的示意性表示,并不一定描绘所示元件的实际相对尺寸或位置。
[0009]图1是根据一个或更多个实施方式,基于脱靶多核苷酸确定与受试者相关的肿瘤度量的示例架构的示意图。
[0010]图2是根据一个或更多个实施方式,基于中靶多核苷酸、脱靶多核苷酸和单核苷酸多态性数据来确定与受试者相关的肿瘤度量(metrics)的示例过程的流程图。
[0011]图3是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的覆盖范围度量来确定与受试者相关的肿瘤度量的示例过程的示意图。
[0012]图4是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的尺寸分布度量来确定与受试者相关的肿瘤度量的示例过程的示意图。
[0013]图5是使用分箱操作(binning operation)、一个或更多个另外的分割操作
(segmentation operations)和似然函数来确定肿瘤度量的示例过程的示意图。
[0014]图6是根据一个或更多个实施方式,生成增强量的脱靶多核苷酸的示例过程的流程图,该脱靶多核苷酸可用于确定受试者中存在的肿瘤的指标。
[0015]图7是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的信息确定关于受试者的肿瘤度量的示例方法的流程图,所述示例方法包括关于参考人类基因组的至少一个分割过程。
[0016]图8是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的覆盖范围信息来确定关于受试者的肿瘤度量的示例方法的流程图,所述示例方法包括关于参考人类基因组的多个分割过程。
[0017]图9是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的尺寸分布信息来确定关于受试者的肿瘤度量的示例方法的流程图。
[0018]图10是根据一个或更多个实施方式,生成测序数据并从测序数据确定脱靶序列表示(sequence representation)的示例方法的流程图,其中脱靶序列表示可用于基于来源于脱靶序列表示的信息确定关于受试者的肿瘤度量。
[0019]图11是示出根据一个或更多个示例实施方式,计算机系统形式的机器的组件的框图,该机器可以从一个或更多个机器可读介质读取和执行指令,以执行本文描述的任何一种或更多种方法。
[0020]图12是示出根据一个或更多个示例实施方式,可以与本文描述的一个或更多个硬件架构结合使用的代表性软件架构的框图。
[0021]图13A显示了对于40Mb尺寸区域,在扩增发生时拷贝数为“3”或发生缺失时拷贝数为“1”的情况下,仅使用中靶数据相对于使用中靶和脱靶数据的组合,杂合性丢失的检测限(LoD)的差异。在这些情况下,相对于仅使用中靶数据,当使用中靶和脱靶数据二者时,灵敏度可以提高至少约20%。
[0022]图13B显示了对于40Mb尺寸区域,在扩增发生时拷贝数为“4”或对于纯合缺失为“0”拷贝的情况下,仅使用中靶数据相对于使用中靶和脱靶数据的组合,杂合性丢失的LoD的差异。
[0023]图14显示了对于不同类型癌症,最大突变等位基因分数(MAF)与肿瘤分数的关系图。
[0024]图15显示了使用本文描述的技术在6号染色体的基因组区域中观察到的与人类白细胞抗原(HLA)相关的缺失。
[0025]图16显示了对于预测在HLA区域具有杂合性丢失(LoH)的患者,观察到的6号染色体覆盖范围的实例。
[0026]图17显示了不同癌症类型中HLA LoH的普遍率。
[0027]图18显示了许多不同基因组位置处的杂合单核苷酸多态性(SNP)的突变等位基因分数的实例,这些突变等位基因分数通过确定MAF的倒数,并且然后应用Log base 2转换来修饰。
[0028]图19显示了使用图18所示的转换的SNP MAF数据,基于拷贝数的分割过程的示例细化。
[0029]图20包括示出各种基因的实际拷贝数以及根据仅基于覆盖范围数据的CBS过程的
实施方式使用分割估计的基因拷贝数与使用图18和图19所示的细化过程估计的基因拷贝数之间的差异的表格。
[0030]本公开内容的概述
[0031]在一些方面,一种方法,包括:由包括一个或更多个计算装置的计算系统获得指示与样品中包含的多核苷酸分子相关的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;由计算系统通过执行比对过程来生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个序列表示;由计算系统通过鉴定许多比对的序列表示中不对应于参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;由计算系统通过鉴定许多比对的序列表示中对应于参考人类基因组的靶区域的第二部分来确定中靶序列表示的集合;由计算系统确定参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,所述方法包括:由包括一个或更多个计算装置的计算系统获得指示与样品中包括的多核苷酸分子相关的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;由所述计算系统通过执行比对过程来生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个序列表示;由所述计算系统通过鉴定许多比对的序列表示中不对应于所述参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;由所述计算系统通过鉴定许多比对的序列表示中对应于所述参考人类基因组的靶区域的第二部分来确定中靶序列表示;由所述计算系统确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;由所述计算系统基于对应于单个第一区段的所述脱靶序列表示的集合的相应子集来确定所述单个第一区段的第一定量量度;由所述计算系统相对于单个第一区段的另外的定量量度确定所述单个第一区段的第一归一化定量量度;由所述计算系统通过相对于针对单个第一区段的参考定量量度调整单个第一归一化定量量度来确定所述单个第一区段的第二归一化定量量度;由所述计算系统确定所述参考人类基因组的第二区段,单个第二区段包括比所述单个第一区段更多数量的核苷酸,并且包括多于一个所述单个第一区段;由所述计算系统基于包括在所述单个第二区段中的相应多于一个单个第一区段的所述第一归一化定量量度和所述第二归一化定量量度,确定单个第二区段的第二定量量度;以及由所述计算系统基于对应于所述单个第二区段的单个第二定量量度来确定关于单个第二区段的肿瘤细胞拷贝数的估计。2.根据权利要求1所述的方法,其中基于所述样品中包含的对应于所述单个第一区段的多核苷酸分子的相应数量来确定所述第一定量量度。3.根据权利要求1所述的方法,其中基于来源于所述样品的对应于所述单个第一区段的测序读段的相应数量来确定所述第一定量量度。4.根据权利要求1

3中任一项所述的方法,其中所述另外的定量量度对应于所述第一区段的序列表示的中位数。5.根据权利要求1

4中任一项所述的方法,所述方法包括:在确定所述第二区段之前:由所述计算系统确定鸟嘌呤

胞嘧啶(GC)含量,所述含量指示对应于单个第一区段的脱靶序列表示的集合的一部分中包含的鸟嘌呤核苷酸和胞嘧啶核苷酸的数量;由所述计算系统,确定对应于来自所述单个第一区段中的多于一个GC含量分区的GC含量分区的序列表示的频率,所述多于一个GC含量分区中的每个GC含量分区对应于GC含量值的不同范围;由所述计算系统基于对应于所述单个第一区段中多于一个GC含量分区的序列表示的频率来确定单个第一区段的预期定量量度;以及
由所述计算系统基于所述单个第一区段的预期定量量度来确定所述单个第一区段的GC归一化定量量度。6.根据权利要求5所述的方法,所述方法包括:在确定所述第二区段之前:由所述计算系统确定单个第一区段中的每个序列表示的可映射性评分,所述可映射性评分指示所述人类参考基因组的多于一个部分之间的同源性量,所述人类参考基因组的多于一个部分中的所述人类参考基因组的每个部分与所述人类参考基因组的多于一个部分中的所述人类参考基因组的另外部分具有至少阈值量的同源性;由所述计算系统,确定对应于来自所述单个第一区段中的多于一个可映射性评分分区的可映射性评分分区的序列表示的频率,所述多于一个可映射性评分分区中的每个可映射性评分分区对应于可映射性评分的值的不同范围;由所述计算系统基于对应于所述单个第一区段中多于一个可映射性评分分区的序列表示的频率来确定单个第一区段的预期定量量度;以及由所述计算系统基于所述单个第一区段的预期定量量度来确定所述单个第一区段的可映射性评分归一化定量量度。7.根据权利要求1所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的序列表示与靶区域具有至少阈值量的同源性;和由所述计算系统确定,从确定所述单个第二覆盖范围度量中排除所述单个第一区段的第一定量量度。8.根据权利要求1

7中任一项所述的方法,所述方法包括:由所述计算系统获得训练序列数据,所述训练序列数据指示从训练样品获得的另外多核苷酸分子的另外序列表示,其中所述训练样品从其中没有检测到拷贝数改变的个体获得;由所述计算系统通过执行另外比对过程来生成参考比对的序列表示的数量,所述另外比对过程确定相对于所述参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个另外序列表示;由所述计算系统通过识别不对应于所述参考人类基因组的靶区域的许多另外比对的序列表示的一部分来确定脱靶序列表示的另外的集合;以及由所述计算系统基于包括在所述单个第一区段中的所述脱靶序列表示的另外的集合数量来确定所述单个第一区段的单个参考定量量度。9.根据权利要求1

8中任一项所述的方法,所述方法包括:由所述计算系统确定对应于单个靶区域的中靶序列表示的集合中包括的中靶序列表示的相应数量;以及由所述计算系统基于对应于所述单个靶区域的中靶序列表示的相应数量来确定单个靶区域的单个另外的定量量度;其中与所述样品相关的肿瘤细胞的拷贝数的估计是基于所述单个另外的定量量度。10.根据权利要求9所述的方法,其中基于对应于所述单个靶区域的单个另外定量量度来确定所述参考人类基因组的第二区段。
11.根据权利要求1

10中任一项所述的方法,其中所述第一定量量度包括单个第一区段的第一尺寸分布度量,所述第一归一化定量量度或所述第二归一化定量量度中的至少一个对应于归一化尺寸分布度量,所述参考定量量度是参考尺寸分布度量,并且所述第二定量量度包括所述单个第二区段的第二尺寸分布度量。12.根据权利要求11所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量,以生成所述单个第一区段的序列表示的单个尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示所述第一区段中包含的脱靶序列表示的集合的数量,该集合对应于多于一个分区中的每个分区;由所述计算系统根据相对于参考尺寸分布度量的所述单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量;以及由所述计算系统基于对应于所述单个第二区段的单个第二尺寸分布度量来确定关于单个第二区段的肿瘤细胞拷贝数的另外估计。13.根据权利要求1

12中任一项所述的方法,其中所述第一定量量度包括单个第一区段的第一覆盖范围度量,所述第一归一化定量量度对应于第一归一化覆盖范围度量,所述第二归一化定量量度对应于第二归一化覆盖范围度量,所述参考定量量度是参考覆盖范围度量,并且所述第二定量量度包括单个第二区段的第二覆盖范围度量。14.根据权利要求13所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的序列表示的数量,以生成所述单个第一区段的单个第一覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化覆盖范围度量;以及由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量;其中肿瘤细胞相对于所述单个第二区段的拷贝数的估计是基于对应于所述单个第二区段的单个第二覆盖范围度量。15.根据权利要求1

14中任一项所述的方法,其中:所述定量量度包括单个第一区段的第一尺寸分布度量和第一覆盖范围度量;所述第一归一化定量量度和所述第二归一化定量量度对应于归一化尺寸分布度量或归一化覆盖范围度量中的至少一个;所述参考定量量度包括参考尺寸分布度量和参考覆盖范围度量;以及所述第二定量量度包括用于单个第二区段的第二尺寸分布度量和第二覆盖范围度量。16.根据权利要求15所述的方法,所述方法包括:由所述计算系统通过确定对应于单个第一区段的单个序列表示中包含的核苷酸的数
量来确定单个序列表示的尺寸;由所述计算系统基于所述单个序列表示的相应尺寸生成所述单个第一区段的第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于所述多于一个分区中的每个分区的所述第一区段中包含的脱靶序列表示的集合的数量;由所述计算系统根据相对于所述参考尺寸分布度量的所述单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量。17.根据权利要求16所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的序列表示的数量,以生成单个第一区段的单个第一覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化尺寸分布度量;以及由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量。18.根据权利要求17所述的方法,其中肿瘤细胞相对于单个第二区段的拷贝数的估计是由所述计算系统通过基于所述第二尺寸分布度量确定肿瘤细胞相对于单个第二区段的拷贝数的第一估计和基于所述第二覆盖范围度量确定肿瘤细胞相对于单个第二区段的拷贝数的第二估计而生成的肿瘤细胞相对于单个第二区段的拷贝数的总估计。19.根据权利要求1

18中任一项所述的方法,所述方法包括:由所述计算系统确定与所述样品相关的野生型等位基因的数量相对于与所述样品相关的突变等位基因的数量的比率;以及由所述计算系统基于所述比率确定杂合单核苷酸多态性(SNP)度量。20.根据权利要求19所述的方法,所述方法包括:由所述计算系统基于所述SNP度量确定所述样品的肿瘤分数的另外估计;以及由所述计算系统基于所述SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。21.根据权利要求1

20中任一项所述的方法,所述方法包括:由所述计算系统确定对应于似然函数的模型的参数,所述似然函数生成与所述样品相关的肿瘤细胞的拷贝数的估计;其中所述模型的参数对应于相对于所述单个第二区段的肿瘤细胞拷贝数的所述单个估计的至少一部分,并且对应于所述样品的肿瘤分数的估计。22.根据权利要求21所述的方法,其中所述模型的参数对应于一个或更多个SNP度量,所述一个或更多个SNP度量的单个SNP度量与突变等位基因的数量相对于野生型等位基因的数量的相应比率相关。23.根据权利要求1

22中任一项所述的方法,其中所述单个第一区段的至少一部分包括所述参考人类基因组的约30,000个核苷酸至约150,000个核苷酸。
24.根据权利要求1

25中任一项所述的方法,其中:所述单个第二区段的至少一部分包括所述参考人类基因组的至少约100万个核苷酸至约1000万个核苷酸;以及所述第二区段通过一个或更多个循环二进制分割过程确定。25.根据权利要求1

24中任一项所述的方法,其中所述样品来源于受试者的组织。26.根据权利要求1

25中任一项所述的方法,其中所述样品来源于从受试者获得的流体。27.根据权利要求1

26中任一项所述的方法,所述方法包括:由所述计算系统基于所述单个第二定量度量确定所述样品的肿瘤分数的估计。28.根据权利要求1

27中任一项所述的方法,其中所述样品的肿瘤分数的估计和所述肿瘤细胞相对于单个第二区段的拷贝数的估计基于以下确定:观察到的定量量度=2*(1

TF)+n*TF,其中n是所述肿瘤细胞拷贝数,并且TF是所述样品的肿瘤分数;以及其中所述观察到的定量量度包括所述第二定量量度的至少一部分。29.根据权利要求1

28中任一项所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段并且对应于一个或更多个单核苷酸多态性(SNP)的序列表示的数量;由所述计算系统基于对应于单个SNP的序列表示的数量来确定单个SNP的突变等位基因分数。30.根据权利要求29所述的方法,其中所述参考人类基因组的第二区段基于所述单个第一区段的突变等位基因分数来确定。31.根据权利要求29或权利要求30所述的方法,其中所述一个或更多个SNP对应于杂合种系SNP。32.根据权利要求29

31中任一项所述的方法,其中所述一个或更多个SNP对应于一种或更多种类型的癌症的驱动突变。33.根据权利要求29

32中任一项所述的方法,所述方法包括:由所述计算系统执行基于所述第二归一化定量量度的循环二进制分割过程的第一实现,以...

【专利技术属性】
技术研发人员:卡塔林
申请(专利权)人:夸登特健康公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1