【技术实现步骤摘要】
【国外来华专利技术】基于脱靶多核苷酸测序数据检测肿瘤的存在
[0001]相关申请的交叉引用
[0002]本申请要求2021年3月9日提交的美国临时专利申请第63/158,824号和2021年4月8日提交的美国临时专利申请第63/173,273号的优先权的权益,为了所有目的将其中各项通过引用以其整体并入本文。
[0003]背景
[0004]肿瘤是细胞的异常生长。肿瘤可以是良性或恶性的。恶性肿瘤通常被称为癌症。癌症为全世界疾病的主要原因。每年,世界各地有数千万人被诊断为患有癌症,并且多于一半的人最终因其死亡。在许多国家,癌症列为继心血管疾病之后第二大最常见的死亡原因。早期检测与许多癌症的改善结果相关。
[0005]癌症通常通过肿瘤的活组织检查,随后分析细胞病理学、生物标志物或从细胞提取的DNA来检测。传统的活检可能是痛苦和侵入性的。基于从肿瘤提取的组织样品,这样的活检通常也只能检查受试者体内的一部分肿瘤细胞。因此,常规组织活检提供关于特定时期肿瘤的有限信息,并且不总是代表肿瘤细胞的群体。
[0006]最近已经提出,癌症还可以根据体液诸如血液或尿液中的无细胞核酸(例如,循环核酸、循环肿瘤核酸、外泌体(exosome)、来自凋亡细胞和/或坏死细胞的核酸)检测(参见例如,Siravegna等人,Nature Reviews,14:531
‑
548(2017))。例如,当正常细胞和/或癌细胞死亡时,DNA通常被释放到体液中,作为无细胞DNA和/或循环肿瘤DNA。测量无细胞核酸的测试具有非侵入性的优点,可以在不识别可疑癌细胞进 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,所述方法包括:由包括一个或更多个计算装置的计算系统获得指示与样品中包括的多核苷酸分子相关的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;由所述计算系统通过执行比对过程来生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个序列表示;由所述计算系统通过鉴定许多比对的序列表示中不对应于所述参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;由所述计算系统通过鉴定许多比对的序列表示中对应于所述参考人类基因组的靶区域的第二部分来确定中靶序列表示;由所述计算系统确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;由所述计算系统基于对应于单个第一区段的所述脱靶序列表示的集合的相应子集来确定所述单个第一区段的第一定量量度;由所述计算系统相对于单个第一区段的另外的定量量度确定所述单个第一区段的第一归一化定量量度;由所述计算系统通过相对于针对单个第一区段的参考定量量度调整单个第一归一化定量量度来确定所述单个第一区段的第二归一化定量量度;由所述计算系统确定所述参考人类基因组的第二区段,单个第二区段包括比所述单个第一区段更多数量的核苷酸,并且包括多于一个所述单个第一区段;由所述计算系统基于包括在所述单个第二区段中的相应多于一个单个第一区段的所述第一归一化定量量度和所述第二归一化定量量度,确定单个第二区段的第二定量量度;以及由所述计算系统基于对应于所述单个第二区段的单个第二定量量度来确定关于单个第二区段的肿瘤细胞拷贝数的估计。2.根据权利要求1所述的方法,其中基于所述样品中包含的对应于所述单个第一区段的多核苷酸分子的相应数量来确定所述第一定量量度。3.根据权利要求1所述的方法,其中基于来源于所述样品的对应于所述单个第一区段的测序读段的相应数量来确定所述第一定量量度。4.根据权利要求1
‑
3中任一项所述的方法,其中所述另外的定量量度对应于所述第一区段的序列表示的中位数。5.根据权利要求1
‑
4中任一项所述的方法,所述方法包括:在确定所述第二区段之前:由所述计算系统确定鸟嘌呤
‑
胞嘧啶(GC)含量,所述含量指示对应于单个第一区段的脱靶序列表示的集合的一部分中包含的鸟嘌呤核苷酸和胞嘧啶核苷酸的数量;由所述计算系统,确定对应于来自所述单个第一区段中的多于一个GC含量分区的GC含量分区的序列表示的频率,所述多于一个GC含量分区中的每个GC含量分区对应于GC含量值的不同范围;由所述计算系统基于对应于所述单个第一区段中多于一个GC含量分区的序列表示的频率来确定单个第一区段的预期定量量度;以及
由所述计算系统基于所述单个第一区段的预期定量量度来确定所述单个第一区段的GC归一化定量量度。6.根据权利要求5所述的方法,所述方法包括:在确定所述第二区段之前:由所述计算系统确定单个第一区段中的每个序列表示的可映射性评分,所述可映射性评分指示所述人类参考基因组的多于一个部分之间的同源性量,所述人类参考基因组的多于一个部分中的所述人类参考基因组的每个部分与所述人类参考基因组的多于一个部分中的所述人类参考基因组的另外部分具有至少阈值量的同源性;由所述计算系统,确定对应于来自所述单个第一区段中的多于一个可映射性评分分区的可映射性评分分区的序列表示的频率,所述多于一个可映射性评分分区中的每个可映射性评分分区对应于可映射性评分的值的不同范围;由所述计算系统基于对应于所述单个第一区段中多于一个可映射性评分分区的序列表示的频率来确定单个第一区段的预期定量量度;以及由所述计算系统基于所述单个第一区段的预期定量量度来确定所述单个第一区段的可映射性评分归一化定量量度。7.根据权利要求1所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的序列表示与靶区域具有至少阈值量的同源性;和由所述计算系统确定,从确定所述单个第二覆盖范围度量中排除所述单个第一区段的第一定量量度。8.根据权利要求1
‑
7中任一项所述的方法,所述方法包括:由所述计算系统获得训练序列数据,所述训练序列数据指示从训练样品获得的另外多核苷酸分子的另外序列表示,其中所述训练样品从其中没有检测到拷贝数改变的个体获得;由所述计算系统通过执行另外比对过程来生成参考比对的序列表示的数量,所述另外比对过程确定相对于所述参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个另外序列表示;由所述计算系统通过识别不对应于所述参考人类基因组的靶区域的许多另外比对的序列表示的一部分来确定脱靶序列表示的另外的集合;以及由所述计算系统基于包括在所述单个第一区段中的所述脱靶序列表示的另外的集合数量来确定所述单个第一区段的单个参考定量量度。9.根据权利要求1
‑
8中任一项所述的方法,所述方法包括:由所述计算系统确定对应于单个靶区域的中靶序列表示的集合中包括的中靶序列表示的相应数量;以及由所述计算系统基于对应于所述单个靶区域的中靶序列表示的相应数量来确定单个靶区域的单个另外的定量量度;其中与所述样品相关的肿瘤细胞的拷贝数的估计是基于所述单个另外的定量量度。10.根据权利要求9所述的方法,其中基于对应于所述单个靶区域的单个另外定量量度来确定所述参考人类基因组的第二区段。
11.根据权利要求1
‑
10中任一项所述的方法,其中所述第一定量量度包括单个第一区段的第一尺寸分布度量,所述第一归一化定量量度或所述第二归一化定量量度中的至少一个对应于归一化尺寸分布度量,所述参考定量量度是参考尺寸分布度量,并且所述第二定量量度包括所述单个第二区段的第二尺寸分布度量。12.根据权利要求11所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量,以生成所述单个第一区段的序列表示的单个尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示所述第一区段中包含的脱靶序列表示的集合的数量,该集合对应于多于一个分区中的每个分区;由所述计算系统根据相对于参考尺寸分布度量的所述单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量;以及由所述计算系统基于对应于所述单个第二区段的单个第二尺寸分布度量来确定关于单个第二区段的肿瘤细胞拷贝数的另外估计。13.根据权利要求1
‑
12中任一项所述的方法,其中所述第一定量量度包括单个第一区段的第一覆盖范围度量,所述第一归一化定量量度对应于第一归一化覆盖范围度量,所述第二归一化定量量度对应于第二归一化覆盖范围度量,所述参考定量量度是参考覆盖范围度量,并且所述第二定量量度包括单个第二区段的第二覆盖范围度量。14.根据权利要求13所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的序列表示的数量,以生成所述单个第一区段的单个第一覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化覆盖范围度量;以及由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量;其中肿瘤细胞相对于所述单个第二区段的拷贝数的估计是基于对应于所述单个第二区段的单个第二覆盖范围度量。15.根据权利要求1
‑
14中任一项所述的方法,其中:所述定量量度包括单个第一区段的第一尺寸分布度量和第一覆盖范围度量;所述第一归一化定量量度和所述第二归一化定量量度对应于归一化尺寸分布度量或归一化覆盖范围度量中的至少一个;所述参考定量量度包括参考尺寸分布度量和参考覆盖范围度量;以及所述第二定量量度包括用于单个第二区段的第二尺寸分布度量和第二覆盖范围度量。16.根据权利要求15所述的方法,所述方法包括:由所述计算系统通过确定对应于单个第一区段的单个序列表示中包含的核苷酸的数
量来确定单个序列表示的尺寸;由所述计算系统基于所述单个序列表示的相应尺寸生成所述单个第一区段的第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于所述多于一个分区中的每个分区的所述第一区段中包含的脱靶序列表示的集合的数量;由所述计算系统根据相对于所述参考尺寸分布度量的所述单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量。17.根据权利要求16所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段的序列表示的数量,以生成单个第一区段的单个第一覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化尺寸分布度量;以及由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量。18.根据权利要求17所述的方法,其中肿瘤细胞相对于单个第二区段的拷贝数的估计是由所述计算系统通过基于所述第二尺寸分布度量确定肿瘤细胞相对于单个第二区段的拷贝数的第一估计和基于所述第二覆盖范围度量确定肿瘤细胞相对于单个第二区段的拷贝数的第二估计而生成的肿瘤细胞相对于单个第二区段的拷贝数的总估计。19.根据权利要求1
‑
18中任一项所述的方法,所述方法包括:由所述计算系统确定与所述样品相关的野生型等位基因的数量相对于与所述样品相关的突变等位基因的数量的比率;以及由所述计算系统基于所述比率确定杂合单核苷酸多态性(SNP)度量。20.根据权利要求19所述的方法,所述方法包括:由所述计算系统基于所述SNP度量确定所述样品的肿瘤分数的另外估计;以及由所述计算系统基于所述SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。21.根据权利要求1
‑
20中任一项所述的方法,所述方法包括:由所述计算系统确定对应于似然函数的模型的参数,所述似然函数生成与所述样品相关的肿瘤细胞的拷贝数的估计;其中所述模型的参数对应于相对于所述单个第二区段的肿瘤细胞拷贝数的所述单个估计的至少一部分,并且对应于所述样品的肿瘤分数的估计。22.根据权利要求21所述的方法,其中所述模型的参数对应于一个或更多个SNP度量,所述一个或更多个SNP度量的单个SNP度量与突变等位基因的数量相对于野生型等位基因的数量的相应比率相关。23.根据权利要求1
‑
22中任一项所述的方法,其中所述单个第一区段的至少一部分包括所述参考人类基因组的约30,000个核苷酸至约150,000个核苷酸。
24.根据权利要求1
‑
25中任一项所述的方法,其中:所述单个第二区段的至少一部分包括所述参考人类基因组的至少约100万个核苷酸至约1000万个核苷酸;以及所述第二区段通过一个或更多个循环二进制分割过程确定。25.根据权利要求1
‑
24中任一项所述的方法,其中所述样品来源于受试者的组织。26.根据权利要求1
‑
25中任一项所述的方法,其中所述样品来源于从受试者获得的流体。27.根据权利要求1
‑
26中任一项所述的方法,所述方法包括:由所述计算系统基于所述单个第二定量度量确定所述样品的肿瘤分数的估计。28.根据权利要求1
‑
27中任一项所述的方法,其中所述样品的肿瘤分数的估计和所述肿瘤细胞相对于单个第二区段的拷贝数的估计基于以下确定:观察到的定量量度=2*(1
‑
TF)+n*TF,其中n是所述肿瘤细胞拷贝数,并且TF是所述样品的肿瘤分数;以及其中所述观察到的定量量度包括所述第二定量量度的至少一部分。29.根据权利要求1
‑
28中任一项所述的方法,所述方法包括:由所述计算系统确定对应于单个第一区段并且对应于一个或更多个单核苷酸多态性(SNP)的序列表示的数量;由所述计算系统基于对应于单个SNP的序列表示的数量来确定单个SNP的突变等位基因分数。30.根据权利要求29所述的方法,其中所述参考人类基因组的第二区段基于所述单个第一区段的突变等位基因分数来确定。31.根据权利要求29或权利要求30所述的方法,其中所述一个或更多个SNP对应于杂合种系SNP。32.根据权利要求29
‑
31中任一项所述的方法,其中所述一个或更多个SNP对应于一种或更多种类型的癌症的驱动突变。33.根据权利要求29
‑
32中任一项所述的方法,所述方法包括:由所述计算系统执行基于所述第二归一化定量量度的循环二进制分割过程的第一实现,以...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。