本文提供了在富集样本中识别序列变异的方法。在某些实施例中,这种方法可以包含:(a)获取:(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因组区的参考序列;(b)组装序列读数以便获取与潜在变异相对应的多个离散序列集合;(c)通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的,哪些是赝生物;(d)可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变;以及(e)输出指示该样本是否包含序列变异的报告。
【技术实现步骤摘要】
【专利摘要】本文提供了在富集样本中识别序列变异的方法。在某些实施例中,这种方法可以包含:(a)获取:(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因组区的参考序列;(b)组装序列读数以便获取与潜在变异相对应的多个离散序列集合;(c)通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的,哪些是赝生物;(d)可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变;以及(e)输出指示该样本是否包含序列变异的报告。【专利说明】 交叉引用 本申请要求2013年7月29日提交的美国临时专利申请第61/859, 625号的利益, 在此通过引用全文并入该申请。
技术介绍
对突变的全面详述是理解,诊断和治疗包括癌症在内的许多疾病所不可缺少的。 人们已经提出了从测序数据中寻找突变的许多方法,这些方法通常由与参考物相比统计评 估变异碱基的存在组成。但是,在只在小部分读数中寻找突变的状况下精确确定突变仍然 是一种挑战。描绘这样的突变是重要的,尤其在癌症中。这样的突变不仅对于肿瘤含量低 的样本是重要的,而且对于捕获微小肿瘤子克隆以便理解肿瘤异质性,因此复发和抗治疗 性的根本原因也是重要的。 因此,由于可能的高均匀性和读取深度,研究这样样本的富集技术是吸引人的。然 而,尽管该实验技术精确地捕获信息,但现有分析方法不适合检测低频变异。 存在可以调用序列变异、开源和商用两者的许多其它工具。将这样的工具用于目 标富集(enrichment)数据的尝试往往会变得繁琐,不使用导致错误调用或假肯定以及丢 失调用的所有数据特性。更进一步,如文献所述,每种方法不仅存在其自身的缺点,而且该 调用在不同方法之间也不一致。当供应匹配的正常样本时,一些方法只尝试检测低频突变, 而其它方法只调用SNP (单核苷酸多态性),不调用插入、缺失或多核苷酸多态性(MNP)。 在高读取深度上的目标测序中,在低频变异的情况下,这些问题更加严重。大多数 方法通过查找各个变异地点和评估那个位置上的突变的统计显著性来工作。例如,如果单 个基因座具有1000读取深度,则平均而言,预计要用500个读数覆盖杂合子调用,以便支持 突变位基因。但是,有一些地方真正存在杂合子但被采样的次数极少。在马赛克状样本的 情况下,作为微量成分的特性的突变具有低得多的频率。在统计上,虽然采样这样的大样本 空间,但会发生罕见事件,以及难以将低频调用与测序误差区分开。扩增和捕获的其它赝生 物(artifact)的存在使问题进一步错综复杂。在在基因组区中存在复杂事件和插缺(通 入-羞失)的情况下,参考序列不能准确地代表变异分布,这导致进一步的赝生物。许多现 有解决方案试图通过使用多种独立方法来解决这些问题,但在当前文献当中,还没有可以 可靠地调用这些变异的解决方案。
技术实现思路
本文提供的是在富集样本中识别序列变异的方法。在某些实施例中,这种方法可 以包含:(a)获取:(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因 组区的参考序列;(b)组装序列读数以便获取与潜在变异相对应的多个离散序列集合;(c) 通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的,哪些是赝生物;(d) 可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变;以及(e)输出指示该 样本是否包含序列变异的报告。 此外还提供了包含存储器的计算机系统,包含:a)序列的数据库;以及b)执行本 方法的可执行程序。 此外还提供了包含执行本方法的指令的计算机可读存储介质。 此外还提供了识别变异序列的方法。在某些实施例中,该方法可以包含:a)将序 列信息输入包含程序的计算机系统中,该程序包含执行本方法的指令;b)执行该程序;以 及c)接收来自该计算机系统的输出。 本文阐述本教导的这些和其它特征。 【专利附图】【附图说明】 本领域的普通技术人员应当明白,下面所述的附图只是为了例示的目的。这些附 图无意以任何方式限制本教导的范围。 图1是例示本方法的一个实施例的流程图;以及 图2是例示本方法的另一个实施例的流程图。 定义 除非另有定义,本文使用的所有科学和技术术语具有与本公开所属的领域的普通 技术人员通常所理解相同的含义。尽管与本文所述的那些类似或等效的任何方法和材料也 可以用在本教导的实践或测试中,但现在描述一些示范性方法和材料。 如本文所使用的术语"扩增"指的是将目标核酸用作模板,生成目标核酸的一个或 多个副本。 如本文所使用,术语"单核苷酸多态性"或缩写"SNP"指的是在一个群体中以可观 频率(例如,至少1%)存在两个或更多个可替代等位基因的基因组序列中的单核苷酸位 置。 就基因组而言,术语"富集"指的是将基因组的一个或多个区域与基因组的其 余区域分开,以便得出与基因组的其余区域隔离的产物。可以使用包括描述在,例如,如 下文献中的那些的多种方法进行富集:Hedges et al (Comparison of three targeted enrichment strategies on the SOLiD sequencing platform. PLoS One 20116:el8595) 和 Shearer et al(Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol. 201212:20)。 术语"富集样本"指的是包含与基因组的其余区域隔离的基因组DNA的片段的样 本。富集片段可以具有取决于使用的分段方法的任何长度。在某些实施例中,该片段可以 在长度100bp到lkb,例如,长度200bp到500bp的范围内,但也可以使用在这个范围之外的 片段。取决于如何进行分段和/或富集,对于任何一个富集区域,片段分子的末端可以相同 或不同。 术语"基因组区"如本文所使用,指的是基因组,例如,像人、猴子、大鼠、鱼或昆虫 或植物那样的动物或植物基因组的区域。 "多个"至少包含2个成员。在某些情况下,多个可以含有至少10个,至少100个, 至少1000个,至少10, 000个,至少100, 000个,至少106个,至少107个,至少108个或至少 1〇9个或更多个成员。 术语"测序"如本文所使用,指的是获取多核苷酸的至少10个连贯核苷酸的身份 (例如,至少20个,至少50个,至少100个或至少200个或更多个连贯核苷酸)的方法。 术语"下一代测序"指的是启迪(Illumina)、生命技术(Life Technologies)、和 罗氏(Roche)公司当前采用的所谓并行化边合成边测序(sequencing-by-synthesis)或边 连接边测序(sequencing-by-ligation)平台。下一代测序方法也可以包括纳米孔测序方 法或像生命技术公司商业化的离子激流技术那样的基于电子检测方法。 术语"序列读数"指的是测序进程的输出。序列读数可能伴随着有关序列的质量 的度量。例如,序列读数中的每个核苷酸可以与那个核苷酸的碱基调用,即,核苷酸是G,A, T还是C的确本文档来自技高网...
【技术保护点】
一种识别序列变异的方法,包含:(a)获取:(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因组区的参考序列;(b)组装序列读数以便获取多个离散序列集合,其每个与潜在变异相对应;(c)通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的,哪些是赝生物;(d)可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变;以及(e)输出指示所述样本是否包含序列变异的报告。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:A阿舒特什,D乔希,CA勒科克,
申请(专利权)人:安捷伦科技有限公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。