可以提供从靶向的测序程序获得的测序读取值的准确且快速的定位。一旦选择目标区域,则可以鉴定与目标区域足够类似的基因组的替代区域。如果测序读取值比替代区域更类似于目标区域,则可以确定读取值与目标区域序列匹配。然后可以分析与目标区域比对的读取值以确定目标区域中是否存在突变。因此,可以将测序读取值与目标区域和相应的替代区域(而不是与整个基因组)比较,由此提供计算效率。
【技术实现步骤摘要】
【国外来华专利技术】【专利说明】靶向的测序读取值的准确且快速的定位 专利
本公开总体涉及使用基因组测序分析生物样品,并且更具体地涉及准确且快速定 位从靶向测序方法获得的测序读取值。 背景 对于特定患者,医生可想要分析患者基因组的一个或多个特定(目标)区域(例如,每 个区域100-500个碱基)。例如,患者的基因的特定部分可用于测试突变。因为只有某些区 域待分析,所以已经开发了技术用于增加样品中来自目标区域的基因组区段(例如,DNA片 段)的百分比。此类技术包括目标区域的扩增和富集。 在扩增中,杂交至目标区域的引物用于扩增具有对应于目标区域的序列的基因组 区段。期望的结果是,样品将含有目标区域的许多基因组区段,并且因此当测序该基因组区 段时,高百分比的读取值将对应于目标区域。因此,在从基因组的非目标区域测序基因组区 段中没有浪费显著的测序努力。在富集中,杂交至目标区域的探针可用于捕获对应于目标 区域的基因组区段,从而增加对应于目标区域的读取值的百分比。 然而,在扩增和富集两者中,仍然读取来自基因组的其他部分的基因组区段。因 此,目前的技术将读取值比对(定位)至整个基因组以确保准确性,尤其当分析目标区域相 对于参考基因组的突变时。即,一旦获得序列读取值,将该序列与参考基因组比较以发现与 该读取值最佳匹配的基因组位置。已经比对读取值之后,然后分析与目标区域比对的读取 值。这种与整个基因组的比对在计算上是昂贵的。 因此,期望提供在计算上更有效的改进的方法、系统和装置。 概述 实施方案可提供从靶向测序获得的测序读取值的准确且快速的定位。例如,一旦选择 目标区域,则可以鉴定与目标区域足够类似的基因组的替代区域。如果测序读取值相比于 替代区域更类似于目标区域,则可以确定读取值与目标区域序列匹配。然后可以分析与目 标区域序列匹配的读取值以确定目标区域中是否存在突变。因此,然后可以将测序读取值 与目标区域和相应的替代区域(而不是与整个基因组)比较,由此提供计算效率。 根据一个实施方案,一种方法检测生物的样品基因组的目标区域中的变体。接收 多个序列读取值。序列读取值获得自测序从生物获得的样品中的基因组区段,其中所述测 序包括靶向来自目标区域的基因组区段。鉴定了与参考基因组的目标区域相比具有各自第 一数目的变化的一个或多个替代区域。每个各自第一数目大于一,并且小于第一阈值数目。 计算机系统进行多个序列读取值与参考基因组的目标区域的比对,以鉴定与参考基因组的 目标区域序列匹配且具有小于第二阈值数目的变化的序列读取值的组。可以从该组中去除 与替代区域之一序列匹配且具有小于第三阈值数目的第二数目的变化的序列读取值。分析 该组的剩余序列读取值以确定样品基因组的目标区域中的变体。 其他实施方案涉及与本文描述的方法相关的系统、装置和计算机可读介质。 可以参考以下详述和附图获得本专利技术的性质和优点的更好理解。 定义 如本文所使用,"生物学样品"包括来自获得样品的生物的基因组的核酸分子。例如, 所述样品可包括含有染色体中编码的基因组的细胞。"基因组区段"是全部或部分测序的核 酸分子,其中所述分子来自生物的基因组。该区段可以通过将基因组的较大段片段化来生 成,例如,通过使细胞经受声波。可以测序基因组区段以提供"测序读取值"(也称为"序列 读取值"或者仅"读取值")。测序读取值可以是整个基因组区段或仅区段的部分。 "目标区域"是基因组的区域,其中片段已经使用引物和扩增方法扩增或已经使用 探针富集。"替代区域"是类似于目标区域的区域,例如,通过具有少于指定数目的变化,其 可以被指定为序列的总碱基的百分比。"参考基因组"(也简称"参考")是与之比对序列读 取值的任何已知序列。参考基因组可以对应于生物的基因组的所有或仅部分。参考基因组 还可以包括多于一种生物的基因组。例如,也可以将序列读取值针对病毒的数据库进行比 较,因为此类病毒可以在生物样品中。 变化(也称为变体或突变)是指两个序列之间的差异。例如,序列读取值和参考 基因组的目标区域之间的差异可以得到计数,并且可鉴定突变(例如,如果足够的序列读 取值显示突变)。变化可以,例如,是一个碱基改变至一个或多个其他碱基,一个或多个碱基 的插入,或一个或多个碱基的缺失。变化可以发生在一个或两个染色体中。实施方案可用 于确定序列读取值是否是突变或实际上来自基因组的相似部分的基因组区段的证据。 附图简述 图1是说明检测生物的样品基因组的目标区域中的变体的方法100的流程图。 图2A显示基因组的目标区域的参考序列(SEQIDNO: 1)。图2B显示根据本专利技术 的实施方案通过MCF过滤掉的序列读取值(SEQIDN0:2)。 图3显示根据本专利技术的实施方案的序列读取值310(SEQIDNO: 3)相对于目标序 列(即目标区域)320(SEQIDN0:4)的比较。 图4显示根据本专利技术的实施方案的序列读取值410(SEQIDNO:6)相对于目标序 列(即目标区域)420(SEQIDNO: 5)的比较的另一个实例。 图5显示根据本专利技术的实施方案的序列读取值510(SEQIDN0:8)相对于目标序 列(即目标区域)520(SEQIDN0:7)的比较的另一个实例。 图6是说明根据本专利技术的实施方案检测生物的样品基因组的目标区域中的变体 的方法的流程图。 图7是用于根据本专利技术的实施方案鉴定对应于目标区域的替代区域的方法700的 流程图。 图8显示可与根据本专利技术的实施方案的系统和方法使用的实例计算机系统800的 方框图。 图9是显示根据本专利技术的实施方案在多个样品和多次运行中出现的复杂突变的 表格。 详述 可以使用靶向测序有效地分析基因组的特定区域。例如,生物样品的基因组区段的百 分比可以通过以下来增加:克隆对应于目标区域的区段(例如,在扩增过程、诸如聚合酶链 式反应(PCR)中使用引物)和/或使用优先捕获对应于目标区域的区段的探针。可以测序 和分析目标-增加样品中的基因组区段(生物样品的一个实例),以研宄目标区域中的可能 突变。由于仅对目标区域感兴趣,所以可以仅将序列读取值与目标区域比对。这相对于 将读取值与整个参考基因组比对将减少计算工作量。然而,此类过程可导致误差。例如,在 使用具有扩增或富集的先前步骤的高通量下一代测序的变体检测中,可能扩增子/富集的 文库(目标-增加的样品)含有假阳性读取值,g卩,对应于基因组区段(所述基因组区段不 对应于预定目标区域)的读取值。这些读取值可导致不正确的突变报道,并且可以提供产品 开发的误导性信息,或者甚至错误的诊断结论。假阳性可以通过各种方法来降低,诸如适当 设计引物和开发高保真酶。然而,假阳性仍然存在。实施方案可以提供解决方案以便以有效的方式排除假阳性读取值。作为实例,对 于显著不同于目标的读取值,用于鉴定和排除显著不同于目标的读取值的突变计数过滤器 (MCF)。另一个实例是鉴定对应于类似于目标区域的替代区域的假阳性读取值。 在一个实施方案中,具体鉴定基因组的替代(非目标)区域。可以特别指出替代 区域和目标区域之间的变化。当序列读取值与目标区域匹配(除了特定数目的鉴定的替代 区域特有的变化特征)时,该序列读取值可以从目标区域的分析中丢弃。以这种方式,该序 列读取值仅需要与目标区域比对,并且丢本文档来自技高网...

【技术保护点】
检测生物的样品基因组的目标区域中的变体的方法,所述方法包括:‑ 接收多个序列读取值,所述序列读取值获得自测序获得自所述生物的样品中的基因组区段,其中所述测序包括靶向来自所述目标区域的基因组区段;‑ 鉴定与参考基因组的目标区域相比具有各自第一数目的变化的一个或多个替代区域,每个各自第一数目大于一且小于第一阈值数目;‑ 用计算机系统进行多个序列读取值与参考基因组的目标区域的比对,以鉴定与所述参考基因组的目标区域序列匹配且具有小于第二阈值数目的变化的序列读取值的组;‑ 从所述组中去除与替代区域之一序列匹配且具有小于第三阈值数目的第二数目的变化的序列读取值;和‑ 分析所述组的剩余序列读取值以确定所述样品基因组的目标区域中的变体。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:X陈,Y李,WM刘,XM马,SJ张,
申请(专利权)人:霍夫曼拉罗奇有限公司,
类型:发明
国别省市:瑞士;CH
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。