用于校正核酸序列数据中的引物延伸误差的系统和方法技术方案

技术编号:2917402 阅读:230 留言:0更新日期:2012-04-11 18:40
描述一种用于校正与从模板分子的基本相同副本种群中产生的相位同步序列数据相关联的误差的方法的实施例,包括:(a)检测响应于测序反应中一个或多个核苷酸并入而产生的信号;(b)生成用于信号的值;以及(c)利用第一参数和第二结转参数校正用于相位同步误差的值。

【技术实现步骤摘要】
【国外来华专利技术】相关申请本申请涉及并且要求2006年2月16日提交的,标题为“用于校正核酸序列数据中的引物(primer)延伸误差的系统和方法”的美国临时专利申请系列No.60/774,354的优先权,因此其全部内容在此被引入作为参考用于所有目的。
本专利技术涉及分子生物学领域。更特别地,本专利技术涉及校正由一般被称为“合成测序”(SBS)(sequencing-by-synthesis)的技术生成的核酸序列数据中的误差。
技术介绍
合成测序(SBS)一般是指用于确定核酸样本中一个或多个核苷酸的特征或序列构成的方法,其中该方法包括将单链的多核苷酸分子补体逐步合成为模板核酸分子,其中确定了核苷酸序列组成。例如,SBS技术一般是通过在相应的序列位置上添加单一的核酸(也称为核苷酸)核素到新多核苷酸分子补体以形成模板分子的核酸核素来操作。对新分子添加核酸核素一般是利用各种本领域公知的方法进行检测,该方法包括,但不限定于称作为焦测序或荧光检测方法的方法,诸如那些采用了可逆终止子的方法。一般地,重复操作过程直到完成(即,表示了所有的序列位置)或合成了模板想要的序列长度补体(complementary)。SBS技术的一些例子在US专利No.6,274,320中描述,因此其全部内容在此被引入作为参考用于所有用途;以及美国专利申请系列号为No.10/788,529;09/814,338;10/299,180;10/222,298;10/222,592,因此它们中的每一个的全部内容在此被引入作为参考用于所有目的。在SBS的一些具体实施方式中,低核苷酸引物被设计成退火到样品模板分子的预定的补充位置。引物/模板合成物在核酸聚合酶的存在下可能表现为核苷酸核素(nucleotide specie)。如果核苷酸核素是对核酸核素-->的补充,那么聚合酶将用核苷酸核素延伸引物,其中核酸核素对应于紧邻低核苷酸引物的3’末端的样品模板分子上的序列位置。或者,在一些实施例中,引物/模板合成物被立即呈现成多个感兴趣的核苷酸核素(代表性的A,G,C和T),并且核苷酸核素被合并,该核苷酸核素是在紧邻低核苷酸引物的3’末端的样品模板分子上的对应的序列位置的补充。在任何一个上述实施例中,核苷酸核素可以以化学方法被封闭(比如在3’-O位置)以防止进一步延伸,并且需要在第二轮合成前解除封闭。如上所述,核苷酸核素的合并可以通过本领域中已知的各种方法检测,如通过检测焦磷酸盐(PPi)的释放(在美国专利No.6,210,891;6,258,568;和6,828,100中描述的范例,因此每个范例的全部内容在此被引入作为参考用于所有目的),或经由绑定到核苷酸的可检测的标签。可检测标签的一些例子包括但不限于质量标记和荧光或化学发光的标签。在一些典型实施例中,未合并的核苷酸会被移除,例如被洗涤。在可检测的标签被使用的实施例中,它们通常会在接下来的合成循环之前被失活(例如,通过化学的分裂或光致退色)。在模板/聚合酶合成物的下一个序列位置可以用另一个核苷酸核素或如上所述的多个感兴趣的核苷酸核素查询。核苷酸添加、引物延伸、信号获取、和洗涤的重复循环导致模板链的核苷酸序列的确定。在SBS的典型的实施例中,很多或大量的基本上相同的模板分子(例如103,104,105,106或107分子)以任何一种测序反应被同时分析,以便实现对于可靠的检测足够强的信号。为了低信噪比,需要在大量的给定反应中与基本上所有模板分子有关的被称作为未成熟分子的"均匀延伸"。如在此使用的术语"均匀延伸",一般指的是延伸反应的关系或相位,在延伸反应中上述的基本上相同的每一个模板分子在反应中均匀地执行相同的步骤。例如,每个与多个模板分子有关的延伸反应可以被描述为当它们在相同的序列位置为每个相关的模板分子执行相同的反应步骤时处于同相或彼此相位同步。然而那些本领域中的普通技术人员将要理解,在每个群体中的小部分模板分子与群体中剩余的模板分子错过或失去了相位的同步性(也就是说,与一部分模板分子有关的反应或者超过,或者落后对群体进行的-->测序反应中的其它模板分子(在Ronaghi,M.Pyrosequencing sheds light onDNA sequencing Genome Res.11,3-11(2001)中描述了一些例子,其全部内容在此被引入作为参考用于所有目的)。例如,将一个或多个核苷酸核素适当地合并成为一个或多个未成熟的分子用于延伸该序列一个位置的反应的失败,导致随后的每个反应处于在群体剩余的序列位置后的和与群体剩余的序列位置不同相的序列位置。这个效果在此称为"不完全的延伸"(IE)。可替换的,通过将一个或多个核苷酸核素合并到领先于和与群体其余的序列位置不同相的序列位置中而不适当延伸的未成熟分子在此被称为"结转"(CF)(carry forward)。CF和IE的综合效应在此被称为CAFIE。对于不完全延伸的问题,也许存在有一些可能的机制,其有助于可能单独出现或在一些组合中出现的IE。可能的有助于IE机制的一个例子可以包括,缺少表现为模板/聚合酶合成物的子集的核苷酸核素。可能的有助于IE机制的另一个例子可以包括,聚合酶分子的子集没有成功的合并核苷酸核素,该核苷酸核素被适当地呈现用于合并成未成熟的分子。可能的有助于IE机制的另一个例子可以包括在模板/聚合酶合成物中缺少聚合酶活动。至少部分地用于SBS方法中的IE误差的又一个可能考虑机制的例子可以包括,由Metzger(Genome Res.2005 Dec;15(12):1767-76,其全部内容在此引入作为参考用于所有目的)所述的所谓的循环可逆终止(CRT)。在CRT中,核苷酸核素具有修改的3′-O组(通常被称为帽,保护组,或终止子),其防止在单个核苷酸核素合并之后未成熟分子的进一步延伸。这些保护组通过各种方法的一种被设计成可移动的,其中一种方法包括化学处理或光照处理。一旦3′-O位置去保护(以及3′-OH组创建),未成熟的分子可能通过另一个核苷酸核素被延伸。然而,当少许未成熟的分子保持受保护的状态时,由于未完成的去保护效果(不完全的去保护)将会出现相位的异步。在随后的循环中,这部分保持受保护的状态的未成熟的分子将不会被延伸,因而将落后于群体剩余的序列位置并且与群体剩余的序列位置不同相。然而,随后的去保护步骤可以成功地删除已经预先不正确保留的至少一些保护组,使延伸恢复,并且从未成熟的分-->子中创建信号并且继续与剩余的群体非相位同步。那些本领域中的普通技术人员将会理解,可能存在其它有助于IE的因素,因而不局限于上面提供的例子。目前描述的本专利技术实施例的系统和方法旨在校正可能由任何这种单独的或组合的原因或机制而产生的IE误差。例如,由不完全的去保护和随后成功的去保护的结合所引起的IE误差的校正是本专利技术的一个目的。对于CF的问题,也许存在有一些可能的机制,其有助于可能单独出现或在一些组合中出现的CF。例如,一个可能的机制可以包括从前一循环中剩余的过量的核苷酸核素。这种情况是可能出现的,这是因为在循环的未端执行的洗涤协议将从循环中删除大多数的但都是不必要的核苷酸核素。在本例子中结果可能包括存在于"G"核苷酸核素循环中的"A"核苷酸核素的小部分,本文档来自技高网...

【技术保护点】
一种用于校正与模板分子的基本相同副本的种群中产生的相位同步序列数据相关联的误差的方法,包括: (a)检测响应于测序反应中一个或多个核苷酸并入产生的信号; (b)生成用于所述信号的值;以及 (c)利用第一参数和第二参数校正相位同步误差的值。

【技术特征摘要】
【国外来华专利技术】US 2006-2-16 60/774,3541、一种用于校正与模板分子的基本相同副本的种群中产生的相位同步序列数据相关联的误差的方法,包括:(a)检测响应于测序反应中一个或多个核苷酸并入产生的信号;(b)生成用于所述信号的值;以及(c)利用第一参数和第二参数校正相位同步误差的值。2、权利要求1的方法,进一步包括:(d)对于每一个模板分子的序列位置重复步骤(a)-(c)。3、权利要求2的方法,进一步包括:(e)将每个校正值并入到模板分子的表示中。4、权利要求3的方法,其中:该表示包括流程图。5、权利要求2的方法,其中:该相位同步误差包括不完全延伸分量和结转分量,两者都实质上被视为用于每个模板分子的序列位置的常量,其中第一参数代表不完全延伸分量,第二参数代表结转分量。6、权利要求2的方法,其中:该相位同步误差包括结转分量,其实质上被视为用于每个模板分子的序列位置的常量,其中该第二参数代表结转分量。7、权利要求1的方法,其中:该信号包括响应于一个或多个核苷酸并入而发出的光。8、权利要求7的方法,其中:该光包括来自测序反应的化学发光的光。9、权利要求8的方法,其中:该测序反应包括焦磷酸盐测序反应。10、权利要求7的方法,其中:该光包括来自测序反应的荧光。11、权利要求10的方法,其中:该测序反应包括使用可逆终止子的测序反应。12、权利要求1的方法,其中:信号值表示大量并入的核苷酸。13、权利要求1的方法,其中:通过搜索用于每个第一和第二参数最适合的矩阵方程式来估计第一参数所用的值以及第二参数所用的值。14、权利要求13的方法,其中:最适合第一和第二参数的估计包括利用测试值之间的间隔来搜索以及在每个测试值上将一个或多个近似值应用到矩阵结构操作,其中近似值提供改进的估计计算效率。15、一种用于校正与模板分子的基本相同的副本种群中产生的相位同步序列数据相关联的误差的方法,包括:(a)检测响应于测序反应中一个或多个核苷酸并入产生的信号;(b)生成用于信号的值;(c)并入该值到与模板分子序列关联的表示;(d)对每一个模板分子的序列位置重复步骤(a)-(c);(e)利用第一参数和第二参数校正表示中的相位同步误差的每个值;以及(f)利用校正值生成校正表示。16、权利要求15的方法,进一步包括:(g)利用步骤(e)中前一个迭代获得的校正值迭代重复步骤(e)-(f),其中一些或所有这些校正值随着每次迭代在质量上有所改进。17、权利要求15的方法,其中:该相位同步误差包括不完全延伸分量和结转分量,两者都实质上被视为用于每个模板分子的序列位置的常量,其中第一参数代表不完全延伸分量以及第二参数代表结转分量。18、权利要求15的方法,其中:该相位同步误差包括结转分量,其实质上被视为用于每个模板分子的序列位置的常量,其中该第二参数代表结转分量。19、权利要求15的方法,其中:该信号包括响应于一个或多个核苷酸并入而发出的光。20、权利要求19的方法,其中:该光包括来自测序反应的化学发光的光。21、权利要求20的方法,其中:该测序反应包括焦磷酸盐测序反应。22、权利要求19的方法,其中:该光包括来自测序反应的荧光。23、权利要求22的方法,其中:该测序反应包括使用可逆终止子的测序反应。24、权利要求15的方法,其中:信号值表示大量并入的核苷酸。25、权利要求15的方法,其中:通过搜索用于每个第一和第二参数最适合的矩阵方程式来估计第一参数所用的值以及第二参数所用的值。26、权利要求25的方法,其中:最适合第一和第二参数的估计包括利用测试值之间的间隔来搜索以及在...

【专利技术属性】
技术研发人员:陈怡儒K麦达德J辛普森
申请(专利权)人:四五四生命科学公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1