用于处理核酸色谱的系统和方法技术方案

技术编号:2850325 阅读:265 留言:0更新日期:2012-04-11 18:40
用于处理具有多条基本同时发生的迹线的输入核酸色谱的计算机系统、计算机程序产品和方法。多条迹线中的每一条迹线具有多个数据点。每一多个数据点中各个分别的数据点表示在迹线中相应于各自数据点的的位置处信号幅度。识别第一迹线中的第一峰,该峰基本与多条迹线中第二迹线的第二峰重叠。将该第一峰输出为第一输出纯合表示,将第二峰输出为第二输出纯合表示。第一输出纯合表示是第一纯合序列表示或相应于该输入核酸色谱的第一纯合核酸色谱。第二输出纯合表示是第二纯合序列表示或输入核酸色谱的第二纯合核酸色谱。

【技术实现步骤摘要】

本专利
涉及用于自动处理核酸色谱的计算机系统和方法。使用该方法可容易地在杂合核酸序列示踪过程中进行多态性检测和表征。计算机程序列表附件包括计算机程序列表附件的一个光盘已在本专利技术的副本中提交。在下表1中可看到计算机程序列表附件所含文件的大小、生成日期、生成时间及文件名称。在表1中栏一以字节提供了文件大小。栏二和栏三分别表示文件产生日期和时间,而第四栏表示文件名称。表1.计算机程序列表附件内容 表1所披露的计算机程序列表附件及其所包含的文件名目录作为整体在此作为参考引用。
技术介绍
大量DNA序列信息的可用性已开始影响生物学实践。作为当今大规模序列输出量的结果,分析方法已不适于与急速增长的数据并驾齐驱。为跟上这种增长要求,需要改进的自动化控制,并且在序列数据处理中较大地减少或消除人为涉及因素也特别重要。在这方面的进展不仅需要改进数据处理软件的准确性而且需要可靠的准确方式来减少在错误勘正中对人为涉及因素的需要并使人工复查更加有效率。现在,通常用Sanger的酶双脱氧链终止法(Sanger等1977,Proc.Natl.Acad.Sci.745463-5467)在自动测序仪中进行DNA测序,这样的自动测序仪如AppliedBiosystems公司(ABI,Norwalk,Connecticut)3730×1DNA分析仪、3730DNA分析仪、ABI PRISM3100基因分析仪、3100-Avant毛细管DNA测序仪/基因分型仪或310毛细管DNA测序仪/基因分型仪。这样的测序仪可产生列出多于一千个碱基的序列数据。这样的测序开始于目标DNA模板及与模板链上特定位点互补的寡核苷酸引物。对四个碱基(A、G、C、T)中的每一个,进行反应,其中DNA聚合酶合成一定数量不同长度的标记单链片段,每一个片段与模板链的片段互补并从引物延伸直到出现那个碱基。然后根据长度用凝胶电泳分离这些片段,在电泳上它们的相对大小与对每一片段最后碱基的识别使得推断出该模板的碱基序列。在自动测序过程中(Smith等1986,Nature321674-679),用与引物(染料引物化学)或与双脱氧链终止核酸(染料终止基因化学)相连的荧光染料标记片段(Prober等1987,Science238336-341)。通常,这四个反应中的每一个使用不同的染料,以使得它们联合起来并在一个凝胶电泳道中跑胶(在染料终止基因化学中,全部四个反应也允许在一个试管中进行)。例如,一种这样的应用使用了激光激发和冷却CCD(电荷偶合装置)检测器(Kostichka和Smith,美国专利5,162,654)在超薄(50-100微米)变性聚丙烯酰胺凝胶中的电泳分离过程中(Kostichka等,Bio/Technologyl078-81(1992))进行四个荧光标记DNA测序反应的平行检测。Weiss等(美国专利5,470,710)描述了另一种基于荧光的测序应用,其使用酶联荧光方法来检测核酸分子。也参见美国专利6,596,140,其指出一种多通道毛细管电泳装置和方法。通常,在同一凝胶上的分离电泳道中分析多个模板(例如同时36个或更多)。在凝胶底部,激光器在片段通过时激发这些片段中的荧光染料,并且检测器在四个不同波长收集发射强度。在电泳过程中激光器和扫描器不断扫描凝胶底部以便于建立凝胶图像,其中每一电泳道具有四种不同颜色条带的梯形模式,每一条带对应特定长度的片段。然后用计算机分析将凝胶图像转化为针对每一模板的推断(或读出)碱基序列。通常,该分析由四个不同的步骤组成电泳道循迹,其中识别凝胶电泳道边界;电泳道描绘,其中在跑胶过程中的几千个均匀间隔的时间点上,四个阵列组显示信号强度,那么将通过电泳道的四个信号中的每一种相加产生一种图形或一组“迹线”;迹线处理,其中用信号处理方法使信号估计值去卷积并使之平滑,减小噪音,并校正染料对片段迁移率的影响及远程电泳趋势;以及碱基命名,其中将经处理的迹线翻译为碱基序列。此处所使用的术语“迹线”指通过对于特定化合物,如核酸的色谱获得的时间分辨的分离模型。该分离模型用多个数据点来表征,其中在多个数据点中的每一个各自的数据点表示在该分离模式中对应于该各自数据点的位置的信号幅度。通过对应于迹线的化合物数量的函数确定给定数据点的值,该迹线由检测器在该点处以由数据点表示的时间方式检测到。在典型的核酸测序中,例如,在每一数据点由迹线表示的碱基的丰度会变化。由迹线表示的化合物不存在的数据点通常被分配了相对小的信号幅度。相反,由迹线表示的化合物存在的数据点通常被分配了相对大的信号幅度。这样,具有相对小幅度的数据点和具有相对大幅度的数据点模式在迹线中给出了上升直至“峰值”。在一些实施方案中,迹线具有大于5个数据点、大于100个数据点、或大于1000个数据点。在一些实施方案中,迹线具有2-100,000个数据点或更多个数据点。通常经处理的核酸序列迹线以含有四种不同颜色曲线的色谱形式表示,每一条曲线代表相对于四个碱基中一个的信号并沿检测时间增加的方向从左到右描绘(增加片段大小)。一条理想化迹线包括相等间隔不重叠的峰,每个峰对应于在待测序列链中终止于特定碱基的标记片段。这样,对核酸将有四条迹线,每条迹线表示特定的核苷酸。由于各种原因,实际迹线偏离该理想迹线,这些原因包括在测序反应、凝胶电泳和迹线处理过程中可能发生的缺陷。由于非常短的片段(由染料和特定碱基对迁移率造成的相对大的影响引起)及未反应的染料-引物或染料-终止基因分子的不规则迁移,迹线的第一个五十(first fifty)或峰值常常有噪音并不等间隔。由于不很精确的迹线处理,该峰向迹线末端逐渐变得不太相等间隔,由于扩散效应增加在连续片段之间相对质量差异减小使得分辨率降低,并且由于给定大小的标记片段分子数量减小更难于区分噪音。特别是,对同一碱基分辨率很低的峰会产生一条宽的、常常呈波浪起伏的峰。在迹线的较好分辨率区域中,最常见到的电泳异常是密集(Sanger和Coulsonl975,J.Mol.Biol.94441-448;Sanger等,1977,Proc.Natl.Acad.Sci.745463-5467),当靠近单链片段末端的碱基与互补的上游区域连接时,发生这种现象,从其长度产生了一种通过凝胶的迁移速度快于期望速度的发夹式结构,因而引起了峰从其期望位置漂移。这导致一个峰在另一个下面,或者导致同样碱基的两个连续的峰合并成一个。染料-终止基因的化学性质表现出可解决大部分密集的问题(Lee等1992,Nucleic Acids Res.202471-2483),但这种化学性质由于对染料标记终端核苷酸的还原聚合物酶的亲和性的减少引起其自身数据质量问题。碱基命名软件的作用是在面临上述数据问题时尽可能精确地产生序列。作为此处所使用的术语“碱基命名”指确定识别核酸序列中核苷酸碱基的过程。一些最早的碱基命名软件是安装在最初的ABI测序机器上的处理软件的一部分(Connell等,1987,Bio Techniques5342-348)。ABI软件常作为用来判断其他方法的基准。虽然全部算法细则还未公开,根据其碱基命名软件的ABI说明(ABI 1996),该程序利用迁移曲线来预测峰空间,并在公称峰空间的区间中识别最可本文档来自技高网...

【技术保护点】
一种处理具有多个基本同时发生的迹线的输入核酸色谱的方法,在所述多个迹线中的每条迹线具有多个数据点,每一多个所述数据点中的每一个分别的数据点表示在迹线中相应于各自数据点的位置处的信号幅度,该方法包括:    识别所述多条迹线中第一迹线的第一峰,该峰基本与所述多条迹线中第二迹线的第二峰重叠;及    输出所述第一峰为第一输出纯合表示,第二峰为第二输出纯合表示。

【技术特征摘要】
US 2004-9-15 10/9425381.一种处理具有多个基本同时发生的迹线的输入核酸色谱的方法,在所述多个迹线中的每条迹线具有多个数据点,每一多个所述数据点中的每一个分别的数据点表示在迹线中相应于各自数据点的位置处的信号幅度,该方法包括识别所述多条迹线中第一迹线的第一峰,该峰基本与所述多条迹线中第二迹线的第二峰重叠;及输出所述第一峰为第一输出纯合表示,第二峰为第二输出纯合表示。2.如权利要求1的方法,其中所述第一输出纯合表示是所述输入核酸色谱的第一纯合序列表示;及所述第二输出纯合表示是所述输入核酸色谱的第二纯合序列表示。3.如权利要求1的方法,其中所述第一输出纯合表示是第一纯合核酸色谱;及所述第二输出纯合表示是第二纯合核酸色谱。4.如权利要求1的方法,其中所述识别包括(A)对于在所述的第一迹线中一个或多个峰中的每一个分别的峰,标记具有所述分别峰中的最大值的数据点,第一迹线中所述的一个或多个峰包括所述第一峰;(B)对于在所述的第二迹线中一个或多个峰中的每一个分别的峰,标记具有所述分别峰中的最大值的数据点,第二迹线中所述的一个或多个峰包括所述第二峰;(C)识别所述输入核酸色谱中的坐标,该坐标在下述数据点的重叠阈值数量的数据点内(i)具有所述第一峰中的最大值的第一数据点和(ii)具有所述第二峰中的最大值的第二数据点。5.如权利要求4的方法,其中当所述第一数据点与第二数据点间隔2个数据点至7个数据点时,所述第一峰基本与所述第二峰重叠。6.如权利要求4的方法,其中当所述第一数据点与第二数据点间隔小于3个数据点时,所述第一峰基本与所述第二峰重叠。7.如权利要求1的方法,其中所述第一峰和第二峰各自独立地包括5-40个数据点。8.如权利要求1的方法,其中所述输入色谱为ABI迹线文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。9.如权利要求1的方法,其中将所述第一输出核酸色谱和第二输出核酸色谱各自写成ABI迹线文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。10.如权利要求4的方法,其中当在所述输入色谱中关于所述坐标的预定区域中存在大于阈值数量的峰时,将所述第一峰和第二峰各自都写成第一输出纯合表示和第二输出纯合表示。11.如权利要求10的方法,其中所述阈值数量峰为2-5个峰。12.如权利要求10的方法,其中所述预定区域为关于所述坐标的2个数据点-20个数据点。13.如权利要求4的方法,其中当第一峰的第一数据点与第二峰的第二数据点之间的比率大于阈值比率值时,将所述第一峰和所述第二峰各自写成第一输出纯合表示和第二输出纯合表示。14.如权利要求13的方法,其中所述的阈值比率值为至少0.20。15.如权利要求13的方法,其中所述的阈值比率值为至少0.40。16.如权利要求4的方法,其中当第一峰的第一数据点与第二峰的第二数据点之间的比率小于阈值比率值时,将所述第一峰和所述第二峰各自写成第一输出纯合表示和第二输出纯合表示。17.如权利要求4的方法,该方法进一步包括为所述输入核酸色谱确定平均峰背景值,及当所述第一峰的第一数据点或第二峰的第二数据点小于所述平均峰背景值时,将所述第一峰和所述第二峰写成所述第一输出纯合表示和第二输出纯合表示。18.如权利要求17的方法,其中通过下述方法计算平均峰背景值(i)比较(a)多条迹线的试验迹线中的数据点,该数据点具有所述试验迹线中峰的最大值,与(b)在多条迹线中另一条迹线的相应区域中具有最大值的相应数据点;(ii)重复将试验迹线的所述数据点与多条迹线中另一条的相应区域中具有最大值的相应数据点进行比较,直到多条迹线中每一条都已进行了所述比较(i)中的比较,其中当试验迹线中的数据点具有大于多条迹线中的每一条其它迹线的相应数据点所具有的值时,将该数据点的值加到计数器中;(iii)用具有在试验迹线中的不同峰的最大值的不同数据点重复比较步骤(i)和重复步骤(ii),直到通过所述比较步骤(i)对试验迹线中所有或部分峰都进行了比较;(iv)用多条迹线中的不同试验迹线重复所述比较步骤(i)、重复步骤(ii)和重复步骤(iii),直到多条迹线中每一条都作为在所述比较步骤(i)中的试验迹线被考虑过;及(v)通过加到计数器上的多个峰平均所述的计数器,从而获得所述平均峰背景值。19.如权利要求4的方法,其中所述的输入核酸色谱表示来自杂合核酸样品的核酸序列,该方法进一步包括对所述杂合核酸样品中的插入或删除点扫描所述输入核酸色谱;其中当发现所述插入或删除点并且所述坐标在该点之后时,将第一峰和第二峰各自写成所述的第一输出纯合表示和第二输出纯合表示。20.如权利要求19的方法,其中所述扫描包括计数发生在所述坐标之后的多个迹线中的峰的数量,其中当峰的数量超过插入/删除阈值数量时,确定所述坐标为所述杂合核酸样品中的插入或删除点。21.如权利要求20的方法,其中所述的插入/删除阈值数量为25-75。22.如权利要求20的方法,其中所述插入/删除阈值数量为75-200。23.如权利要求19的方法,其中所述扫描包括确定在所述坐标后多个迹线中重叠峰的百分比,其中,当重叠峰的百分比超过插入/删除阈值百分比时,确定所述坐标为杂合核酸样品中所述的插入或删除点。24.如权利要求23的方法,其中所述插入/删除阈值百分比为2-90%。25.如权利要求23的方法,其中所述插入/删除阈值百分比为10-50%。26.如权利要求1的方法,其中所述输入核酸色谱表示来自杂合核酸样品的核酸序列,其中在所述输出之前...

【专利技术属性】
技术研发人员:G廖JA乌苏卡GA佩尔茨
申请(专利权)人:霍夫曼拉罗奇有限公司
类型:发明
国别省市:CH[瑞士]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利