一种长片段DNA文库长配对末端测序方法技术

技术编号:22129869 阅读:46 留言:0更新日期:2019-09-18 06:08
本发明专利技术属于全基因测序技术领域,具体涉及一种长片段DNA文库长配对末端测序方法。公开了一种基于单分子测序平台的长片段DNA文库长配对末端测序方法。发明专利技术的步骤为:提取全基因组DNA构建大片段文库;通过大片段文库克隆混合池DNA构建长末端paired‑end测序文库及克隆混合池,提取长末端paired‑end测序文库克隆混合池的DNA,去载体后进行测序,利用提取到的paired‑end双末端序列经过去冗余后得到无歧义的长paired‑end序列,用以辅助全基因组的拼装,评估已有基因组拼装的质量,鉴定结构变异位点等,使基因组组装质量得到较大的提升。

A Long Paired End Sequencing Method for Long Fragment DNA Library

【技术实现步骤摘要】
一种长片段DNA文库长配对末端测序方法
本专利技术属于全基因组测序
,具体涉及一种长片段DNA文库长配对末端(paired-end)的测序方法,用来进行全基因组序列的组装、验证、多基因组比较以及结构变异位点鉴定等。
技术介绍
DNA测序技术的发展有着丰富的历史,在短短的40多年中有着众多飞跃式的发展。从Sanger的电泳法测序技术,以高成本、低通量、长读长、高精度等特点打开生物测序的大门,到下一代测序技术(NGS,Nextgenerationsequencing)大规模平行测序,以低成本、高通量、短读长、高精度等特点成为生物测序的中流砥柱,再到目前正引领新潮流的单分子实时合成测序,以高通量、超长读长、低精度等特点开创生物测序的新时代。在DNA测序技术发展的前25年,其主要目的是对部分或完整的基因组进行测序。事实上,1977年兴起的Sanger测序,包括第一个基因组(phiX174;5.4kb),基本上是手动组装的。如果DNA测序是随机的,那么任何大型基因组都可以通过片段间的重叠区组装。相反,如果不是随机的,混合的重复序列和技术的偏好性使得科学家们不可能单从kb大小级别的reads中获得高组装质量的大型基因组,还需要额外的“邻近信息”。对于人类基因组计划,这些额外的邻近信息包括:(1)遗传图谱:基于遗传多态性的系谱分离,在染色体范围内提供部分序列顺序的正交信息;(2)物理图谱:用限制性内切酶对大片段克隆进行“指纹图谱”识别重叠区,对跨越基因组的“平铺路径”进行排序;对每个克隆进行单独的鸟枪法(shotgun)测序和组装,从中分离出不同的重复拷贝,然后进行更深一步的排序和组装;(3)双端测序(Paired-end):Ansorge于1990年推出对一定长度的DNA片段进行双端测序的DNA测序方法,能有效连接两端序列。基于克隆的方法,跨越长度的范围可以从几个kb到几百个kb;序列覆盖度为8-10倍,结合邻近信息的资源,不仅可以进行基因组组装,而且能提高绝大多数基因组的质量,使碱基错误率仅为十万分之一。伴随着2005年NGS的到来,从头组装(denovo)组装的序列数量大大增加。看似灾难性的短序列和重复基因组也可以被基于deBrujin图谱(如,EULER和Velvet)的新组装算法所克服。尽管如此,当应用到大型基因组时或将其与人类基因组计划的基因组进行比较时,它们的平均质量仍然极低。除了NGS产生的序列读长较短之外,其质量低的主要原因应归咎于缺乏邻近的方法来补足NGS。虽然双端测序技术对NGS组装质量理论上有着出众的辅助作用,但其体外建库的方法还是更多地受到跨越距离的限制。最近几年新的补充测序技术的不断开发与完善,使短序列的利用越来越多。首先,如层级鸟枪法测序,在体外从子样品中获得高分子量的基因组片段。其次,如Hi-C(全基因组染色体构象捕获)和光学物理图谱,提供了可扩展的、有成本效益的染色体组装工具。最后,PacBio和ONT测序的读长已经上升至数百kb,现在其读长更受限于高分子量DNA的制备而不是测序本身。基因组文库是将某个物种的基因组DNA通过生物、化学或物理打断等不同的方式破碎成特定的大小,然后以载体为媒介导入到宿主中形成的集合,是进行分子克隆和基因组结构与功能特点研究的重要工具和材料。其中大片段基因组文库以其较大的外源DNA片段长度容纳能力而被广泛运用,如Fosmid文库(平均插入片段约40Kb)和BAC文库(平均插入片段约100Kb)等等,在图位克隆、物理图谱的构建、全基因组测序、比较基因组研究以及珍稀物种的基因组资源保护等用途中都发挥着重要的作用。如今,基因组文库与不同DNA测序技术结合应用的方法在生物测序领域已占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱、利用噬菌体(Fosmid)文库结合NGS测序技术辅助全基因组组装等。而其中尤以Paired-end末端测序技术应用最为广泛,Paired-end末端测序法的出现使基于NGS的全基因组测序序列组装质量及效率得到大大提升,利用长片段文库成对末端序列不仅使NGS测序得到的短读长序列得以更好地组装,还可以针对重复序列组装时,成对末端之间较长的间距可以跨过许多重复序列,从而使散在的、难以辨别顺序关系的Contigs之间得以正确排列,提升基因组的完整度。Paired-end末端测序技术其实一直伴随着测序技术的提升而不断改进。在Sanger测序技术上的Paired-end末端测序技术体现在依靠BAC文库末端序列构建的比较物理图谱制作和序列校正上。在这个策略中,利用BAC克隆的末端序列定位参考基因组的位置及序列信息,使散在的Contigs按原本基因组的顺序排列,从而提升基因组的组装完整度,验证基因组组装错误以及进行比较基因组研究。这种方法适用于所有测序平台的全基因组组装,且准确度最高。但是,这种传统的BAC末端测序方法也是最耗时耗力的,工序复杂、工作量大、通量太低且耗资不菲。为了降低成本以及随着NGS技术的普及,基于Fosmid文库的Paired-end技术应用也越来越广泛,甚至成为全基因组装中不可缺少的重要辅助工具,并且在鉴定结构变异位点上占有举足轻重的地位。虽然基于Fosmid文库的Paired-end技术以其低成本、技术简单及高通量等优点而被广泛应用,但是,其缺点也非常明显,NGS测序平台较短的读长使序列组装过程的计算量加大,完成序列组装仍面临不小困难,组装后的序列可能包含很多缺口并且难以填补,在没有参考序列的情况下很难将得到的scaffold定位到染色体上并确定它们之间的相对位置,特别是当基因组含有大量的重复序列或含有很大的基因家族以及大片段的重复时,这些缺点就更加突出,因此其精确性远远不如BAC末端序列。目前随着PacBio及Nanopore新测序平台的出现,其测序读长(平均读长约10kb,最高可达1Mb)远远高于Sanger测序平台和NGS测序平台所能达到的读长,正逐渐被广大生物科学家们认识和应用,并且其趋势越来越好,带领了一个新的测序时代的发展。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,主要是为改进传统Paired-end技术方法以适应新一代的测序潮流。本专利技术利用单分子测序平台的较长读长和较高的通量,再结合Fosmid及BAC文库的较长插入片段,改进传统Paired-end技术短读长的缺点以及传统BAC末端测序的耗时耗力的缺点,以简便高效的方法得到大量的、成对的、长读长的末端序列,利用这些末端序列不仅可以使基因组组装质量得到较大的提升,还可以纠正已有的参考基因组的错误组装以及鉴别物种基因组中的变异等等。本专利技术的技术方案如下所述:本专利技术公开了一种长片段DNA文库长配对末端测序方法,专利技术的步骤为,提取全基因组DNA构建大片段文库;通过大片段文库克隆混合池DNA构建长末端paired-end测序文库及克隆混合池,并提取长末端paired-end测序文库克隆混合池的DNA,去载体后进行测序,利用提取到的paired-end双末端序列经过去冗余后得到无歧义的长paired-end序列,用以辅助全基因组的拼装、评估已有基因组拼装的质量、鉴定结构变异位点等等。本专利技术的具体步骤包括:1、载体改造及制备;2、提本文档来自技高网
...

【技术保护点】
1.一种长片段DNA文库长配对末端测序方法,包括载体改造,构建大片段基因组文库和克隆混合池;通过混合池DNA构建长配对末端文库,克隆混合池;制备测序样品后进行测序;最后利用长配对末端序列进行全基因组序列的组装、验证、多基因组比较以及结构变异位点鉴定,其特征包括:a)使用物理打断或部分酶切的方法得到随机性强的大片段文库克隆的长配对末端;b)使用抗性基因标签筛选长配对末端,区分来自同一克隆的左右末端。

【技术特征摘要】
1.一种长片段DNA文库长配对末端测序方法,包括载体改造,构建大片段基因组文库和克隆混合池;通过混合池DNA构建长配对末端文库,克隆混合池;制备测序样品后进行测序;最后利用长配对末端序列进行全基因组序列的组装、验证、多基因组比较以及结构变异位点鉴定,其特征包括:a)使用物理打断或部分酶切的方法得到随机性强的大片段文库克隆的长配对末端;b)使用抗性基因标签筛选长配对末端,区分来自同一克隆的左右末端。2.如权利要求1中所述的一种长片段DNA文库长配对末端测序方法,其特征在于构建大片段文库使用改造后的载体,包括利用PCR方法将包含多克隆位点的登录号为EU140752的位于1727-2056bp的LacZ序列移至位于134-792bp的氯霉素基因和位于2428-3042bp复制子之间以增加更多的双末端;并将LacZ两端位于1601bp和2253bp的用以检测插入片段的NotI酶切位点替换成18碱基稀有酶切位点I-SceI,同时在除LacZ序列之外...

【专利技术属性】
技术研发人员:罗美中戴钊钊
申请(专利权)人:华中农业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1