本发明专利技术涉及基因组组装技术领域,公开了一种衣藻染色体水平的基因组组装方法。该方法通过依次采用FGAP、原始三代测序数据序列比对、初步组装后的DNA片段比对,关闭原始基因组中的200bp以下、200
【技术实现步骤摘要】
一种衣藻染色体水平的基因组组装方法
[0001]本专利技术涉及基因组组装
,尤其涉及一种衣藻染色体水平的基因组组装方法。
技术介绍
[0002]在传统的基因组构建(二代测序)中,通常将样本DNA经超声波打断成100
‑
200个碱基长度的小片段,然后通过NGS高通量测序仪进行测序,得到下机数据,在使用组装软件将短序列两两比对,通过短序列之间的重叠区域构建叠连群,形成较长的初步组装的基因组片段(contigs),再通过染色体定位技术将长片段进一步组装结合,并且标记染色体编号,实现染色体水平上的基因组构建,即获得定位到染色体上的DNA序列(scaffold)。但是由于测序片段长度的限制以及组装水平影响,DNA上有些难以测到的片段,通常称为基因组中的gap。gap区域的存在给基因组学的分析带来了极大阻碍。
[0003]随着三代单分子测序技术的出现,为这个问题的解决带来了曙光,由于三代测序技术无需DNA扩增以及打断过程,且测序片段超长,最长可达1M(100万)个碱基,初步组装较为简单,可以轻松覆盖到传统基因组中的长片段gap区域。因此,采用三代测序数据,可以对二代测序获得的传统基因组进行gap关闭。
[0004]文献“FGAP:an automated gap closing tool”(Piro,Vitor C.,et al.BMC research notes 7.1(2014):371.)中公开了一种gap关闭工具FGAP,它利用BLAST将contigs序列比对到基因组草图序列上,寻找重叠到gap区域的最优序列,从而进行关闭gap区域。采用该工具能够较准确地关闭小gap区域,但难以关闭大gap区域,因而获得的全基因组完整性较低。
技术实现思路
[0005]为了解决上述技术问题,本专利技术提供了一种衣藻染色体水平的基因组组装方法。该方法依次采用FGAP、原始三代测序数据序列比对、初步组装后的DNA片段比对,关闭原始基因组中的200bp以下、200
‑
1000bp、1000bp以上的gap区域,能够在较大程度上提高基因组的完整性,同时兼顾了测序成本。
[0006]本专利技术的具体技术方案为:一种衣藻染色体水平的基因组组装方法,包括以下步骤:(1)利用衣藻的原始三代测序数据序列,通过FGAP工具对衣藻二代测序获得的原始基因组进行修饰,以关闭长度为200bp以下的gap区域,获得初步修饰后的基因组;(2)将原始三代测序数据序列与初步修饰后的基因组进行比对,使用python脚本关闭长度为200
‑
1000bp的gap区域,获得第二次修饰后的基因组;(3)根据reads之间的重叠区域,对原始三代测序数据序列进行初步组装,获得初步组装后的DNA片段;(4)将初步组装后的DNA片段与第二次修饰后的基因组进行比对,根据比对结果,
使用python脚本提取所需序列,关闭长度为1000bp以上的gap区域,实现基因组组装。
[0007]第三代测序读长超长,初步组装较为简单,可以轻松覆盖到传统基因组中的长片段gap区域。基于此,本专利技术在传统二代测序获得的原始基因组基础上,利用对应物种的三代测序数据,关闭原始基因组中的gap区域,由于二代测序已经将DNA片段定位到染色体上,因此无需再次进行染色体定位,最大程度地兼顾了基因组的完整性和测序成本。
[0008]本专利技术在使用FGAP关闭200bp以下的小gap区域的基础上,利用衣藻的原始三代测序数据序列及其初步组装后的DNA片段进行比对,并采用本专利技术的python脚本,实现了200
‑
1000bp和1000bp以上的gap区域的关闭,较大程度地提高了基因组的完整性。
[0009]作为优选,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况1:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相同,材料序列B与所述gap区域一端存在匹配区域,选择材料序列A中与gap区域相同位置处的序列填补所述gap区域;在步骤(2)中,所述原始三代测序数据序列作为材料序列,所述初步修饰后的基因组作为待修饰序列;在步骤(4)中,所述初步组装后的DNA片段作为材料序列,所述第二次修饰后的基因组作为待修饰序列。
[0010]在python脚本中,根据材料序列与待修饰序列之间的匹配情况,选择用于填补gap区域的材料序列。
[0011]在情况1中,由于材料序列A与待修饰序列之间在gap区域的两端均存在匹配序列,而材料序列B与待修饰序列之间只在gap区域的一端存在匹配区域,因此,采用材料序列A填补gap区域,能获得更高的准确性。
[0012]作为优选,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况2:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相反,材料序列B与所述gap区域一端存在匹配区域3,选择材料序列B中与gap区域相同位置处的序列填补所述gap区域。
[0013]在情况2中,由于匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相反(例如,在待修饰序列中,匹配区域1位于匹配区域2的上游,而在材料序列A中,匹配区域1位于匹配区域2的下游),表明材料序列A与待修饰序列之间的匹配区域可能是由于错配造成的,因此选取材料序列B作为填补gap区域所用材料。
[0014]作为优选,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况3:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在材料序列A中存在重叠,材料序列B与所述gap区域一端存在匹配区域3,选择材料序列B中与gap区域相同位置处的序列填补所述gap区域。
[0015]在情况3中,由于匹配区域1和匹配区域2之间存在重叠,材料序列A中不存在能用于填补gap区域的序列,其与带修饰序列之间的匹配区域可能是由于错配造成的,因而选取材料序列B作为填补gap区域所用材料。
[0016]当python脚本中同时包含上述3种情况时,能够关闭大部分gap区域,使基因组具
有更高的完整性。
[0017]进一步地,在情况1中,待修饰序列中gap区域到匹配区域1和/或匹配区域2的序列与材料序列A中相应位置的序列存在不匹配区域,在填补gap区域时不更改待修饰序列中的所述不匹配区域。
[0018]进一步地,在情况2或情况3中,带修饰序列中gap区域到匹配区域3的序列与材料序列B中相应位置的序列存在不本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种衣藻染色体水平的基因组组装方法,其特征在于,包括以下步骤:(1)利用衣藻的原始三代测序数据序列,通过FGAP工具对衣藻二代测序获得的原始基因组进行修饰,以关闭长度为200bp以下的gap区域,获得初步修饰后的基因组;(2)将原始三代测序数据序列与初步修饰后的基因组进行比对,使用python脚本关闭长度为200
‑
1000bp的gap区域,获得第二次修饰后的基因组;(3)根据reads之间的重叠区域,对原始三代测序数据序列进行初步组装,获得初步组装后的DNA片段;(4)将初步组装后的DNA片段与第二次修饰后的基因组进行比对,根据比对结果,使用python脚本提取所需序列,关闭长度为1000bp以上的gap区域,实现基因组组装。2.如权利要求1所述的基因组组装方法,其特征在于,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况1:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相同,材料序列B与所述gap区域一端存在匹配区域,选择材料序列A中与gap区域相同位置处的序列填补所述gap区域;在步骤(2)中,所述原始三代测序数据序列作为材料序列,所述初步修饰后的基因组作为待修饰序列;在步骤(4)中,所述初步组装后的DNA片段作为材料序列,所述第二次修饰后的基因组作为待修饰序列。3.如权利要求2所述的基因组组装方法,其特征在于,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况2:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰...
【专利技术属性】
技术研发人员:王宝祺,马飞学,
申请(专利权)人:王宝祺,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。