本发明专利技术涉及一种基于参考基因组和从头组装相结合的二代测序数据组装方法。将基于参考基因组组装和基因组从头组装这两种策略结合起来,来克服这两者的劣势,同时充分利用这两者的优势。首先,利用基于参考基因组的策略获得一个连续性和准确率较好的基因组序列。然后,利用从头组装的策略获得一个从头组装的基因组,该基因组对物种特异性序列的组装方面表现较好。最后,将这两个基因组整合到一起,产生一个在准确率、连续性和完整性都较好的基因组。
【技术实现步骤摘要】
本专利技术涉及存在参考基因组的情况下对第二代测序读段进行全基因组组装的方 法。
技术介绍
目前,根据有无参考基因组来区分,二代测序数据的组装策略主要两种,一种是基 因组从头组装,另一种是基于参考基因组的组装。但这两者各有优缺点。 基因组从头组装是在不依赖参考基因组或其他基因组的情况下,完全基于测序 读段进行的组装。目前,对于序列组装主要有三种算法。第一种是贪婪算法。这种算法 只要序列间有重复(一致)序列,就寻找最大重复区,合并更多序列。这种算法简单,可 以达到局部最优的结果,但难以实现全局最优。在实际中,由于准确率比较低,使用的 这种算法的组装软件也比较少。常用的软件有SSAKE,TIGR Assembler等。第二种是 OLC (Overlap-Layout-Consensus)算法。这种算法将小序列间的关系以图的形式呈现,每个 节点代表一个序列片段,如果两个序列片段间有重叠就用重叠区来连接两个节点。当测序 的读段较长时,该算法能得到很好的结果。在使用Sanger读段来组装时,该算法被普遍使 用。常用的软件有CAP3,Phrap,Newbler等。第三种是基于de Bruijin图的算法。这种算 法不直接使用读段来组装基因组。首先,将读段分割成长度相同的kmer片段,相邻kmer只 差一个碱基。然后构建de Bruijin图,以kmer为图的节点,以相邻kmer的连接为边。最 后,寻找可以包含de Bruijin图中所有读段所对应的路径。在实际组装过程中,一般要有去 掉图中短的分支、低覆盖度的边、合并泡等操作,以获得更加准确的简化图。这种算法不需 要读段之间的两两比对,并且使用的内存与测序覆盖深度关系不大,是一个线性时间问题, 具有更低的时间复杂度。现在,使用二代测序数据进行的基因组组装大部分都是使用这种 算法。常用的软件有:AllPath_LG,SOAPdenovo,Velvet 等。 基因组从头组装的策略不依赖参考基因组的优点是可以更好地组装出一些物种 特有的基因组片段,并且已开发出许多工具和软件,这提高了计算的自动化,降低了对科 研人员对计算机技术的要求,在科学研究中应用广泛,如大熊猫,甜橙等物种的基因组组 装。但是,它也有明显的缺点,在基因组的复杂度高的区域,利用从头组装的策略很难组装 出来。因而,对于复杂度高、重复序列高的大基因组而言,这种策略在基因组组装的连续性 上表现较差,即N50或N90很小;在准确性上的表现也较差,即在重叠群(contig)和支架 (scaffolds)存在很多的错误连接。 基于参考基因组的组装,这是一种比较组装的方法,通过比较和参考已知或类似 的基因组来实现短序列的组装。基于参考基因组的方法可以用于组装重叠群阶段或组装支 架阶段。当参考基因组用于组装重叠群阶段时,基于参考基因组组装的方法大致上有两种。 一种是基于比对构建重叠群的方法,如AMOScmp,samtools,L0CAS。另一种是基于参考基因 组来划分更小的区域,在局部进行组装从而降低组装的复杂度,提高组装质量。这种方法没 有现成的软件,需要设计更适合自己研究的流程,但大致思想都是"化整为零"的局部组装。 这种方法已应用到拟南芥的研究中。当参考基因组用在组装支架阶段时,一般是基于重叠 群在参考基因组上的比对的位置信息来构建支架,有时需要额外信息的支持,如双末端读 段,或物理图谱等。使用这种方法的软件有scaffol_builder,RACA,nucmer的比对排序算 法等。 基于参考基因组组装的策略的优点是可以降低组装的复杂度,对计算资源的消耗 较低。同时可以提高基因组组装的正确率和连续性。但其缺陷也非常明显。该方法受参考 基因组质量的影响较大。当参考基因组质量较高时,利用参考基因组组装的质量也会较高; 当参考基因组质量较低时,利用参考基因组组装的质量也偏低。同时这种策略很难将该物 种一些特异性的片段组装出来,这会导致组装的完整性大打折扣。 在本研究中,我们将基于参考基因组组装和基因组从头组装这两种策略结合起 来,来克服这两者的劣势,同时充分利用这两者的优势。具体而言,我们首先利用基于参考 基因组的策略获得一个连续性和准确率较好的基因组序列。然后,利用从头组装的策略获 得一个从头组装的基因组,该基因组对物种特异性序列的组装方面表现较好。最后,我们将 这两个基因组整合到一起,产生一个在准确率、连续性和完整性都较好的基因组。
技术实现思路
本专利技术充分利用现在已有的软件和方法,巧妙设计合理的基因组组装流程,整合 各软件和方法的优点,弥补各软件和方法的缺点,从而得到质量更好的基因组。利用参考基 因组能获得连续性更好的组装结果,因而,本研究首先基于参考基因组来划分更小的区块, 在局部进行组装从而降低组装的复杂度,从而提高组装的连续性和准确度。其次,由于在一 些重复序列较多的区域,利用已有的工具无法组装出来。因此,我们整合组装获得的序列与 参考基因组序列信息进行局部重组装,来获得连续性更好的序列。最后,由于基于基因组组 装的基因组序列会受限于参考基因组的序列,从而导致该物种一些特异性的基因组片段无 法组装出来。因此,最后我们将基于基因组组装获得的序列与利用二代测序数据从头组装 的结果整合到一起,从而进一步提高基因组组装的连续性、准确性和完整性。 本专利技术涉及一种利用参考基因组获得基因组编码信息的方法,其特征在于,取待 测样品,利用二代测序方法测序,获得未处理的编码数据;将测序得到的未处理的编码数据 经过以下步骤处理: (1)对测序读段数据进行预处理; (2)使用短序列比对工具将处理过的读段比对到参考基因组,然后根据比对结果 来统计基因组每个位点的覆盖度,基因组平均覆盖度和覆盖率; (3)根据参考基因组位点的覆盖度,定义连续覆盖的区域为区块;将小区块合并 成大区块,并且相邻大区块设置重叠区; (4)对于大区块内的读段,进行重头组装,将组装结果的重叠群序列输出; (5)使用序列组装工具进一步处理,去除重叠冗余的区段; (6)再经过构建支架序列、填补空缺、校正组装错误步骤,获得基因组编码信息。 根据优选的技术方案,步骤(5)以后,进一步采用可变长度末端序列唯一匹配的 方法来定位序列在参考基因组序列上的起始位置,所在序列称为查询序列,进行局部重组 装,将局部重组装得到的序列与相邻序列连接。 根据优选的技术方案,1)使用NUCmer软件将所有查询序列比对到参考基因组上; 2)筛选末端的比对序列,包括开始末端和结束末端。 根据优选的技术方案,采用可变长度末端序列唯一匹配的方法定位了重叠群在参 考基因组序列上的起始位置后,提取一条重叠群的末端位置到相邻的另一条重叠群始端位 置内加上下游各一定长度,优选100-500bp,更优选200bp,范围内的读段;使用CAP3组装读 段,得到组装的序列;然后,将局部重组装得到的序列与相邻的两条重叠群比对,设定比对 长度和相似性的阈值,用该序列来连接相邻的重叠群。 根据优选的技术方案,将可以组装出基因组特异性序列的从头组装获得的基因组 序列与采用基于参考基因组组装的基因组序列整合起来,从而获得连续性好、完整性好的 基因组序列。 根据优选的技术方案,步骤(6)所述的构建支架本文档来自技高网...
【技术保护点】
一种利用参考基因组获得基因组编码信息的方法,其特征在于,取待测样品,利用二代测序方法测序,获得未处理的编码数据;将测序得到的未处理的编码数据经过以下步骤处理:(1)对测序读段数据进行预处理;(2)使用短序列比对工具将处理过的读段比对到参考基因组,然后根据比对结果来统计基因组每个位点的覆盖度,基因组平均覆盖度和覆盖率;(3)根据参考基因组位点的覆盖度,定义连续覆盖的区域为区块;将小区块合并成大区块,并且相邻大区块设置重叠区;(4)对于大区块内的读段,进行重头组装,将组装结果的重叠群序列输出;(5)使用序列组装工具进一步处理,去除重叠冗余的区段;(6)再经过构建支架序列、填补空缺、校正组装错误步骤,获得基因组编码信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈玲玲,孙帅,焦文标,徐锡文,宋佳明,
申请(专利权)人:华中农业大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。