一种基于参考基因组和从头组装相结合的二代测序数据组装方法技术

技术编号：12826086 阅读：1519 留言：0更新日期：2016-02-07 14:59

本发明专利技术涉及一种基于参考基因组和从头组装相结合的二代测序数据组装方法。将基于参考基因组组装和基因组从头组装这两种策略结合起来，来克服这两者的劣势，同时充分利用这两者的优势。首先，利用基于参考基因组的策略获得一个连续性和准确率较好的基因组序列。然后，利用从头组装的策略获得一个从头组装的基因组，该基因组对物种特异性序列的组装方面表现较好。最后，将这两个基因组整合到一起，产生一个在准确率、连续性和完整性都较好的基因组。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及存在参考基因组的情况下对第二代测序读段进行全基因组组装的方法。
技术介绍
目前，根据有无参考基因组来区分，二代测序数据的组装策略主要两种，一种是基因组从头组装，另一种是基于参考基因组的组装。但这两者各有优缺点。基因组从头组装是在不依赖参考基因组或其他基因组的情况下，完全基于测序读段进行的组装。目前，对于序列组装主要有三种算法。第一种是贪婪算法。这种算法只要序列间有重复（一致）序列，就寻找最大重复区，合并更多序列。这种算法简单，可以达到局部最优的结果，但难以实现全局最优。在实际中，由于准确率比较低，使用的这种算法的组装软件也比较少。常用的软件有SSAKE，TIGR Assembler等。第二种是 OLC (Overlap-Layout-Consensus)算法。这种算法将小序列间的关系以图的形式呈现，每个节点代表一个序列片段，如果两个序列片段间有重叠就用重叠区来连接两个节点。当测序的读段较长时，该算法能得到很好的结果。在使用Sanger读段来组装时，该算法被普遍使用。常用的软件有CAP3，Phrap，Newbler等。第三种是基于de Bruijin图的算法。这种算法不直接使用读段来组装基因组。首先，将读段分割成长度相同的kmer片段，相邻kmer只差一个碱基。然后构建de Bruijin图，以kmer为图的节点，以相邻kmer的连接为边。最后，寻找可以包含de Bruijin图中所有读段所对应的路径。在实际组装过程中，一般要有去掉图中短的分支、低覆盖度的边、合并泡等操作，以获得更加准确的简化图。这种算...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105303068.html" title="一种基于参考基因组和从头组装相结合的二代测序数据组装方法原文来自X技术">基于参考基因组和从头组装相结合的二代测序数据组装方法</a>

【技术保护点】
一种利用参考基因组获得基因组编码信息的方法，其特征在于，取待测样品，利用二代测序方法测序，获得未处理的编码数据；将测序得到的未处理的编码数据经过以下步骤处理：(1)对测序读段数据进行预处理；(2)使用短序列比对工具将处理过的读段比对到参考基因组，然后根据比对结果来统计基因组每个位点的覆盖度，基因组平均覆盖度和覆盖率；(3)根据参考基因组位点的覆盖度，定义连续覆盖的区域为区块；将小区块合并成大区块，并且相邻大区块设置重叠区；(4)对于大区块内的读段，进行重头组装，将组装结果的重叠群序列输出；(5)使用序列组装工具进一步处理，去除重叠冗余的区段；(6)再经过构建支架序列、填补空缺、校正组装错误步骤，获得基因组编码信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈玲玲，孙帅，焦文标，徐锡文，宋佳明，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人