一种基于特征kmer的异型性染色体序列组装方法及其应用技术

技术编号:10070400 阅读:310 留言:0更新日期:2014-05-23 14:21
本发明专利技术涉及一种基于特征kmer的异型性染色体序列组装方法及其应用。具体地,本发明专利技术通过对同型(如XX或ZZ)样品和异型(如XY或者ZW)样品进行全基因组测序,并分析两种样品数据的kmer差异,获得异型性染色体的特征kmer;然后利用所述的特征kmer进行异型性染色体序列组装,从而得到异型性染色体的完整序列信息。本发明专利技术还提供了一种基于上述方法的组装单元。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于特征kmer的异型性染色体序列组装方法及其应用。具体地,本专利技术通过对同型(如XX或ZZ)样品和异型(如XY或者ZW)样品进行全基因组测序,并分析两种样品数据的kmer差异,获得异型性染色体的特征kmer;然后利用所述的特征kmer进行异型性染色体序列组装,从而得到异型性染色体的完整序列信息。本专利技术还提供了一种基于上述方法的组装单元。【专利说明】一种基于特征kmer的异型性染色体序列组装方法及其应用
本专利技术属于生物信息领域,具体地,本专利技术涉及一种基于特征kmer的异型性染色体序列组装方法及其应用。
技术介绍
随着新一代测序技术454 (Roche 公司)、Solexa (Illumina 公司)和 SOLiD (ABI公司)的诞生,测序通量得到迅速提升,而测序成本急剧下降,这种突破极大地推动了基因组科学的发展。常见的性染色体分类主要是XY型和ZW型。在XY型中,XX为雌性,XY为雄性(例如人,果蝇);在ZW型中,ZW为雌性,ZZ为雄性(例如鸡,半滑舌鳎)。Υ/ff称为异型性染色体。传统组装异型性染色体的方法是全基因组测序组装,再挑选出异型性染色体序列。例如:先对半滑舌鳎雌性样品ZW进行测序组装,再挑选出W序列。但是异型性染色体的碱基覆盖深度只有常染色体的一半,存在大片段复制区域,使得异型性染色体的组装效果差;并且挑选异型性染色体序列需要更多的分析或实验验证,费钱耗时。新一代测序技术产生的都是长约25bp~100bp左右的小片段序列,这些小片段都是待测样品大片段的某一部分,如何将测序得到的海量小片段序列数据组装为样品中的大片段数据,这给后续的染色体(尤其是异型性染色体)信息分析工作提出了极大的挑战。在现有技术中,由于测序时产生的片段序列非常短,所以需要通过非常大的运算量才能完成对大片段数据的组装。综上所述,本领域目前还没有一种有效简便的对异型性染色体序列进行组装的方法,因此迫切需要开发相应的方法和产品。
技术实现思路
本专利技术的目的就是提供一种基于特征kmer的异型性染色体序列组装方法。本专利技术的目的就是提供一种基于特征kmer的异型性染色体序列组装单元。在本专利技术的第一方面,提供了一种异型性染色体的序列组装方法,包括步骤:(1)分别对同型样品和异型样品进行全基因组测序,获得两种样本的测序数据和kmer数据;(2)比较步骤⑴的两种样品的kmer数据,获得异型性染色体的特征kmer ;(3)根据步骤(2)的特征kmer,对异型性染色体进行组装,获得异型性染色体的组装序列。在另一优选例中,所述的同型样品为XX型或ZZ型。在另一优选例中,所述的异型样品为XY型或ZW型。在另一优选例中,所述的异型性染色体为Y染色体或W染色体。在另一优选例中,步骤(1)中,所述的测序为高通量测序法。在另一优选例中,所述的高通量测序法应用任选自下组的测序平台:454FLX测序平台、Solexa测序平台、SOLID测序平台。在另一优选例中,步骤(2)中,所述的比较两种样品的kmer数据包括步骤:⑴去除测序错误数据,以及构建kmer集合;和(ii)筛选特征kmer,筛选原则如下:在同型样品测序数据中,遍历每一条读序,获取kmer,如果该kmer在异型样品数据的kmer集合中出现,则从异型样品数据的kmer集合中删除该kmer,异型样品数据的kmer集合中,剩下的没有被删除的kmer即为特征kmer。在另一优选例中,在步骤(3)中,使用常规组装软件进行异型性染色体序列的组装。在另一优选例中,使用SOAPdenovo软件进行异型性染色体序列的组装。在另一优选例中,SOAPdenovo软件进行异型性染色体序列的组装包括步骤:(a)根据特征kmer构建并简化kmer图(德布鲁因图);(b)根据步骤(a)构建重叠群序列;(C)将异型样品读序数据与步骤(b)的重叠群序列进行比对,获得支架序列,从而得到完整的异型性染色体的序列。在本专利技术的第二方面,提供了一种筛选异型性染色体特征kmer的方法,包括步骤:`分别对同型样品和异型样品进行全基因组测序,获得两种样品的测序数据和kmer数据,以及构建kmer集合;和筛选特征kmer,筛选原则如下:在同型样品测序数据中,遍历每一条读序,获取kmer,如果该kmer在异型样品数据的kmer集合中出现,则从异型样品数据的kmer集合中删除该kmer,异型样品数据的kmer集合中,剩下的没有被删除的kmer即为特征kmer。在本专利技术的第三方面,提供了一种异型性染色体特征kmer的集合,它是用第二方面所述的方法制备的。在本专利技术的第四方面,提供了一种异型性染色体的序列组装单元,包括选自下组的模块:(A)序列获取模块,用于获得同型样品和具有异型样品的测序数据和kmer数据;(B)特征kmer筛选模块,利用序列获取模块获取的测序数据和kmer数据,进行异型性染色体的特征kmer的筛选;和(C)异型性染色体序列组装,用于组装异型性染色体的完整序列。应理解,在本专利技术范围内,本专利技术的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。【专利附图】【附图说明】下列附图用于说明本专利技术的具体实施方案,而不用于限定由权利要求书所界定的本专利技术范围。图1显示了本专利技术一个技术方案的流程图。【具体实施方式】本专利技术人经过广泛而深入的研究,首次通过对同型(如XX或ZZ)样品和异型(如XY或ZW)样品分别进行全基因组测序,分析两种样品数据kmer的差异,获得出异型性染色体的特征kmer ;然后利用组装软件组装,从而得到异型性染色体的完整序列信息。此在基础上完成了本专利技术。异型性染色体如本文所用,术语“异型性染色体”是指:在性染色体分类中决定性别分类的染色体。异型样品是常见的XY或者ZW,异型性染色体常见的是Y或者W。例如:常见的性染色体分类主要是XY型和ZW型。在XY型中,XX为雌性,XY为雄性(例如人,果蝇);在ZW型中,Zff为雌性,ZZ为雄性(例如鸡,半滑舌鳎)。Υ/w称为异型性染色体。双末端测序对基因片段(包括DNA和cDNA)进行测序,其测序对象都是一段物理连续的碱基序列片段,该片段称为插入片段,其长度称为插入片段长度(insertsize)。如本文所用,术语“双末端测序”是对该片段的两侧碱基序列从边缘向内部的测序,测得的序列称为读序(read),长度称为读长(read-length)。两侧测得的读序是来自于同一个插入片段,并且其末端距离为insertsize,故两侧读序的配对关系确定。这两个读序被称为配对读序(Pair-end reads)。高通量测序基因组的高通量测序使得人类能够尽早地发现与疾病相关基因的异常变化,有助于对个体疾病的诊断和治疗进行深入的研究。本领域技术人员通常可以采用三种第二代测序平台进行高通量测序:454FLX(Roche 公司)、Solexa Genome Analyzer (IIIumina 公司)和Applied Biosystems公司的SOLID等。这些平台共同的特点是极高的测序通量,相对于传统测序的96道毛细管测序,高通量测序一次实验可以读取40万到400万条序列,根据平台的不同,读取本文档来自技高网
...

【技术保护点】
一种异型性染色体的序列组装方法,其特征在于,包括步骤:(1)分别对同型样品和异型样品进行全基因组测序,获得两种样本的测序数据和kmer数据;(2)比较步骤(1)的两种样品的kmer数据,获得异型性染色体的特征kmer;(3)根据步骤(2)的特征kmer,对异型性染色体进行组装,获得异型性染色体的组装序列。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄铨飞李振宇刘耿刘兵行王俊汪建杨焕明
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1