本发明专利技术公开了基于酶切建库双末端测序的长度多态性标记的引物设计开发方法,它采用了生物信息学分析方法,处理RAD双末端测序的测序数据,从而寻找RAD测序片段上的Indel位点信息,以突破非模式生物缺少参考序列的瓶颈,简化了基因组的复杂度,同时也减少了测序成本。
【技术实现步骤摘要】
本专利技术涉及一种基因组长度多态性标记的引物设计方法。具体为基于酶切建库双末端(Pair-end)测序的长度多态性标记的弓I物设计开发方法;在缺少参考序列的情况下,寻找到个体间的Indel标记,并能够在两端设计引物。属于生物信息学
这对于缺少参考序列的非模式生物的研究具有重要的意义。
技术介绍
InDel (insertion-deletion)插入缺失标记,指的是两种亲本中在基因组上的差异,相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。Indel位点信息的获得可以有许多重要的应用,如构建遗传图谱,基因分型,分子标记辅助 育种,疾病检测等。如今,第二代DNA测序技术是一种高通量低成本的测序技术,基本原理是边合成边测序。以solexa测序方法为例,先用物理方法将DNA链随机打断,然后在片段两端加上特定接头,接头上有扩增引物序列。测序时,DNA聚合酶合成待测片段的互补链,通过检测新合成碱基所携带的荧光信号读取碱基序列,从而获得待测片段的序列。第二代测序技术已经广泛应用于生物科学的许多领域,特别是研究一个物种不同个体之间的多态性。传统Call Indel标记的方法是将测序个体得到的短reads通过比对软件比对回参考序列,从而得到测序个体的Indel信息。常见的流程有使用BWA软件将reads比对回参考序列,使用SAMtools软件处理比对结果寻找Indel位点^2。大体过程如图I所示。目前,有参考序列的物种都可以很方便的进行Indel标记的查找,并在两端设计引物进行实验验证。但是对于那些非模式生物而言,基本上是不存在参考序列的。而在没有参考序列的情况下,传统寻找Indel标记的方法存在着技术上的瓶颈。I. Li H. and Durbin R. (2009)Fast and accurate short read alignment withBurrows-Wheeler Transform. Bioinformatics, 25:1754-60. 2. Li H. *,Handsaker B. Wysoker A. , Fennell T. , Ruan J. , Homer N. , MarthG. , Abecasis G. , Durbin R. and 1000 Genome Project Data Processing Subgroup(2009)The Sequence alignment/map(SAM)format and SAMtools. Bioinformatics, 25, 2078-9.RAD-PE测序技术采用了新的建库方式(酶切建库),其测序具体过程如图2所示,用限制性内切酶切断DNA特定的位点,再用物理方法将酶切之后的DNA分子随机打断,通过琼脂糖胶DNA分离技术挑选特定长度的DNA分子,然后在挑选出来的DNA末端添加特定的扩增接头与测序接头,从而构建上机文库进行高通量测序。其中RAD测序方法为本领域公知的方法,例如可参考以下文献(I)Michael R Miller, Tressa S Atwood, B Frank Eames, et al, RAD markermicroarrays enable rapid mapping of zebrafishmutations, Genome Biology, 2007, 8 (6):R105. 1-R105. 10;(2)Michael R. Miller, Joseph P. Dunham, Angel Amores, et al, Rapid andcost-effective polymorphism identificationand genotyping using restrictionsite associated DNA(RAD)markers, Genome Research, 2007,17,240-248 ;(3) Nathan A. Bairdl, Paul D. Etter, Tressa S. Atwood, et al, Rapid SNPDiscovery and Genetic Mapping Using Sequenced RAD Markers, PLoS ONE, 2008, 3(10),e3376, doi:10. 1371/journal, pone. 0003376.散列表(Hash table,或哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。使用哈希表对数据进行索引基本是随着数据量的上升线性增长,而且由“ ATCGN”构成的字符串,键值出现冲突的可能 性非常低。这样在处理海量测序数据的时候有着很好的性能。
技术实现思路
本专利技术的目的是提供一种基于酶切建库双末端(Pair-end)测序的长度多态性标记的引物设计开发方法;它是一种通过处理基于酶切建库pair-end测序(RAD-PE测序技术)得到的测序数据,在两个个体之间寻找长度多态性位点,并能够在两端侧翼序列设计引物进行实验验证的技术方案。本专利技术的目的通过以下技术方案来实现基于酶切建库双末端(Pair-end)测序的长度多态性标记的引物设计开发方法,其步骤如下I)在获得RAD高通量测序技术的测序结果后,对RAD双末端测序序列进行过滤以去除不合格的测序序列。其中,RAD高通量测序技术可以为Illumina GA测序技术,也可以为现有的其他高通量测序技术。所述的不合格的测序序列为测序质量低于预定的低质量阈值的碱基个数超过整条序列碱基个数的50%的序列。2)根据测序个体基因组酶切一端的测序序列,利用序列的全同性生成每个个体堆的信息。例如,将每个个体过滤后的酶切一端的测序序列信息作为哈希的键,哈希的值指向一个链表,用于存放另一端的序列信息,并计算测序深度信息。可用任何一种编程语言实现该过程。3)过滤掉酶切一端序列测序深度为I的结果(成对过滤)。4)两个个体内分别将酶切一端的测序序列数据进行不容许空隙的两两比对,对堆进行聚类以确定个体内在酶切一端序列上的杂合SNP信息。所述的不容许空隙的两两比对是指比对的时候不容许开空位。其中,只有一个堆的聚类结果表明在酶切一端测序片段上不存在杂合位点,只有两个堆的聚类结果表明在酶切一端测序片段上存在杂合位点,一般情况下这个杂合位点不会处于重复区域。对于那些堆的个数超过两个的聚类结果,通常由于酶切一端测序序列处于基因组的重复区域所造成的,因此这些聚类结果将会被过滤掉。所使用的比对软件可以是任何一款序列比对软件,如blast、blat等。计算堆的个数为一和二的聚类结果的总深度,并进一步过滤掉低深度和高深度的聚类结果。低深度的阈值通常为平均测序深度的四分之一,高深度的阈值通常为平均测序深度的两倍。5)在两个个体内部,对每个堆的另一端数据进行局部组装,采用的组装可以是任何一款组装软件,如基于重叠关系的组装软件phrap,如基于De Brui jn graph算法的组装软件 SOAPDenovo。利用重叠关系进行组装的时候本文档来自技高网...
【技术保护点】
基于酶切建库双末端测序的长度多态性标记的引物设计开发方法,其特征在于:其步骤如下:1)在获得RAD高通量测序技术的测序结果后,对RAD双末端测序序列进行过滤以去除不合格的测序序列;2)根据测序个体基因组酶切一端的测序序列,利用序列的全同性生成每个个体堆的信息;将每个个体过滤后的酶切一端的测序序列信息作为哈希的键,哈希的值指向一个链表,用于存放另一端的序列信息,并计算测序深度信息;3)过滤掉酶切一端序列测序深度为1的结果;4)两个个体内分别将酶切一端的测序序列数据进行不容许空隙的两两比对,对堆进行聚类以确定个体内在酶切一端序列上的杂合SNP信息;5)在两个个体内部,对每个堆的另一端数据进行局部组装;6)利用两个个体酶切一端的测序序列信息将两个个体堆的信息相互进行两两对齐,即在个体A和个体B中,个体A的某个堆能够和个体B的某个堆对齐,当且仅当两个个体堆中的酶切一端的测序序列完全相同;对能够对齐的堆,两个个体之间的另一端的组装结果序列相互进行比对,来寻找Indel位点信息;进而得到两个个体之间高可信度的Indel位点信息,还得到在Indel位点周围的侧翼序列信息;7)最后在Indel位点周围的侧翼序列上设计引物,应用于后续的大规模实验。...
【技术特征摘要】
【专利技术属性】
技术研发人员:郑泽群,任一,陶晔,胡秋萍,黄华生,
申请(专利权)人:上海美吉生物医药科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。