检测逆转座子插入多态性的方法和装置制造方法及图纸

技术编号:11757835 阅读:462 留言:0更新日期:2015-07-22 11:27
本发明专利技术公开一种检测逆转座子插入多态性的方法,包括:获取目标个体基因组测序结果;将测序结果与参考序列比对,获得异常匹配集,异常匹配集包括第一类读段对,第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另一个至少能够与TE参考序列匹配;按照匹配位置将异常匹配集中的第一类读段中的能够匹配到TE参考序列的读段聚类成簇;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目不大于1的簇;基于获得的处理后的簇,检测逆转座子插入多态性。本发明专利技术还提供一种检测逆转座子插入多态性的装置。本发明专利技术的方法和/或装置,能够快速、简便和准确的鉴定TE插入或者发现新的TE插入。

【技术实现步骤摘要】

本专利技术涉及生物信息领域,具体的,涉及检测逆转座子多态性的方法和装置。
技术介绍
转座子(TE,Transposableelements)又被称为"跳跃基因",它们通过复制-粘贴 的增殖机制引起基因序列的插入,删除和重排。随着人类基因组测序的完成,人们发现有接 近一半的基因组是由了£组成的。而超过90%的1£是逆转录转座子(代1:1'〇1:四118口〇8〇118), 逆转录转座子又分为包含长末端重复序列的LTR(LongTerminalRepeats)和不包含长 末端重复的non-LTR,绝大多数的人类的TE主要来自于non-LTR逆转录转座子的活性, non-LTR包括LINE-1(LI;longinterspersedelementl),Alu和SVA,它们共同构成了人 类基因组的三分之一。正是因为TE的转座特性,它可以引起个体基因组的结构变异,而并 不是所有TE都具有活性,从能否编码蛋白质来看,只有non-LTR逆转录转座子具有活性,比 如只有一小部分Ll有高活性,它们通过编码特定的酶来进行转座,但是有些TE在生殖细 胞和早期胚胎的生长过程中,这种抑制机制的短暂释放间隙会逃脱这种抑制并产生新的多 态性的插入,从而出现了逆转录转座子的插入多态性(RIPs,retrotransposoninsertion polymorphisms)〇 有很多关于RIPs的研宄,已经有一些方法可以检测TE插入,目前,用于检测可移 动元件插入的方法主要分为两类,一是目标法,比如Transposon-Seq,ME-Scan,RC-Seq等, 需要测序前对与TE相关的DNA片段做PCR实验丰富它的序列信息;二是后测序生物信息学 方法,比如VariationHunter,RetroSeq等,用全基因组测序数据来鉴定TE插入的多态性。 随着高通量测序技术的发展,能够利用高通量测序数据快速、简便、准确的鉴定TE 插入或者发现新的TE插入的方法仍亟需开发。
技术实现思路
本专利技术旨在至少解决上述问题之一或者提出一种商业选择手段。 依据本专利技术的一方面,本专利技术提供一种检测逆转座子插入多态性的方法,包括以 下步骤:获取目标个体基因组测序结果,所述测序结果包括多对读段对,每对读段对由两个 读段组成,分别来自一条染色体片段的两端,每对读段对分别来自所述染色体片段的正链 和负链,或者,每对读段对同时来自所述染色体片段的正链或所述染色体片段的负链;将所 述测序结果与参考序列进行比对,获得异常匹配集,所述异常匹配集包括第一类读段对,所 述第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另 一个至少能够与TE参考序列匹配,所述TE参考序列包括以下四种类型中的至少一种:Alu 参考序列、LI参考序列、SVA参考序列和LTR参考序列;按照匹配位置将所述异常匹配集中 的第一类读段中的能够匹配到所述TE参考序列的读段聚类成簇(block),所述簇的大小不 大于一个TE插入的大小;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目 不大于1的簇,以及任选的,将相邻的、最大距离不大于Db且方向相反的簇合并为一个簇, 其中,Db为两个TE的大小;基于获得的处理后的簇,检测所述逆转座子插入多态性。 所说的染色体片段通常是将来自目标个体的基因组核酸打断获得的,根据所选用 的测序方法进行相应的文库(library)制备,可选用的测序方法根据来自的测序平台包括 但不限于CG(CompleteGenomics)、Illumina/Solexa、LifeTechnoIogies/IonTorrent和 Roche454,依据所选测序平台进行单端或双端测序文库的制备。在本专利技术一个实施例中进 行双末端(Pair-endread)测序,获得多对读段对,每对读段对中的两个读段(reads),可 表示为readsl和reads2,readsl和reads2可能都来自相应染色体片段的正链或负链,也 可能分别来自染色体片段的正链和负链。当然,若使用的单端(single-read)测序方法能 够完整获得整个染色体片段的序列,从完整获得的序列的两端分别截取适当长度的序列来 构成一对reads、或者将获得的序列截成两部分序列来构成一对reads也是可行的。本实施 例对所选用的具体测序方法不作限定。所说的正链和负链是相对的,称一条双链序列的一 条单链为正链,就可称另一条单链为负链,在本专利技术的一个实施例中,将染色体片段的两条 链中的与基因组参考序列相同的那条链称为正链。 比对可以利用SOAP(ShortOligonucleotideAnalysisPackage),BWA,Samtools 等软件进行,本实施对此不作限制。所说的参考序列是预先确定的序列,可以是预先获得的 目标个体所属生物类别中的任意的参考模板,例如,同一生物类别的已公开的基因组组装 序列,若目标个体是人类,其基因组参考序列(也称为参考基因组)可选择NCBI数据库提 供的HG19。进一步地,也可以预先配置包含更多参考序列的资源库,在进行序列比对前,先 依据目标个体的性别、人种、地域等因素选择或是测定组装出更接近的序列来作为参考序 列,有助于获得更准确的检测结果。所说的TE参考序列为包含已知的TE特异序列的序列, TE特异性序列包括Alu、Ll、SVA和LTR至少之一。在比对过程中,根据比对参数的设置,例 如设置测序结果中的每条或每对读段最多允许有n个碱基错配(mismatch),n优选为1或 2,若reads中有超过n个碱基发生错配或者比对质量值小于预设值,则视为该条/^treads 无法比对上参考序列。一般利用比对软件进行比对后,都可获得诸如是否为唯一比对即是 否为只比对到参考序列的一个位置、比对上参考序列多个位置的各个比对位置的比对质量 值等评估比对情况的参数。在本专利技术的一个实施例中,所述比对利用BWA软件进行,设置每 条reads允许的最多错配数为2且比对质量值不小于10,获得异常匹配集包括:将所述测 序结果与所述基因组参考序列比对,获得初级异常匹配集,所述初级异常匹配集包括符合 以下(i)-(iii)至少之一的读段:(i)匹配到所述基因组参考序列的多个位置,(ii)匹配到 所述基因组参考序列的唯一位置,并且比对质量值小于10,(iii)匹配到所述基因组参考 序列的唯一位置,比对质量值大于10,并且匹配到所述基因组参考序列的至少一个次优比 对位置,所称的次优比对为不满足比对上的所有条件但至少满足其中之一的比对情况;将 所述初级异常匹配集比对到所述TE参考序列,获得包含比对上TE参考序列的读段的比对 结果,所述比对结果构成所述异常匹配集。所说的"匹配"或"匹配到"同"比对上"。这样, 将可能支持TE插入的reads都筛选出来。 聚类可采用各种聚类算法,本专利技术对此不作限定。例如,一种简单的做法是,按照 设置的簇的大小不大于1个插入的TE的大小,一般一个插入TE的大小约为1000bp,可设置 一个簇的大小为不大于1000bp,依据匹配位置对reads进行排序,第一条reads的第一个碱 基与某一条reads的最后一个碱基之间的距离不大于lOOObp,就可将所说的第一条rea本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN104794371.html" title="检测逆转座子插入多态性的方法和装置原文来自X技术">检测逆转座子插入多态性的方法和装置</a>

【技术保护点】
一种检测逆转座子插入多态性的方法,其特征在于,包括以下步骤:获取目标个体基因组测序结果,所述测序结果包括多对读段对,每对读段对由两个读段组成,分别来自一条染色体片段的两端,每对读段对分别来自所述染色体片段的正链和负链,或者,每对读段对同时来自所述染色体片段的正链或所述染色体片段的负链;将所述测序结果与参考序列进行比对,获得异常匹配集,所述异常匹配集包括第一类读段对,所述第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另一个至少能够与TE参考序列匹配,所述TE参考序列包括以下四种类型中的至少一种:Alu参考序列、L1参考序列、SVA参考序列和LTR参考序列;按照匹配位置将所述异常匹配集中的第一类读段中的能够匹配到所述TE参考序列的读段聚类成簇,所述簇的大小不大于一个TE插入的大小;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目不大于1的簇,以及任选的,将相邻的、最大距离不大于Db且方向相反的簇合并为一个簇,其中,Db为两个TE插入的大小;基于获得的处理后的簇,检测所述逆转座子插入多态性。

【技术特征摘要】

【专利技术属性】
技术研发人员:曾永理张小龙王烨明李贵波蒋润泽李波刘明明王延晖
申请(专利权)人:深圳华大基因研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1