【技术实现步骤摘要】
一种基于参考基因组的转录本组装方法
[0001]本专利技术涉及一种合并了不同比对工具的回帖结果的基于参考基因组的转录本组装方法,属于生物信息学中的转录本组装领域。
技术介绍
[0002]转录组测序技术(RNA
‑
seq)作为一种强大的转录组分析技术,在世界范围内得到了广泛的应用。特别是在过去的五年里,这项技术已经从研究过渡到临床应用,这为研究与异常的剪接事件或差异表达水平相关的复杂疾病(如癌症)提供了线索。此外,它提供了观察真核生物转录组复杂性的机会,识别表达的转录组,并在整个转录组水平上精确量化其表达丰度。RNA
‑
seq数据分析的关键步骤之一是准确地将大量测序reads组装成全长转录本,这是相当具有计算挑战性的任务。
[0003]RNA
‑
seq数据的爆炸性增长推动了转录组组装算法的发展。目前已经开发了相当多的算法来将RNA
‑
seq reads组装成全长转录本。它们通常分为两种策略,从头组装和基于参考基因组组装。从头组装通常试图找到RNA
‑
seq reads之间的重叠部分,并使用延伸技术来重建全长转录本。这种方法通常用于没有参考基因组的情况下,因此,这种策略大多会产生高度碎片化和容易出错的转录本。目前最先进的从头组装软件包括TransLiG、BinPacker、Bridger、Trinity、ABySS、SOAPdenovo
‑
Trans和IDBA
‑
Tran。相反,如果一些物 ...
【技术保护点】
【技术特征摘要】
1.一种基于参考基因组的转录本组装方法,其特征在于,包括以下步骤:(一)提取待检测样本的mRNA,扩增,得到环化cDNA,上机测序;利用至少两个比对工具对下机得到的原始测序数据进行分析,获得回帖到参考基因组上的结果;(二)针对每一个比对工具的回帖结果构建剪接图:基于reads回帖到参考基因组上的结果,将其聚类到不同的基因位点,外显子
‑
外显子剪接位点来源于这些剪接的reads;(三)合并每个比对工具的剪接图,生成标签剪接图,具体如下:(1)假设获得了N个比对工具的回帖结果,基于比对工具i所生成的剪接图为G
i
=(E
i
,V
i
),i≤N,对于每一条边e
i
∈E
i
,支持e
i
的reads的集合为R
ei
;标签剪接图G
L
=(E
L
,V
L
)是通过合并每个剪接图G
i
(i∈[1,N])来生成的,其中的边和点代表了所有出现在图G
i
(i∈[1,N])中的边和点;(2)标记剪接图G
L
:通过下面的方法,对于每一个在G
L
中的边e,如果存在j∈[1,N]使得边那么标记边e为1,否则标记它为2;此外,对于每一个边e∈E
L
标记为2,如果存在i和j(i,j∈[1,N],并且i≠j)使得R
ei
≠R
ej
,把它标记为2
‑
,否则把它标记为2+;然后,标签剪接图的边的权重被指定为每一个出现在G
i
(i≤N)中的边的平均权值;(四)提取标签图中标记的双端子路,具体如下:(1)对于每一个基因位点,生成每一个比对工具i的双端子路的集合,表示为PP
i
;(1.1)对于每一对双端read r1和read r2,基于比对工具i的回帖,如果在图G
L
中,r1跨越一个路径p1=n
j1
→
n
j2
→…→
n
jk
,r2跨越一个路径p2=n
j
′1→
n
j
′2→…→
n
j
′
q
,并且p1和p2共有一个兼容子路p
in
=n
m1
→
n
m2
→…→
n
ms
满足k+q
‑
s≥3;(1.2)通过共有的兼容子路p
in
,将p1和p2这两个路径连接起来,生成双端路径p;(2)在处理完所有回帖到G
L
的双端reads之后,获得依赖于比对工具i的所有双端子路的集合PP
i
;(3)在沿着每个属于p∈PP
i
的双端reads集R
ei
所生成的来自每个比对工具i双端路径集PP
i
后,设PP
L
=U
i∈[1,N]
PP
i
为标签剪接图的双端路径,然后标记双端路径PP
L
,标记方法与标记边e∈E
L
的方法相同,为:对于每一个在PP
L
中的双端路径p,如果存在j∈[1,N]使得边那么标记双端路径p为1,否则标记它为2;此外,对于每一个双端路径p∈PP
i
标记为2,如果存在i和j(i,j∈[1,N],并且i≠j)使得R
ei
≠R
ej
,把它标记为2
‑
,否则把它标记为2+;(五)在标签剪接图中寻找路的覆盖,采用基于标签的动态规划路径提取算法,具体如下:(1)选择一个种子,并通过一个种子生成子图:选择一个标签为2+的未使用的、权重最大的配对路径作为种子;如果这种双端路径不存在,或者它们已经全部包含在被组装完成的转录本中,那么按照以下顺序选择种子:带有2
‑
标签的双端路径,带有2+标签的边,带有2
‑
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。