当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于参考基因组的转录本组装方法技术

技术编号:32936364 阅读:18 留言:0更新日期:2022-04-07 12:27
本发明专利技术公开了一种基于参考基因组的转录本组装方法,属于生物信息学中的转录本组装领域,具体步骤为:(一)利用至少两个比对工具对下机得到的原始测序数据进行分析;(二)针对每一个比对工具的回帖结果构建剪接图;(三)合并每个比对工具的剪接图,生成标签剪接图;(四)提取标签图中标记的双端子路;(五)在标签剪接图中寻找路的覆盖,最终获得代表转录本的路覆盖,其中所有的双端路径都被完成组装的转录本覆盖。本发明专利技术的方法合并了不同比对工具的回帖结果,并以不同比对工具的回帖结果为基础构建了标签剪接图,通过动态路径扩展算法遍历图,从而找出表示转录本的路径,考虑了不同比对工具的特点和优势,提高重构出的转录本的准确率。率。率。

【技术实现步骤摘要】
一种基于参考基因组的转录本组装方法


[0001]本专利技术涉及一种合并了不同比对工具的回帖结果的基于参考基因组的转录本组装方法,属于生物信息学中的转录本组装领域。

技术介绍

[0002]转录组测序技术(RNA

seq)作为一种强大的转录组分析技术,在世界范围内得到了广泛的应用。特别是在过去的五年里,这项技术已经从研究过渡到临床应用,这为研究与异常的剪接事件或差异表达水平相关的复杂疾病(如癌症)提供了线索。此外,它提供了观察真核生物转录组复杂性的机会,识别表达的转录组,并在整个转录组水平上精确量化其表达丰度。RNA

seq数据分析的关键步骤之一是准确地将大量测序reads组装成全长转录本,这是相当具有计算挑战性的任务。
[0003]RNA

seq数据的爆炸性增长推动了转录组组装算法的发展。目前已经开发了相当多的算法来将RNA

seq reads组装成全长转录本。它们通常分为两种策略,从头组装和基于参考基因组组装。从头组装通常试图找到RNA

seq reads之间的重叠部分,并使用延伸技术来重建全长转录本。这种方法通常用于没有参考基因组的情况下,因此,这种策略大多会产生高度碎片化和容易出错的转录本。目前最先进的从头组装软件包括TransLiG、BinPacker、Bridger、Trinity、ABySS、SOAPdenovo

Trans和IDBA

Tran。相反,如果一些物种有高质量的参考基因组模板(如人类),则可以使用基于参考基因组的转录本组装软件,如StringTie2、StringTie、Scallop、TransComb、Cufflinks、CLASS2、iPAC、Traph、CEM、IsoLasso和Bayesembler。此类方法通常首先使用诸如Hisat2、Hisat、Star、Tophat2、Tophat、SpliceMap、MapSplice或GSNAP等比对工具将RNA

seq reads回帖到参考基因组上;然后,基于比对结果,建立每个基因位点的剪接图模型,然后使用不同的计算模型通过遍历图来生成表示转录本的路径。基于参考基因组的方法通常比从头组装的方法具有更高的准确性。此外,还开发了许多工具用来合并来自多个RNA

seq样本的转录本,例如StringTie2和TACO的合并方法,但重构出的转录本依然存在很多不足。
[0004]目前的组装工具都不是专门为合并由不同比对工具生成的比对结果而设计的,而这具有重要的现实意义。并且,通过实验发现仅依赖于一个比对工具的组装软件无法完全重构出一个特定的转录本,但是可以由提出的Tiglon软件重构的。这表明合并不同比对工具的比对结果将是转录组组装的一种有用且有意义的策略。

技术实现思路

[0005]针对上述现有技术,本专利技术提供了一种合并了不同比对工具的回帖结果的基于参考基因组的转录本组装方法,该方法在以往基于参考基因组的转录本组装的基础上,合并了不同比对工具的回帖结果,并以不同比对工具的回帖结果为基础构建了标签剪接图,通过动态路径扩展算法遍历图,从而找出表示转录本的路径,综合考虑了不同比对工具的特点和优势,提高重构出的转录本的准确率。
[0006]本专利技术是通过以下技术方案实现的:
[0007]一种基于参考基因组的转录本组装方法,包括以下步骤:
[0008](一)提取待检测样本的mRNA,扩增,得到环化cDNA,上机测序;利用至少两个比对工具对下机得到的原始测序数据进行分析,获得回帖到参考基因组上的结果。
[0009]所述比对工具选自Hisat2、Star。
[0010](二)针对每一个比对工具的回帖结果构建剪接图:
[0011]基于reads回帖到参考基因组上的结果,将其聚类到不同的基因位点,外显子

外显子剪接位点来源于这些剪接的reads;
[0012]具体地,对于每个基因位点构建传统的剪接图G=(V,E),其中,每个节点v对应一个外显子,每个边e对应两个外显子之间的剪接位点;
[0013]此外,边和节点是由支持它们的reads的数量加权的;删除可能由测序错误或不合理比对造成的低权重的边或节点。
[0014](三)合并每个比对工具的剪接图,生成标签剪接图,具体如下:
[0015](1)假设获得了N个比对工具的回帖结果,基于比对工具i所生成的剪接图为G
i
=(E
i
,V
i
),i≤N,对于每一条边e
i
∈E
i
,支持e
i
的reads的集合为R
ei
;标签剪接图G
L
=(E
L
,V
L
)是通过合并每个剪接图G
i
(i∈[1,N])来生成的,其中的边和点代表了所有出现在图G
i
(i∈[1,N])中的边和点;
[0016](2)标记剪接图G
L
:通过下面的方法,对于每一个在G
L
中的边e,如果存在j∈[1,N]使得边那么标记边e为1,否则标记它为2;此外,对于每一个边e∈E
L
标记为2,如果存在i和j(i,j∈[1,N],并且i≠j)使得R
ei
≠R
ej
,把它标记为2

,否则把它标记为2+;然后,标签剪接图的边的权重被指定为每一个出现在G
i
(i≤N)中的边的平均权值。
[0017](四)提取标签图中标记的双端子路,具体如下:
[0018](1)对于每一个基因位点,生成每一个比对工具i的双端子路的集合,表示为PP
i

[0019](1.1)对于每一对双端readr1和readr2,基于比对工具i的回帖,如果在图G
L
中,r1跨越一个路径p1=n
j1

n
j2
→…→
n
jk
,r2跨越一个路径p2=n
j
’1→
n
j
’2→…→
n
j

q
,并且p1和p2共有一个兼容子路p
in
=n
m1

n
m2
→…→
n
ms
满足k+q

s≥3;
[0020](1.2)通过共有的兼容子路p
in
,将p1和p2这两个路径连接起来,生成双端路径p;
[0021](2)在处理完所有回帖到G
L
的双端reads之后,获得依赖于比对工具i的所有双端子路的集合PP
i

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于参考基因组的转录本组装方法,其特征在于,包括以下步骤:(一)提取待检测样本的mRNA,扩增,得到环化cDNA,上机测序;利用至少两个比对工具对下机得到的原始测序数据进行分析,获得回帖到参考基因组上的结果;(二)针对每一个比对工具的回帖结果构建剪接图:基于reads回帖到参考基因组上的结果,将其聚类到不同的基因位点,外显子

外显子剪接位点来源于这些剪接的reads;(三)合并每个比对工具的剪接图,生成标签剪接图,具体如下:(1)假设获得了N个比对工具的回帖结果,基于比对工具i所生成的剪接图为G
i
=(E
i
,V
i
),i≤N,对于每一条边e
i
∈E
i
,支持e
i
的reads的集合为R
ei
;标签剪接图G
L
=(E
L
,V
L
)是通过合并每个剪接图G
i
(i∈[1,N])来生成的,其中的边和点代表了所有出现在图G
i
(i∈[1,N])中的边和点;(2)标记剪接图G
L
:通过下面的方法,对于每一个在G
L
中的边e,如果存在j∈[1,N]使得边那么标记边e为1,否则标记它为2;此外,对于每一个边e∈E
L
标记为2,如果存在i和j(i,j∈[1,N],并且i≠j)使得R
ei
≠R
ej
,把它标记为2

,否则把它标记为2+;然后,标签剪接图的边的权重被指定为每一个出现在G
i
(i≤N)中的边的平均权值;(四)提取标签图中标记的双端子路,具体如下:(1)对于每一个基因位点,生成每一个比对工具i的双端子路的集合,表示为PP
i
;(1.1)对于每一对双端read r1和read r2,基于比对工具i的回帖,如果在图G
L
中,r1跨越一个路径p1=n
j1

n
j2
→…→
n
jk
,r2跨越一个路径p2=n
j
′1→
n
j
′2→…→
n
j

q
,并且p1和p2共有一个兼容子路p
in
=n
m1

n
m2
→…→
n
ms
满足k+q

s≥3;(1.2)通过共有的兼容子路p
in
,将p1和p2这两个路径连接起来,生成双端路径p;(2)在处理完所有回帖到G
L
的双端reads之后,获得依赖于比对工具i的所有双端子路的集合PP
i
;(3)在沿着每个属于p∈PP
i
的双端reads集R
ei
所生成的来自每个比对工具i双端路径集PP
i
后,设PP
L
=U
i∈[1,N]
PP
i
为标签剪接图的双端路径,然后标记双端路径PP
L
,标记方法与标记边e∈E
L
的方法相同,为:对于每一个在PP
L
中的双端路径p,如果存在j∈[1,N]使得边那么标记双端路径p为1,否则标记它为2;此外,对于每一个双端路径p∈PP
i
标记为2,如果存在i和j(i,j∈[1,N],并且i≠j)使得R
ei
≠R
ej
,把它标记为2

,否则把它标记为2+;(五)在标签剪接图中寻找路的覆盖,采用基于标签的动态规划路径提取算法,具体如下:(1)选择一个种子,并通过一个种子生成子图:选择一个标签为2+的未使用的、权重最大的配对路径作为种子;如果这种双端路径不存在,或者它们已经全部包含在被组装完成的转录本中,那么按照以下顺序选择种子:带有2

标签的双端路径,带有2+标签的边,带有2

...

【专利技术属性】
技术研发人员:赵晓宇于婷姚鸿彬李国君
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1