一种三代全长转录组辅助基因预测的方法技术

技术编号:29160018 阅读:27 留言:0更新日期:2021-07-06 23:00
本发明专利技术涉及生物信息技术领域,具体涉及一种三代全长转录组辅助基因预测的方法。本发明专利技术所述方法包括利用同源物种的基因信息和二代转录组数据信息获取待预测物种基因组高可靠内含子剪切位点;利用所述高可靠内含子剪切位点,对三代全长转录组测序数据预测的内含子剪切位点进行自动化纠正,获取高可靠性转录本后进行基因结构预测。本发明专利技术所述方法可实现可变剪接的预测,从而利用三代全长转录组数据对动植物基因组的基因结构在全基因组水平上进行高准确性的预测。

【技术实现步骤摘要】
一种三代全长转录组辅助基因预测的方法
本专利技术涉及生物信息
,具体涉及一种利用三代全长转录组测序数据辅助进行全基因组基因结构预测的方法。
技术介绍
真核生物基因在转录过程中会修剪内含子,并拼合外显子,最后形成转录本。而正是由于这种剪切形式的存在,造成了真核生物基因可以采用不同的剪接形式(可变剪接),形成不同的转录本,从而发挥更加广泛且精准的作用,这同时也导致了真核生物基因结构预测难度较大。目前针对真核生物基因预测,主要采用以下3种不同的策略:同源预测(homology-basedprediction)、从头预测(denovoprediction)和基于转录组预测(transcriptome-basedprediction)。由于目前已经发表了大量基因组,可以利用同源物种间基因序列较好的保守性原理,确定剪切位点。转录组预测指通过各个组织混合的RNA-seq和三代全长转录本数据来辅助基因预测。由于转录组这种数据是本物种基因结构的最直接反应,因而利用此种类型数据,可以比较真实准确的确定外显子区域和剪切位点,在基因预测三种策略中属于可靠性最高的策略。目前常用的转录组辅助基因预测方法是采用二代转录组测序数据进行的。但是二代转录组测序,通常是将提取的RNA片段打断成小片段进行测序,后期通过对小片段测序数据(read)进行组装(如采用Tirnity软件),获取相对完整的转录本。但是由于测序片段较短可能会存在组装错误或者组装不完整,导致不能准确获得完整转录本,进而对基因预测的完整性和准确性产生严重的影响。r>而目前正在发展的三代测序平台,尤其是Nanopore平台,低成本且可以直接获取高质量的全长转录本序列,无需组装,一条测序read即可跨越全长转录本,因此通过将read比对基因组就能够非常容易的确定基因在基因组上的位置和其完整结构,因而非常有利于基因的注释工作,且准确性较高。但同时考虑目前三代测序平台获取的全长转录本所有碱基的准确率在85%左右,存在一些插入和缺失错误,尤其是发生在内含子剪切位点上的错误(非剪接位点即外显子内部序列错误可以通过比对基因组直接进行纠正,不会存在任何误差;而内含子剪接位点序列由于不能区分是内含子还是错误,导致此区域纠正存在困难)会对基因预测产生较为严重的影响,因而限制了大部分基于二代转录组开发的基因预测软件的使用,必须有新的软件兼容这种三代全长但有小部分错误的数据。目前分析三代测序数据辅助基因预测的软件只有LoReAn一款,但是该软件只能对整体转录本序列进行纠错,未关注基因预测中最核心的内含子剪切位点的纠正,导致纠正误差较大;同时他单纯依靠自身及二代转录组预测,没有依靠同源物种信息,会导致纠正不完全的问题。因此亟需开发具有结合多层次数据(同源和转录组)及对基因预测影响更大的内含子剪接位点纠错方法,实现基因组的基因结构的全面、准确的预测。
技术实现思路
本专利技术的目的是提供一种利用三代全长转录组辅助进行全基因组基因结构预测的方法。为了实现本专利技术的目的,本专利技术第一方面提供一种全基因组水平基因结构预测的方法,包括:使用物种的二代测序数据和同源物种基因信息去预测物种基因结构,获取物种的二代测序数据和同源物种基因信息中内含子剪切位点信息的交集;所述交集与物种三代全长转录组数据中的内含子剪切位点进行合并;所述合并后的内含子剪切位点用于鉴定并纠正物种三代全长转录组数据预测基因结构得到的内含子剪切位点,获取转录本。具体地,本专利技术所提供的全基因组水平基因结构预测的方法,包括:(1)输出物种二代测序数据和所述物种的同源物种基因信息的内含子剪切位点,取交集;(2)输出所述物种的三代全长转录组数据的内含子剪切位点;(3)合并(1)中所述交集和(2)中所述内含子剪切位点,用于鉴定纠正三代全长转录组数据预测所述物种基因结构时得到的内含子剪切位点,得基因的转录本。在本专利技术提供的方法中,所述交集的获取包括:基于二代Illumina平台得到的转录组数据预测所述待预测物种基因结构或基于同源物种基因信息数据预测所述待预测物种基因结构,获取reads数大于2的内含子剪切位点,且确保内含子剪切位点位于内含子与位于外显子的比值大于0.5。具体地,在本专利技术提供的方法中,所述交集的获取包括:S1基于二代Illumina平台得到的转录组数据预测所述物种基因结构;S2使用所述物种的同源物种基因信息数据预测所述物种基因结构;S3分别输出S1和S2中reads数大于2的内含子剪切位点;且确保内含子剪切位点位于内含子与位于外显子的比值大于0.5;比对S3得到的两种内含子剪切位点,取交集。在本专利技术提供的方法中,所述物种三代全长转录组数据中的内含子剪切位点的获取包括:基于三代Nanopore平台得到的全长转录组数据预测所述待预测物种基因结构,获取所述三代全长转录组数据中所剪切内含子以GT开头,AG结尾,或所剪切内含子以GC开头,AG结尾;read数大于5的内含子剪切位点。在本专利技术提供的方法中,所述转录本的获取,包括:所述合并后的内含子剪切位点左右延伸10-30个碱基,与物种三代全长转录组数据预测物种基因结构得到内含子剪切位点取交集,落在交集中的内含子剪切位点,用所述合并后的内含子剪切位点来替换。本专利技术提供的方法,在对所述转录本核所述物种的基因组信息进行比对后,采用genemaker-ST实现全基因组水平基因结构预测。作为本专利技术的一个具体实施方式,一种全基因组基因结构预测的方法包括,具体路线图见图1:(1)从NCBI网站(https://www.ncbi.nlm.nih.gov/)下载待预测物种同源物种的基因组文件和gff3文件;(2)利用GeMoMa软件借助于下载的同源物种的基因信息进行本物种基因组基因信息的预测,产生一个包含所需内含子剪切位点信息的gff3文件;(3)使用Illumina平台进行待预测物种二代转录组测序,测序材料来源于各组织器官的混合样本,保证尽可能多的覆盖转录本;(4)对下机测序数据(read)利用HISAT2与待预测物种的基因组进行比对,获得bam格式的比对结果文件;(5)利用bedtools工具中groupby命令将bam格式转换为bed格式,并提取内含子剪切的位置;(6)统计获得的每个内含子剪切位置支持的read数量,并保留支持度大于2个;同时统计剪切位点位于内含子中的和外显子中的数量,确保剪切位点位于内含子和外显子中比例小于0.5;(7)对上述二代转录组和同源物种获取的剪切位点取交集,即可获得高可靠性的内含子剪切位点;(8)采用Nanopore平台进行本物种三代转录组测序,测序材料来源于各组织器官的混合样本,保证尽可能多的覆盖转录本;(9)使用GMAP软件将测序数据(read)比对到基因组上,并以gff3格式的输出,此文件含有原始未纠错的内含子剪切位点信息;(10)筛选出原始的内含子本文档来自技高网...

【技术保护点】
1.全基因组水平基因结构预测的方法,其特征在于,包括:/n使用物种的二代测序数据和同源物种基因信息预测物种基因结构,获取物种的二代测序数据和同源物种基因信息中内含子剪切位点信息的交集;/n所述交集与物种三代全长转录组数据中的内含子剪切位点进行合并;/n所述合并后的内含子剪切位点用于鉴定并纠正物种三代全长转录组数据预测基因结构得到的内含子剪切位点,获取转录本。/n

【技术特征摘要】
1.全基因组水平基因结构预测的方法,其特征在于,包括:
使用物种的二代测序数据和同源物种基因信息预测物种基因结构,获取物种的二代测序数据和同源物种基因信息中内含子剪切位点信息的交集;
所述交集与物种三代全长转录组数据中的内含子剪切位点进行合并;
所述合并后的内含子剪切位点用于鉴定并纠正物种三代全长转录组数据预测基因结构得到的内含子剪切位点,获取转录本。


2.根据权利要求1所述的方法,其特征在于,所述交集的获取包括:
基于二代Illumina平台得到的转录组数据预测所述物种基因结构和基于同源物种基因信息数据预测所述物种基因结构,获取reads数大于2的内含子剪切位点,且确保内含子剪切位点位于内含子与位于外显子的比值大于0.5。


3.根据权利要求1所述的方法,其特征在于,所述物种三代全长转录组数据中的内含子剪切位点的获取包括:
基于三代Nanopore平台得到的全长转录组数据预测物种基因结构,获取所述三代全长转录组数据中所剪切内含子以GT开头,AG结尾,或所剪切内含子以GC开头,AG结尾;read数大于5的内...

【专利技术属性】
技术研发人员:郑洪坤刘福䶮李绪明李婧姬王晶
申请(专利权)人:北京百迈客生物科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1