本发明专利技术公开一种基因注释方法和系统。该方法包括:采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。本发明专利技术中的多证据联合基因注释方法和系统,有效整合了传统基因注释方法的优点。进一步运用源自目标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程度的获取基因可变剪接形式的注释。
【技术实现步骤摘要】
本专利技术涉及生物信息
,尤其涉及一种基因注释方法和系统。
技术介绍
基因注释,即在基因组序列上标定基因位置与组成结构,是基因组学研究的一个 必需步骤和基本前提。注释结果的好坏直接影响到后续研究的有效性和准确性。随着基因 组学和生物信息学的不断发展,多种多样的基因结构注释方法和软件日益涌现。总体上可 分为基于序列内在特征与统计模型的de novo方法和基于序列相似性的方法。但是,现阶 段的单一算法的基因注释工具在真核生物基因结构预测,特别是可变剪接形式等方面的敏 感性和准确性方面仍然存在着巨大的技术瓶颈,需要大量的人工检查和验证的后续工作。
技术实现思路
本专利技术要解决的一个技术问题是提供一种基因注释方法,可以提高基因注释结果 的准确性。根据本专利技术的一个方面,提供一种基因注释方法,包括采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位 置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比 对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法 整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。根据本专利技术的基因注释方法的一个实施例,还包括步骤运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及 基因组定位,获得目标基因组的表达序列数据集;对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋 白质序列数据集;比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获 得含有可变剪接形式的基因注释结果。根据本专利技术的基因注释方法的一个实施例,采用先比对后组装策略或者先组装后 比对策略进行所述转录组序列组装及基因组定位。根据本专利技术的基因注释方法的一个实施例,上述比较并整合获得的综合基因预测 结果和表达基因数据集的步骤包括对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情 况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情 况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。根据本专利技术的基因注释方法的一个实施例,采用基于序列相似性的基因注释方法 将已知基因序列和物种间同源保守序列比对到目标基因组上的步骤包括基于序列相似性的基因预测工具NSCAN、Geneffise, TWAIN、或PASA,或者采用常规 的序列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标 基因组上。根据本专利技术的基因注释方法的一个实施例,根据所述目标基因组上潜在基因的位 置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得综合基因预测结果及 相应的编码序列的步骤包括将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位 置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序 列。本专利技术的基因注释方法,通过统计学模型预测潜在基因的位置,可能发现未知基 因,根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测 结果整合了两种方法得到的结果,不仅提高了精度,又发现未知基因。进一步,在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能 够在很大程度上提高基因注释的准确性,补充并完善基因注释结果。本专利技术要解决的一个技术问题是提供一种基因注释系统,可以提高基因注释结果 的准确性。根据本专利技术的另一方面,提供一种基因注释系统,包括统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标 基因组上潜在基因的位置;相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列 和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上 潜在基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加 权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。根据本专利技术的基因注释系统的一个实施例,还包括转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转 录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表 达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基 因预测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有 可变剪接形式的基因注释结果。根据本专利技术的基因注释系统的一个实施例,转录组序列组装及定位装置采用先比 对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。根据本专利技术的基因注释系统的一个实施例,可变剪接基因注释装置对于所述综合 基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转 录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综合基因预测结 果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录 组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。根据本专利技术的基因注释系统的一个实施例,结果整合与筛选装置用于将获得的所 述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为 统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合 预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。本专利技术的基因注释系统,通过统计基因预测装置预测潜在基因的位置,可能发现 未知基因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结 构,精度相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同 时也可能发现未知基因。附图说明图1示出本专利技术的基因注释方法的一个实施例的流程图;图2示出本专利技术的基因注释方法的另一个实施例的流程图;图3示出本专利技术的基因注释方法的一个应用例的流程图;图4示出本专利技术的基因注释系统的一个实施例的框图;图5示出本专利技术的基因注释系统的另一实施例的框图。具体实施例方式下面参照附图对本专利技术进行更全面的描述,其中说明本专利技术的示例性实施例。联合多方面预测结果的综合性注释方法被证明为更加有效和准确的基因注释方 法。尤其是加入了生物体自身基因表达数据支持后的注释结果,在基因结构预测的准确性 方面得到有效提升,大大减少了后续人工查错和验证的工作量,并使得大规模自动化流程 化的基因注释结果更加可靠,进而提高了生产效率。图1示出本专利技术的基因注释方法的一个实施例的流程图。如图1所示,在步骤102,采用基于序列特征与统计模型的基因预测方法获得目标 基因组上潜在基因的位置。可以采用多种基于序列特征与统计模型的基因预测方法进行基 因预测。根据不同算法平行地获取多本文档来自技高网...
【技术保护点】
一种基因注释方法,其特征在于,包括:采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐讯,张博,
申请(专利权)人:深圳华大基因科技有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。