System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基因组注释的方法及电子装置制造方法及图纸_技高网

基因组注释的方法及电子装置制造方法及图纸

技术编号:42185772 阅读:3 留言:0更新日期:2024-07-30 18:37
本发明专利技术提供了一种基因组注释的方法及电子装置。其中,基因组注释的方法包括S1)将样本基因组序列进行基因结构预测,获得预测基因集;S2)将预测基因集进行BUSCO评估,获得BUSCO评估文件;S3)利用BUSCO评估文件对所述预测基因集进行修正,获得修正基因集;S4)对修正基因集进行基因组注释,获得基因组注释文件;基因结构预测包括转录组预测、从头预测和同源预测。能够解决现有技术中用于基因组注释的预测基因集的完整性差的问题,适用于基因组注释领域。

【技术实现步骤摘要】

本专利技术涉及基因组注释领域,具体而言,涉及一种基因组注释的方法及电子装置


技术介绍

1、基因组注释是生物学研究的基础,一个高质量的基因组注释结果对于基于该基因组的生物学研究具有重大的价值。对组装的基因组进行基因集预测是基因组注释的一个重要方面。一般而言,基因组中基因集预测的证据来源于以下三个方面,基于转录本序列注释基因结构、基于同源蛋白序列注释基因结构和软件从头预测基因结构,基于三种证据进行整合可以得到用于基因组注释的预测基因集,并对其进行基因组注释。

2、busco(benchmarking universal single-copy orthologs),收集了相近物种之间的保守序列,利用orthodb直系同源数据库构建了六种主要的系统进化分支(bacteria、eukaryota、protists、metazoa、fungi、plants)的基因集,可以评估基因组注释的基因集的完整性。

3、常规的注释流程中最后会使用evidencemodeler(evm)或geta等工具对三种证据的预测结果进行整合,合并成完整的基因结构。现有技术中的整合过程中,整合软件不会考虑busco库中存在的相似基因序列,因此可能会丢失部分该种相似的序列,故无法确保由上述的三种预测手段获得的预测基因集的busco评估文件中的基因序列,均能整合到最终的用于基因组注释的预测基因集中。因此,依此评估结果输出的用于基因组注释的预测基因集的完整性实际上比评估的完整性结果要差,故进一步影响了后续基因组注释的准确性。


<p>技术实现思路

1、本专利技术的主要目的在于提供一种基因组注释的方法及电子装置,以解决现有技术中用于基因组注释的预测基因集的完整性差的问题。

2、为了实现上述目的,根据本专利技术的第一个方面,提供了一种基因组注释的方法,该方法包括:s1)将样本基因组序列进行基因结构预测,获得预测基因集;s2)将预测基因集进行busco评估,获得busco评估文件;s3)利用busco评估文件对预测基因集进行修正,获得修正基因集;s4)对修正基因集进行基因组注释,获得基因组注释文件;基因结构预测包括转录组预测、从头预测和同源预测。

3、进一步地,预测基因集包括第一预测基因集、第二预测基因集和第三预测基因集及第四预测基因集,其中,s1)包括:s11)将样本基因组序列进行转录组预测,获得第一预测基因集;s12)将样本基因组序列进行从头预测,获得第二预测基因集;s13)将样本基因组序列进行同源预测,获得第三预测基因集;s14)将第一预测基因集、第二预测基因集和第三预测基因集进行整合,获得第四预测基因集。

4、进一步地,转录组预测的软件包括isoquant软件、stringtie软件或pasa软件中的一种或多种;从头预测的软件包括august软件;同源预测的软件包括genewise软件、gemoma软件或miniprot软件中的一种或多种;整合的软件包括evm软件和/或geta软件。

5、进一步地,s2)包括:分别对第一预测基因集、第二预测基因集、第三预测基因集和第四预测基因集进行busco评估,获得第一busco评估文件、第二busco评估文件、第三busco评估文件和第四busco评估文件。

6、进一步地,s3)包括:s31)将第一busco评估文件中的missing基因序列和fragmented基因序列和第四busco评估文件中的missing基因序列和fragmented基因序列进行比对,获得第一待回补基因集和第一待删除基因集;s32)将第二busco评估文件中的missing基因序列和fragmented基因序列和第四busco评估文件中的missing基因序列和fragmented基因序列进行比对,获得第二待回补基因集和第二待删除基因集;s33)将第三busco评估文件中的missing基因序列和fragmented基因序列和第四busco评估文件中的missing基因序列和fragmented基因序列进行比对,获得第三待回补基因集和第三待删除基因集;

7、s34)将第一待回补基因集与第二待回补基因集进行比对,筛选出不重复的基因序列,整合至第一待回补基因集中,获得第五待回补基因集;将第五待回补基因集与第三待回补基因集进行比对,筛选出不重复的基因序列,并整合至第五待回补基因集中,获得第六待回补基因集;s35)将第一待删除基因集、第二待删除基因集和第三待删除基因集中的所有序列组成第四待删除基因集; s36)将第六待回补基因集中的基因序列整合至第四预测基因集中,并在第四预测基因集中,将与第四待删除基因集中的基因序列重合的基因序列删除,获得修正基因集。

8、根据本专利技术的第二个方面,提供了一种基因组注释的电子装置,该电子装置包括:预测基因集获取单元、busco评估单元、修正单元和基因组注释单元;其中,预测基因集获取单元,用于将样本基因组序列进行基因结构预测,获得预测基因集;busco评估单元,用于将预测基因集进行busco评估,获得busco评估文件;修正单元,用于利用busco评估文件对预测基因集进行修正,获得修正基因集;基因组注释单元,用于对修正基因集进行基因组注释,获得基因组注释文件;基因结构预测包括转录组预测、从头预测和同源预测。

9、进一步地,预测基因集包括第一预测基因集、第二预测基因集和第三预测基因集及第四预测基因集,其中,预测基因集获取单元包括第一预测基因集获取单元、第二预测基因集获取单元、第三预测基因集获取单元和第四预测基因集获取单元;

10、其中,第一预测基因集获取单元,用于将样本基因组序列进行转录组预测,获得第一预测基因集;第二预测基因集获取单元,用于将样本基因组序列进行从头预测,获得第二预测基因集;第三预测基因获取单元,用于将样本基因组序列进行同源预测,获得第三预测基因集;第四预测基因集获取单元,用于将第一预测基因集、第二预测基因集和第三预测基因集整合,获得第四预测基因集。

11、进一步地,转录组预测的软件包括isoquant软件、stringtie软件或pasa软件中的一种或多种;从头预测的软件包括august软件;同源预测的软件包括genewise软件、gemoma软件或miniprot软件中的一种或多种;整合的软件包括evm软件和/或geta软件。

12、进一步地,busco评估单元包括:第一预测基因集评估单元、第二预测基因集评估单元、第三预测基因集评估单元或第四预测基因集评估单元;其中,第一预测基因集评估单元,用于对第一预测基因集进行busco评估,获得第一busco评估文件;第二预测基因集评估单元,用于对第二预测基因集进行busco评估,获得第二busco评估文件;第三预测基因集评估单元,用于对第三预测基因集进行busco评估,获得第三busco评估文件;第四预测基因集评估单元,用于对第四预测基因集进行busco评估,获得第四busco评估文件。

13、进一步地,修正本文档来自技高网...

【技术保护点】

1.一种基因组注释的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预测基因集包括第一预测基因集、第二预测基因集和第三预测基因集及第四预测基因集,其中,所述S1)包括:

3.根据权利要求2所述的方法,其特征在于,所述转录组预测的软件包括Isoquant软件、Stringtie软件或Pasa软件中的一种或多种;

4.根据权利要求2所述的方法,其特征在于,所述S2)包括:分别对所述第一预测基因集、所述第二预测基因集、所述第三预测基因集和所述第四预测基因集进行BUSCO评估,获得第一BUSCO评估文件、第二BUSCO评估文件、第三BUSCO评估文件和第四BUSCO评估文件。

5.根据权利要求4所述的方法,其特征在于,所述S3)包括:

6.一种基因组注释的电子装置,其特征在于,所述电子装置包括:预测基因集获取单元、BUSCO评估单元、修正单元和基因组注释单元;

7.根据权利要求6所述的电子装置,其特征在于,所述预测基因集包括第一预测基因集、第二预测基因集和第三预测基因集及第四预测基因集,其中,所述预测基因集获取单元包括第一预测基因集获取单元、第二预测基因集获取单元、第三预测基因集获取单元和第四预测基因集获取单元;

8.根据权利要求7所述的电子装置,其特征在于,所述转录组预测的软件包括Isoquant软件、Stringtie软件或Pasa软件中的一种或多种;

9.根据权利要求7所述的电子装置,其特征在于,所述BUSCO评估单元包括:第一预测基因集评估单元、第二预测基因集评估单元、第三预测基因集评估单元或第四预测基因集评估单元;

10.根据权利要求9所述的电子装置,其特征在于,所述修正单元包括:第一修正单元、第二修正单元、第三修正单元、第四修正单元、第五修正单元和第六修正单元;

11.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时,控制权利要求1-5中任一项所述的一种基因组注释的方法。

12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-5中任一项所述的一种基因组注释的方法。

...

【技术特征摘要】

1.一种基因组注释的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预测基因集包括第一预测基因集、第二预测基因集和第三预测基因集及第四预测基因集,其中,所述s1)包括:

3.根据权利要求2所述的方法,其特征在于,所述转录组预测的软件包括isoquant软件、stringtie软件或pasa软件中的一种或多种;

4.根据权利要求2所述的方法,其特征在于,所述s2)包括:分别对所述第一预测基因集、所述第二预测基因集、所述第三预测基因集和所述第四预测基因集进行busco评估,获得第一busco评估文件、第二busco评估文件、第三busco评估文件和第四busco评估文件。

5.根据权利要求4所述的方法,其特征在于,所述s3)包括:

6.一种基因组注释的电子装置,其特征在于,所述电子装置包括:预测基因集获取单元、busco评估单元、修正单元和基因组注释单元;

7.根据权利要求6所述的电子装置,其特征在于,所述预测基因集包括第一预测基因集、第二预测基因集和第三...

【专利技术属性】
技术研发人员:李晓波周勋任雪李泽阳李华云王娟牛晓阳李志民
申请(专利权)人:安诺优达基因科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1