核醣体RNA数据库的建构方法技术

技术编号:38825909 阅读:10 留言:0更新日期:2023-09-15 20:05
本发明专利技术提供一种核醣体RNA数据库的建构方法,包括以下步骤:选择核酸序列数据库来源;进行物种分类法则正规化与均一化;利用AI技术进行正规化分类校正;挑选序列物种所属的界;筛减冗余序列及长度不符的序列;针对非A、T、C或G的未知碱基设定临界值,排除超过临界值的未知碱基;以及排除分类信息不足的序列。以及排除分类信息不足的序列。以及排除分类信息不足的序列。

【技术实现步骤摘要】
核醣体RNA数据库的建构方法


[0001]本专利技术涉及一种数据库的建构方法,尤其涉及一种核醣体RNA数据库的建构方法。

技术介绍

[0002]近年来,随着高通量基因定序技术的突飞猛进,带动了微生物体的研究,大幅扩增微生物序列数据量,其中尤以核醣体RNA(ribosomal RNA)基因常被使用作为微生物的标记基因,进而进行物种分类,以推论菌相在人体中扮演的调控功能。在核醣体RNA基因中,原核生物(包括古菌和细菌)的16S以及真核生物的18S小亚基核糖体RNA(small subunit rRNA,SSU rRNA)为最主要的标记基因;此外,23S/28S大亚基核糖体RNA(large subunit rRNA,LSU rRNA)搭配相邻的小亚基核糖体RNA共同进行分析,可提供更丰富的物种分类信息。
[0003]在微生物大数据库中,数据的正确性与完整性可能直接或间接影响后续各种不同的微生物菌相分析和预测结果。目前主要的序列数据库可分为原生储存数据库(repository)以及加值型数据库(value

added)二大类。原生储存数据库,主要为国际协作核酸序列数据库(International Nucleotide Sequence Database Collaboration,INSDC),数据库成员包括NCBI、EMBL、DDBJ,主要由研究者自行上传,提供序列以及相关的物种分类信息;此类型数据库序列量最多,但数据噪声较多,涵盖过多无效信息。加值型数据库,如SILVA、EzBioCloud、Greengenes,主要是收录INSDC数据库内的序列,再进行冗余序列排除、高相似度序列聚集;对于未知的序列则是利用序列比对或演化树分析,再给定物种名称或特定编号;上述方法可进一步筛减原生储存数据库的数据量,但也因为对未知序列处理方式的不一致,而可能使序列的分类信息错误。
[0004]上述二大类数据库皆缺乏分类信息的正规化和均一化,在后续相关的微生物分析中,常会因分类信息的误植或些微字符的出入,影响预测的结果。因此,开发出一种核醣体RNA数据库的建构方法,能够增加数据精确度,以提升预测正确率,为目前所需研究的重要课题。

技术实现思路

[0005]本专利技术提供一种核醣体RNA数据库的建构方法,能够增加数据精确度,以提升预测正确率,可应用于后续各种不同的分析方法,维持结果的一致性与准确性。
[0006]本专利技术的核醣体RNA数据库的建构方法包括以下步骤:选择核酸序列数据库来源;进行物种分类法则正规化与均一化;利用AI技术进行正规化分类命名;挑选序列物种所属的界;筛减冗余序列及长度不符的序列;针对非A、T、C或G的未知碱基设定临界值,排除超过临界值的未知碱基;以及排除分类信息不足的序列。
[0007]在本专利技术的一实施例中,核酸序列数据库包括原生储存数据库或加值型数据库。
[0008]在本专利技术的一实施例中,核醣体RNA数据库包括16S rRNA基因数据库。
[0009]在本专利技术的一实施例中,使用七阶分类命名法则进行正规化,以形成分类阶层关系表(hierarchy relation table),七阶分类命名法则的阶层包括界、门、纲、目、科、属及
种。
[0010]在本专利技术的一实施例中,进行均一化的方法包括以核酸序列数据库的种名为依据,找出分类阶层关系表中其他阶层的信息,或以核酸序列数据库中种的编号为依据,使用序列号作为搜寻目标与收录序列号的数据库进行比对,找到序列号的种名之后,再从分类阶层关系表找出其他阶层的信息。
[0011]在本专利技术的一实施例中,利用AI技术进行正规化分类命名包括依据种别阶层进行比对,以确认序列分类信息无重复。
[0012]在本专利技术的一实施例中,挑选序列物种所属的界包括针对16S rRNA基因数据库,挑选出属于古菌界(Archaea)和细菌界(Bacteria)的序列,将其他界别或原先界名误植为古菌界或细菌界的序列排除。
[0013]在本专利技术的一实施例中,针对16S rRNA基因数据库,当序列中包含相同种别序列100%相同条件时,即为冗余序列。
[0014]在本专利技术的一实施例中,针对16S rRNA基因数据库,长度不符的序列为长度短于1200个碱基或超过1800个碱基的序列。
[0015]基于上述,本专利技术的核醣体RNA数据库的建构方法,包含了提取加值型数据库中高质量的序列数据,并对分类信息加以正规化和均一化,不仅有效筛选出高代表性的序列,更在缩减数据量的同时提高物种在分类各阶层的涵盖率。经过此处理流程所建构的数据库,可应用于后续各种不同的分析方法,维持结果的一致性与准确性。
附图说明
[0016]图1为依照本专利技术一实施例的核醣体RNA数据库的建构方法的流程示意图;
[0017]图2及图3为依照本专利技术一实施例的核醣体RNA数据库的建构方法中均一化方法的示意图;
[0018]图4为依照本专利技术一实施例的核醣体RNA数据库的建构方法中利用AI技术进行正规化分类命名的示意图;
[0019]图5为依照本专利技术一实施例的核醣体RNA数据库的建构方法中排除分类信息不足的序列的示意图。
具体实施方式
[0020]在本文中,由“一数值至另一数值”表示的范围,是一种避免在说明书中一一列举该范围中的所有数值的概要性表示方式。因此,某一特定数值范围的记载,涵盖该数值范围内的任意数值以及由该数值范围内的任意数值界定出的较小数值范围,如同在说明书中明文写出该任意数值和该较小数值范围一样。
[0021]下文列举实施例并配合所附附图来进行详细地说明,但所提供的实施例并非用以限制本专利技术所涵盖的范围。
[0022]本专利技术提供一种核醣体RNA数据库的建构方法,图1为依照本专利技术一实施例的核醣体RNA数据库的建构方法的流程示意图。以下,将以图1详细描述依照本专利技术一实施例的核醣体RNA数据库的建构方法。
[0023]请参照图1,首先,进行步骤S10,选择核酸序列数据库来源,核酸序列数据库可包
括原生储存数据库或加值型数据库,以作为初始数据源。在本实施例中,所建构的核醣体RNA数据库例如是16S rRNA基因数据库,在下文中将主要以16S rRNA基因数据库作为示例说明,但本专利技术并不以此为限。16S rRNA是原核生物核醣体小次单元的重要组成,其中包含保守区与9个高度变异区,许多研究显示在不同种细菌之间的16S rRNA具有高度保守性,意即单一物种即使发生基因变异,其16S rRNA序列也不容易改变,因此,极为适合用于鉴定细菌与古菌的物种。
[0024]接着,请继续参照图1,进行步骤S12,进行物种分类法则正规化与均一化。在正规化方面,物种分类学通常以Carl Linnaeus所建立的分类法则为依据,演变至今,该分类法则的阶层主要分为“界、门、纲、目、科、属及种”七个阶层,可将所有序列分类信息使用此七阶分类命名法则进行正规化,以形成分类阶层关系表(hierarchy re本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种核醣体RNA数据库的建构方法,其特征在于,包括:选择核酸序列数据库来源;进行物种分类法则正规化与均一化;利用AI技术进行正规化分类校正;挑选序列物种所属的界;筛减冗余序列及长度不符的序列;针对非A、T、C或G的未知碱基设定临界值,排除超过所述临界值的未知碱基;以及排除分类信息不足的序列。2.根据权利要求1所述的核醣体RNA数据库的建构方法,其特征在于,所述核酸序列数据库包括原生储存数据库或加值型数据库。3.根据权利要求1所述的核醣体RNA数据库的建构方法,其特征在于,所述核醣体RNA数据库包括16S rRNA基因数据库。4.根据权利要求1所述的核醣体RNA数据库的建构方法,其特征在于,其中使用七阶分类命名法则进行正规化,以形成分类阶层关系表,所述七阶分类命名法则的阶层包括界、门、纲、目、科、属及种。5.根据权利要求4所述的核醣体RNA数据库的建构方法,其特征在于,进行均一化的方法包括以所述核酸序列数据库的种名为依据,找出所述分类阶层关系表中其他阶层的...

【专利技术属性】
技术研发人员:詹韵玄吴逸文林介华许银雄叶集孝廖玉洁蔡宗宪
申请(专利权)人:宏碁智医股份有限公司长庚医疗财团法人基隆长庚纪念医院台湾卫生研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1