一种病原物种特异性序列的筛选方法及系统技术方案

技术编号:36708350 阅读:18 留言:0更新日期:2023-03-01 09:32
本申请属于生信分析技术领域,具体涉及一种病原物种特异性序列的筛选方法及系统,本申请建立了一套便捷获取物种特异性序列的方法,可用于种/亚种/菌株型的特异性区域筛选,相较于传统方法,准确性高并且时间成本低,同时还能实现使用最少引物对即可覆盖最全目标物种。能实现使用最少引物对即可覆盖最全目标物种。能实现使用最少引物对即可覆盖最全目标物种。

【技术实现步骤摘要】
一种病原物种特异性序列的筛选方法及系统


[0001]本申请属于生物信息学
,具体涉及一种病原物种特异性序列的筛选方法及系统。
技术背景
[0002]病原感染仍然是威胁全世界人类健康的巨大问题,给临床诊断和治疗带来了沉重负担。临床对于病原微生物的主要检测方式为临床培养或生化检测,随着下一代测序技术的不断进步,宏基因组测序(mNGS)极大的提高了病原检测的效率,并有助于识别难以培养的病原微生物。然而,mNGS在临床应用方面仍面临诸多障碍,尤其是当检验样品总量少、样本微生物含量低时,如咽拭子样品、支气管肺泡灌洗液样品、血液样品和脑脊液样品等。同时,由于宿主细胞和核苷酸在这些样本中往往占比很大(通常>90%的宿主成分),极大地降低了微生物鉴定的测序效率。
[0003]基于PCR的检测方法以及由常规PCR衍生出来的多重PCR,由于其高灵敏度和低成本而被广泛用于诊断和监测应用。病原靶向测序(tNGS)通过超多重PCR扩增与高通量测序两种技术的结合,能够应对检测样本中存在的几十至上百种病原体。对低浓度的病原微生物的检测,由于通过了PCR的正向富集病原体,同时可以排除宿主核酸对于检测的影响,使其具有更高的灵敏度,可以检测更低浓度的病原微生物。与病原宏基因组测序(mNGS)相比,tNGS具有病原谱范围明确、测序成本低、检测周期短等优势。而基于tNGS进行物种鉴定需要针对物种的特异性区域设计引物,物种鉴定的PCR引物的关键因素之一在于既要寻找物种的特异性区域,又要求寻找出的特异性片段能够能够尽量的覆盖物种内的菌株。两者之间存在一定的矛盾与冲突,因此对于物种鉴定所需要特异性片段筛选具有较高的技术要求。
[0004]目前,针对于物种鉴定的特异性区域或者PCR引物设计模板主要依赖于经验、文献检索等方法,该方法存在效率低、试错成本高、特异性序列的种内保守性未知等不足,本申请中的方法建立了一套病原微生物物种特异性片段筛选的有效方法,能够帮助快速的筛选出一套使用最少的引物序列覆盖到最多的物种基因组的特异性序列组合,解决了对于特异性区域查找的难点。
[0005]有鉴于此,提出本申请。

技术实现思路

[0006]为解决上述技术问题,本申请通过生物信息学分析,建立了一套快速获取物种特异性序列的方法,能够用于多物种的特异性区域的筛选,相较于文献检索,均有准确性高、时间成本低等优点。另外传统的多重PCR针对16S,18S等保守性较高的片段进行特异性扩增,很难对病原体做到精确至种甚至亚种的分型,而本申请中方法可以用于亚种和菌株的特异性区域的筛选,其适用范围更加广泛。并且本申请提供了一种使用最少的引物对确保物种种内保守且种间特异的序列筛选方法,能够帮助快速的建立起一组适合进行病原微生物鉴定的引物集合。
[0007]具体的,本申请提出如下技术方案:
[0008]本申请首先提供一种病原物种特异性序列的筛选方法,其特征在于,包括如下步骤:
[0009]1)病原比对数据库构建;
[0010]基于公共数据库进行病原物种序列的筛选和过滤,构建病原比对数据库;
[0011]2)目标物种基因组筛选;
[0012]从病原比对数据库中筛选高质量目标物种的基因组序列;
[0013]3)物种共有/保守区域筛选;
[0014]对筛选出的基因组序列打断成序列片段,合并所有序列片段,并进行聚类;
[0015]4)物种间特有序列筛选;
[0016]基于聚类结果,从每个聚类cluster从中随机挑选1条序列作为代表序列,将代表序列与病原比对数据库进行比对,得到初步比对结果;将序列相似度M高于阈值,并且该序列除比对到目标物种外未比对到其他物种的代表序列,作为该物种的特异性序列;
[0017]进一步的,所述1)中,所述数据库为公共数据库Refseq和/或GenBank数据库。
[0018]优选的,所述2)中,所述基因组序列选自完整基因组序列或染色体级别基因组序列;
[0019]进一步的,所述3)具体为:基于筛选出的基因组序列,将基因组序列打断为长度为L划窗为N的序列片段,将所有的序列片段合并,得到片段化后的基因组的fasta序列;聚类要求为同一个cluster内的序列的identity>95%;
[0020]进一步的,所述L和N的取值为50

100000bp。
[0021]进一步的,所述3)进一步包括,选择性去除聚类cluster中包含的基因组数量远小于总基因组数量的cluster。
[0022]进一步的,所述步骤4)中,
[0023]所述相似度M计算如下:M=A/L
[0024]其中,A为一条序列正确比对上参考序列的碱基数,L为该序列的总长度;
[0025]所述阈值为0.95。
[0026]进一步的,所述方法进一步包括如下步骤:
[0027]5)覆盖最多物种基因组的最小特异性序列集合筛选:
[0028]基于步骤4)获得的特异性序列所在的cluster,按照每个cluster中包含的菌株数量、每个cluster中拷贝数>2的菌株数量、和每个cluster中包含的序列数量依次进行排序,选取排名第一的cluster,在剩余的cluster结果中去除第一组cluster中已经筛选出的基因组,重新基于以上规则进行排序,进行迭代挑选排名第一的cluster,直到下一次筛选没有新的基因组可以被筛选出。
[0029]进一步的,所述步骤5)进一步包括:
[0030]将筛选出的每一组cluster对齐基因组片段,确认同一组cluster的相似度以及序列的SNP/INDEL情况,确认是否能在该位点设计引物及是否需要设计兼并引物。
[0031]进一步的,所述病原物种为细菌类病原物种。
[0032]本申请还提供上述任一所述方法在病原引物设计中的应用。
[0033]本申请还提供一种病原物种特异性序列的筛选系统,包括如下模块:
[0034]模块1)病原比对数据库构建模块:用于基于公共数据库进行病原物种序列的筛选和过滤,构建病原比对数据库;
[0035]模块2)目标物种基因组筛选模块:用于从病原比对数据库中筛选高质量目标物种的基因组序列;
[0036]模块3)物种共有/保守区域筛选模块:用于对筛选出的基因组序列打断成序列片段,合并所有序列片段,并进行聚类;
[0037]模块4)物种间特有序列筛选模块:用于基于聚类结果,从每个聚类cluster从中随机挑选1条序列作为代表序列,将代表序列与病原比对数据库进行比对,得到初步比对结果;将序列相似度M高于阈值,并且该序列除比对到目标物种外未比对到其他物种的代表序列,作为该物种的特异性序列;
[0038]进一步的,模块1)中,所述数据库为公共数据库Refseq和/或GenBank数据库。
[0039]进一步的,模块2)中,所述基因组序列选自完整基因组序列或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种病原物种特异性序列的筛选方法,其特征在于,包括如下步骤:1)病原比对数据库构建;基于公共数据库进行病原物种序列的筛选和过滤,构建病原比对数据库;优选的,所述数据库为公共数据库Refseq和/或GenBank数据库;2)目标物种基因组筛选;从病原比对数据库中筛选高质量目标物种的基因组序列;优选的,所述基因组序列选自完整基因组序列或染色体级别基因组序列;3)物种共有/保守区域筛选;对筛选出的基因组序列打断成序列片段,合并所有序列片段,并进行聚类;4)物种间特有序列筛选;基于聚类结果,从每个聚类cluster中随机挑选1条序列作为代表序列,将代表序列与病原比对数据库进行比对,得到初步比对结果;将序列相似度M高于阈值,并且该序列除比对到目标物种外未比对到其他物种的代表序列,作为该物种的特异性序列。2.根据权利要求1所述的方法,其特征在于,所述3)具体为:基于筛选出的基因组序列,将基因组序列打断为长度为L划窗为N的序列片段,将所有的序列片段合并,得到片段化后的基因组的fasta序列;聚类要求为同一个cluster内的序列的identity>95%;优选的,所述L和N的取值为50

100000bp。3.根据权利要求2所述的方法,其特征在于,所述3)进一步包括,选择性去除聚类cluster中包含的基因组数量远小于总基因组数量的cluster。4.根据权利要求1所述的方法,其特征在于,所述步骤4)中,所述相似度M计算如下:M=#$其中,A为一条序列正确比对上参考序列的碱基数,L为该序列的总长度;优选的,所述阈值为0.95。5.根据权利要求1<...

【专利技术属性】
技术研发人员:张全全邓望龙张佩佩任用李诗濛
申请(专利权)人:江苏先声医学诊断有限公司南京先声医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1