一种病原微生物快速比对鉴定方法及其应用技术

技术编号:33084681 阅读:16 留言:0更新日期:2022-04-15 10:45
本发明专利技术属于生信分析领域,具体涉及一种病原微生物测序数据快速比对鉴定方法及其应用,所述方法基于自研分类算法分组快速比对,通过复分类算法统计分析获得病原微生物鉴定和相对定量。对定量。对定量。

【技术实现步骤摘要】
一种病原微生物快速比对鉴定方法及其应用


[0001]本专利技术属于生信分析领域,具体涉及一种微生物测序数据快速比对鉴定方法及其应用。

技术介绍

[0002]快速准确的微生物鉴定技术始终是临床微生物关注的重点,传统微生物检验方法(形态学、培养、抗原抗体)在解决疑难及未知微生物上存在局限性。宏基因组下一代测序(metagenomic next

generation sequencing,mNGS)技术针对样本中所有核酸进行无偏测序,结合病原微生物数据库及生信算法,检测样本中含有的可能病原微生物序列。随着检出灵敏度的需求以及测序成本大下降,mNGS产出大量的数据,增加了生信病原鉴定分析时间。由于感染患者病情特殊性,需要在极短时间内准确鉴定出病原微生物,这个对病原比对算法提出了挑战。
[0003]目前做mNGS常见的病原比对算法分为两大类:一种是以Blast(Basic Local Alignment Search Tool)为代表的全局比对方法,另一种是以Kraken为代表的基于Kmer比对策略;但两者各有优缺点:
[0004]Blast基于全局比对,基本策略是用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。Blast是物种鉴定的金标准,但是由于循环比对的策略导致其速度非常慢。
[0005]Kraken是一种基于kmer超快速的程序,可为宏基因组DNA序列分配分类标签。为了对序列进行分类,序列中的每个k

mer被映射到数据库中包含该k

mer基因组的最低共同祖先(lowest common ancestor,LCA)。与序列的k

mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k

mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶路径进行评分,并且分类树中的最大RTL路径是分类路径。Kraken速度快,但是由于基于kmer的的kmer的权重分类,并非完整序列的全局比对,会产生比对误差,另外Kraken无法准确体现物种丰度。
[0006]有鉴于此,特提出本专利技术。

技术实现思路

[0007]针对上述技术问题,本专利技术所采用的技术方案如下:
[0008]本专利技术首先提供一种微生物测序数据快速比对方法,包括如下步骤
[0009]步骤1)测序数据比对预分类;
[0010]步骤2)待分析数据分组;
[0011]步骤3)分组重比对。
[0012]进一步的,所述步骤1)的预分类采用Kraken2进行预分类,
[0013]进一步的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;
[0014]优选的,所述测序数据为为去宿主后的测序数据。
[0015]进一步的,所述步骤2)待分析数据分组为:
[0016]基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
[0017]所述UCR计算如下:
[0018][0019]其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
[0020]优选的,所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
[0021]进一步的,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
[0022]优选的,使用Blast算法。
[0023]本专利技术还提供一种微生物测序数据快速比对鉴定方法,包括上述任一所述微生物快速比对方法,并进一步包括如下步骤:
[0024]步骤4)比对结果复分类统计。
[0025]进一步的,所述步骤4)比对结果复分类统计具体为:
[0026]针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
[0027]优选的,
[0028]所述多重比对序列数MRN计算公式如下:
[0029][0030]其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
[0031]所述物种序列数RN计算如下:
[0032][0033]其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
[0034]本专利技术还提供一种微生物测序数据快速比对鉴定系统,所述系统包括如下模块:
[0035]模块1)测序数据比对预分类模块;
[0036]模块2)待分析数据分组模块;
[0037]模块3)分组重比对模块;
[0038]模块4)比对结果复分类统计模块。
[0039]进一步的,所述模块1)的预分类采用Kraken2进行预分类,
[0040]进一步的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;
[0041]优选的,所述测序数据为为去宿主后的测序数据。
[0042]进一步的,所述模块2)待分析数据分组为:
[0043]基于模块1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
[0044]所述UCR计算如下:
[0045][0046]其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
[0047]优选的,所述通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种微生物测序数据快速比对方法,其特征在于,包括如下步骤步骤1)测序数据比对预分类;步骤2)待分析数据分组;步骤3)分组重比对。2.权利要求1所述的微生物测序数据快速比对方法,其特征在于,所述步骤1)的比对预分类采用Kraken2进行比对预分类,并统计预分类信息;优选的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;更优选的,所述测序数据为为去宿主后的测序数据。3.权利要求1

2任一所述的微生物测序数据快速比对方法,其特征在于,所述步骤2)待分析数据分组为:基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,所述UCR计算如下:其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;优选的,所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。4.权利要求1

3任一所述的微生物测序数据快速比对方法,其特征在于,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。优选的,使用Blast算法。5.一种微生物测序数据快速比对鉴定方法,其特征...

【专利技术属性】
技术研发人员:郭刚邓望龙尹随随丁然陆光华卜范峰任用李诗濛
申请(专利权)人:南京先声诊断技术有限公司南京先声医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1