System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于病原体感染检测领域,具体地,涉及一种病原体宏基因组测序数据的假阳性过滤的分析方法、装置及其应用。
技术介绍
1、病原学的精准诊断对于感染性疾病的诊断和治疗具有重要意义。传统的病原学诊断高度依赖于临床医师的经验,通常根据患者的临床表现做出病原体的鉴别诊断,针对可疑的病原体进行检测,逐一排查;因传统检测方法的局限性往往无法兼顾罕见致病病原体和混合感染等情况,而宏基因组第二代测序(metagenomics next generationsequencing,简称mngs)技术可以快速、无偏倚地同时检测多种病原体。典型的mngs生物信息学流程由来自原始输入fastq文件的一系列分析步骤组成,包括质量和低复杂性过滤、接头过滤、人类宿主去除、通过与参考数据库比对进行微生物鉴定、可选的序列组装以及在科、属和种的水平上对单个读数和/或连续序列(重叠群)进行分类。
2、宏基因组二代测序技术(metagenomic next generation sequencing)不依赖传统的微生物培养,直接对临床样本中的总核酸进行高通量测序,与数据库进行比对分析,根据比对到的序列信息来判断样本包含的责任病原,但部分病原的检出可能是因为基因组错误的积累或者同源干扰太多、人源序列未滤除干净、高丰度物种由于变异带来的近缘物种序列引入、工程试剂菌污染、噬菌体污染、人工载体污染等等,导致临床假阳性结果的产生,而假阳性结果的产生会对临床诊疗产生干扰,不利于患者的康复。
3、因此,本领域需求一种分析方法,其能够对病原体的临床fastq
技术实现思路
1、有鉴于此,第一方面,本专利技术提供一种病原体宏基因组测序数据的假阳性过滤分析方法,包括如下步骤:
2、s1、获取病原体宏基因组测序数据;
3、s2、将所述测序数据按照物种进行匹配,获取病原体物种reads数集;
4、s3、计算cro-s值,所述cro-s值=跨域比对reads数/(跨域比对reads数+非跨域比对reads数);
5、s4、根据所述cro-s值过滤假阳性结果,并输出最终结果。
6、申请人创造性地发现,测序数据中病原体物种reads数集中的跨域比对reads数和非跨域比对reads数的比例与测序数据中该病原体物种是否为假阳性结果高度相关。
7、进一步地,所述病原体按类归为细菌、真菌、病毒,和寄生虫4大类。
8、在本专利技术中,所述跨域比对reads数,是指某一个reads能够同时比对上不同类的病原体,举例来说,一个reads比对上细菌的同时,还能比对上其余真菌、病毒,和寄生虫中的至少一个。
9、在本专利技术中,所述非跨域比对reads数,是指某一个reads只能够同时比对上一类病原体,举例来说,例如仅能比对上细菌。
10、进一步地,所述s4步骤中按照如下判断标准过滤假阳性结果:
11、当病原体为细菌和真菌时,cro-s值≥0.6;
12、当病原体为寄生虫时,cro-s值≥0.7;以及
13、当病原体为病毒时,cro-s值≥0.95。
14、即所述病原体满足上述判定标准时,则按照该病原体为假阳性而过滤掉。
15、进一步地,所述步骤s1还可以包括步骤s1-2:对测序数据进行质控处理。
16、所述质控处理为去除接头序列与低质量序列片段;去除匹配人源基因组的序列;去除短片段、重复片段、低复杂度序列片段。
17、在一些具体的实施方案中,所述s1步骤进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度、序列片段编号、序列比对情况、比对参考序列名称、比对起始位置、比对质量分数、比对结果详情、序列片段碱基信息、序列片段每个碱基质量信息、不同参考基因组的比对结果详情。
18、进一步地,所述步骤s2还可以包括步骤s2-2:对所述病原体物种reads数集的病原体reads序列进行特异性鉴定,获取病原体物种特异性和非特异性reads序列集。
19、通过特异性鉴定,得到的病原体物种特异性和非特异性reads序列集能够使得最终的假阳性判断结果更加准确。
20、第二方面,本专利技术提供一种病原体宏基因组测序数据的假阳性过滤的分析的装置,包括:
21、s1、获取数据模块,用于获取病原体宏基因组测序数据;
22、s2、匹配模块,用于将所述测序数据按照物种进行匹配,获取病原体物种reads数集;
23、s3、计算模块,计算cro-s值,所述cro-s值=跨域比对reads数/(跨域比对reads数+非跨域比对reads数);
24、s4、结果输出模块,用于根据所述cro-s值过滤假阳性结果,并输出最终结果。
25、进一步地,所述s4模块中按照如下判断标准过滤假阳性结果:
26、当病原体为细菌和真菌时,cro-s值≥0.6;
27、当病原体为寄生虫时,cro-s值≥0.7;以及
28、当病原体为病毒时,cro-s值≥0.95。
29、即所述病原体满足上述判定标准时,则按照该病原体为假阳性而过滤掉。
30、进一步地,所述模块s1还可以包括模块s1-2:对测序数据进行质控处理。
31、所述质控处理为去除接头序列与低质量序列片段;去除匹配人源基因组的序列;去除短片段、重复片段、低复杂度序列片段。
32、在一些具体的实施方案中,所述s1模块进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度、序列片段编号、序列比对情况、比对参考序列名称、比对起始位置、比对质量分数、比对结果详情、序列片段碱基信息、序列片段每个碱基质量信息、不同参考基因组的比对结果详情。
33、进一步地,所述模块s2还可以包括模块s2-2:特异性鉴定模块,用于对所述病原体物种reads数集的病原体reads序列进行特异性鉴定,获取病原体物种特异性和非特异性reads序列集。
34、进一步地,所述装置还包括核酸提取模块,所述核酸提取模块用于提取样本的核酸。
35、第三方面,本专利技术提供一种如上所述的分析方法或者装置本文档来自技高网...
【技术保护点】
1.一种病原体宏基因组测序数据的假阳性过滤分析方法,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述S4步骤中按照如下判断标准过滤假阳性结果:
3.根据权利要求2所述的方法,其特征在于,所述步骤S1还可以包括步骤S1-2:对测序数据进行质控处理。
4.根据权利要求3所述的方法,其特征在于,所述质控处理包括去除匹配人源基因组的序列。
5.根据权利要求1所述的方法,其特征在于,所述步骤S2还可以包括步骤S2-2:对所述病原体物种reads数集的病原体reads序列进行特异性鉴定,获取病原体物种特异性和非特异性reads序列集。
6.一种如权利要求1~5中任一项所述的病原体宏基因组测序数据的分析方法在制备病原体宏基因组测序数据的的假阳性过滤分析装置中的应用。
7.一种病原体宏基因组测序数据的假阳性过滤分析的装置,包括:
8.根据权利要求7所述的装置,其特征在于,所述S4模块中按照如下判断标准过滤假阳性结果:
9.一种病原体宏基因组测序数据分析的设备,包括:
10.一
...【技术特征摘要】
1.一种病原体宏基因组测序数据的假阳性过滤分析方法,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述s4步骤中按照如下判断标准过滤假阳性结果:
3.根据权利要求2所述的方法,其特征在于,所述步骤s1还可以包括步骤s1-2:对测序数据进行质控处理。
4.根据权利要求3所述的方法,其特征在于,所述质控处理包括去除匹配人源基因组的序列。
5.根据权利要求1所述的方法,其特征在于,所述步骤s2还可以包括步骤s2-2:对所述病原体物种reads数集的病原体reads序列进行特异性鉴定,获取病原体物种特异性和非特异性re...
【专利技术属性】
技术研发人员:李赛,邓小龙,杨丽,吴康,戴立忠,
申请(专利权)人:圣湘生物科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。