System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种寄生虫宏基因组测序数据的分析方法、装置及其应用制造方法及图纸_技高网

一种寄生虫宏基因组测序数据的分析方法、装置及其应用制造方法及图纸

技术编号:43122053 阅读:9 留言:0更新日期:2024-10-26 10:00
本发明专利技术属于寄生虫感染检测领域,具体地,涉及一种寄生虫宏基因组测序数据的疑似寄生虫判定分析方法、装置及其应用。本发明专利技术提供了一种寄生虫宏基因组测序数据的分析方法,包括如下步骤:S1、获取寄生虫宏基因组测序数据;S2、将所述测序数据按照物种进行匹配,并按照物种获取寄生虫物种reads数集;S3、对所述寄生虫物种reads数集的寄生虫reads序列进行特异性鉴定,获取寄生虫物种特异性和非特异性reads序列集;S4、根据如下公式获取寄生虫物种reads数集的GA‑ratio值、MS‑ratio值、G‑dps值,以及Cro‑S值;S5、根据上述GA‑ratio值、MS‑ratio值、G‑dps值,以及Cro‑S值按照如下任一判断标准过滤假阳性结果,并输出最终结果。

【技术实现步骤摘要】

本专利技术属于寄生虫感染检测领域,具体地,涉及一种寄生虫宏基因组测序数据的假阳性过滤的分析方法、装置及其应用。


技术介绍

1、病原学的精准诊断对于感染性疾病的诊断和治疗具有重要意义。传统的病原学诊断高度依赖于临床医师的经验,通常根据患者的临床表现做出寄生虫的鉴别诊断,针对可疑的寄生虫进行检测,逐一排查;因传统检测方法的局限性往往无法兼顾罕见致病寄生虫和混合感染等情况,而宏基因组第二代测序(metagenomics next generationsequencing,简称mngs)技术可以快速、无偏倚地同时检测多种寄生虫。典型的mngs生物信息学流程由来自原始输入fastq文件的一系列分析步骤组成,包括质量和低复杂性过滤、接头过滤、人类宿主去除、通过与参考数据库比对进行微生物鉴定、可选的序列组装以及在科、属和种的水平上对单个读数和/或连续序列(重叠群)进行分类。

2、宏基因组二代测序技术(metagenomic next generation sequencing)不依赖传统的微生物培养,直接对临床样本中的总核酸进行高通量测序,与数据库进行比对分析,根据比对到的序列信息来判断样本包含的责任病原,但部分病原的检出可能是因为基因组错误的积累或者同源干扰太多、人源序列未滤除干净、高丰度物种由于变异带来的近缘物种序列引入、工程试剂菌污染、噬菌体污染、人工载体污染等等,导致临床假阳性结果的产生。

3、寄生虫(parasite)指具有致病性的低等真核生物,可作为病原体,也可作为媒介传播疾病。寄生虫特征为在宿主或寄主(host)体内或附着于体外以获取维持其生存、发育或者繁殖所需的营养或者庇护的一切生物,其具有一定的传染性,且现有的医疗技术对寄生虫的治疗办法并不太多。因此,需要鉴定传染样本中准确的寄生虫种类,以便为临床诊断和治疗提供支持。

4、因此,本领域需求一种分析方法,其能够对寄生虫的临床fastq数据经比对和种属鉴定后的寄生虫list进行生信假阳结果过滤与筛选,为寄生虫报告的解读工作提供准确与精简的范围,减少非真实物种干扰,降低临床假阳性风险


技术实现思路

1、有鉴于此,第一方面,本专利技术提供一种寄生虫宏基因组测序数据的分析方法,包括如下步骤:

2、s1、获取寄生虫宏基因组测序数据;

3、s2、将所述测序数据按照物种进行匹配,并按照物种获取寄生虫物种reads数集;

4、s3、对所述寄生虫物种reads数集的寄生虫reads序列进行特异性鉴定,获取寄生虫物种特异性和非特异性reads序列集;

5、s4、根据如下公式获取寄生虫物种reads数集的ga-ratio值、ms-ratio值、g-dps值,以及cro-s值:

6、ga-ratio值=单个物种的特异性reads数/同属中最高特异性reads数;

7、ms-ratio值=单个物种非特异性reads数/单个物种特异性reads数;

8、g-dps值=同一物种比对起始位点集合的平均差/同一物种比对起始位点集合的平均值;

9、cro-s值=跨域比对reads数/(跨域比对reads数+非跨域比对reads数);

10、s5、根据上述ga-ratio值、ms-ratio值、g-dps值,以及cro-s值按照如下任一判断标准过滤假阳性结果,并输出最终结果:

11、ga-ratio值≤0.1,

12、ms-ratio值≥10,

13、g-dps值≤0.3,或者

14、cro-s值≥0.7。

15、申请人创造性地发现,通过上述4个公式以及其相应阈值的判断,能够使得输出结果当中的寄生虫的假阳性结果大幅减少。

16、即满足上述4项判断标准中的任意一个,则判断为假阳性结果,予以过滤。

17、进一步地,所述步骤s1还可以包括步骤s1-2:对测序数据进行质控处理。

18、所述质控处理为去除接头序列与低质量序列片段;去除匹配人源基因组的序列;去除短片段、重复片段、低复杂度序列片段。

19、在一些具体的实施方案中,所述s1步骤进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度、序列片段编号、序列比对情况、比对参考序列名称、比对起始位置、比对质量分数、比对结果详情、序列片段碱基信息、序列片段每个碱基质量信息、不同参考基因组的比对结果详情。

20、进一步地,所述步骤s2可选地还包括步骤s2-2:判断所述寄生虫物种是否属于以下物种,若是,则无需进行过滤直接输出至最终结果:

21、恶性疟原虫、刚地弓形虫、广州管圆线虫、日本血吸虫、猪肉绦虫。

22、上述寄生虫物种属于临床上重点关注对象,因此,可以无需过假阳性过滤直接输出至最终结果,便于为临床提供更为详细的参考。

23、进一步地,所述步骤s3的特异性鉴定包括计算如下判断标准:

24、1)所述寄生虫reads序列的碱基错配数;

25、2)所述寄生虫reads序列的碱基匹配度非m之和;

26、3)所述寄生虫reads序列的碱基错配数+碱基匹配度非m之和;以及

27、4)所述寄生虫reads序列仅匹配单个寄生虫物种。

28、在一些具体的实施方案中,所述步骤s3按照如下判断标准进行特异性鉴定:

29、1)所述寄生虫reads序列的碱基错配数≤2;

30、2)所述寄生虫reads序列的碱基匹配度非m之和≤5;

31、3)所述寄生虫reads序列的碱基错配数+碱基匹配度非m之和≤5;以及

32、4)所述寄生虫reads序列仅匹配单个寄生虫物种。

33、即满足上述所有判断标准,则判断为特异性reads。

34、第二方面,本专利技术提供一种寄生虫宏基因组测序数据分析的装置,包括:

35、s1、获取数据模块,用于获取寄生虫宏基因组测序数据;

36、s2、匹配模块,用于将所述测序数据按照物种进行匹配,并按照物种获取寄生虫物种reads数集;

37、s3、特异性鉴定模块,用于对所述寄生虫物种reads数集的寄生虫reads序列进行特异性鉴定,获取寄生虫物种特异性和非特异性reads序列集;

38、s4、计算模块,用于根据如下公式获取寄生虫物种reads数集的ga-ratio值、ms-ratio值、g-dps值,以及cro-s值:

39、ga-ratio值=单个物种的特异性reads数/同属中最高特异性reads数;

40、ms-ratio值=本文档来自技高网...

【技术保护点】

1.一种寄生虫宏基因组测序数据的分析方法,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤S1还可以包括步骤S1-2:对测序数据进行质控处理。

3.根据权利要求2所述的方法,其特征在于,所述步骤S2还包括步骤S2-2:判断所述寄生虫物种属于以下物种,则无需进行过滤直接输出至最终结果:

4.根据权利要求1所述的方法,其特征在于,所述步骤S3的特异性鉴定包括计算如下判断标准:

5.根据权利要求1所述的方法,其特征在于,所述步骤S3按照如下判断标准进行特异性鉴定:

6.一种如权利要求1~5中任一项所述的寄生虫宏基因组测序数据的分析方法在制备寄生虫宏基因组测序数据的分析装置中的应用。

7.一种寄生虫宏基因组测序数据分析的装置,包括:

8.根据权利要求7所述的装置,其特征在于,所述模块S2还包括模块S2-2:判断所述寄生虫物种属于以下物种,则无需进行过滤直接输出至最终结果:

9.一种寄生虫宏基因组测序数据分析的设备,包括:

10.一种存储介质,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现如权利要求1~5中任一项所述的寄生虫宏基因组测序数据的分析方法。

...

【技术特征摘要】

1.一种寄生虫宏基因组测序数据的分析方法,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤s1还可以包括步骤s1-2:对测序数据进行质控处理。

3.根据权利要求2所述的方法,其特征在于,所述步骤s2还包括步骤s2-2:判断所述寄生虫物种属于以下物种,则无需进行过滤直接输出至最终结果:

4.根据权利要求1所述的方法,其特征在于,所述步骤s3的特异性鉴定包括计算如下判断标准:

5.根据权利要求1所述的方法,其特征在于,所述步骤s3按照如下判断标准进行特异性鉴定:

6.一种如权...

【专利技术属性】
技术研发人员:邓小龙李赛杨丽吴康戴立忠
申请(专利权)人:圣湘生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1