System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息领域,具体涉及基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的方法、系统及设备。
技术介绍
1、微生物与人类的关系复杂而密切。微生物可以是引起疾病的病原体,如细菌和病毒。然而,大多数微生物对人类是有益的,它们在食品生产(如发酵)、医药(如抗生素的生产)、环境保护(如污水处理)等方面发挥着重要作用。不同微生物通过其不同的基因序列发挥不一样的生物学功能。通过测序的手段,目前可以大规模地检测微生物基因,从而深入理解其作用机制和意义。
2、单细胞微生物基因组技术(microbe-seq)是使用单细胞测序的方法,高通量检测单个微生物的全部基因序列的技术手段,在2022年发表于science(wenshan zheng etal.,high-throughput, single-microbe genomics with strainresolution, appliedto a human gut microbiome.science376,eabm1483(2022). doi:10.1126/science.abm1483)。该技术利用多种液滴微流控操作技术结合生物信息学分析手段,不需要培养即可从复杂微生物群落中获取成千上万个单细胞微生物的基因组信息,并根据单细胞微生物基因组测序结果中的每个液滴中微生物的read高效地区分相似物种、通过单个微生物的突变区分菌株、检测微生物与病毒的互作以及发现微生物群体中的水平基因转移事件。相较于以往的微生物基因组检测技术,单细胞微生物基因组技术在通量和分辨
3、基于微流控技术的单细胞转录组测序能够利用微小尺度的管道和控制系统,对单个细胞进行高效、精确的操作和分析。例如,以油包水的微反应体系为原理的10x genomicschromium平台被广泛应用,通过对单细胞进行捕获、溶解、反应和测序等步骤,实现对单个细胞的转录组分析。在工作流程上,10xgenomics chromium平台首先使用微流控芯片捕获单个细胞,确保每个细胞被分离并固定在特定位置,再对每个单细胞进行细胞裂解,提取rna,并合成cdna,对合成的cdna进行扩增建库,并添加barcode标签和unique molecularidentifier(umi)序列,然后进行高通量测序,对sag(single-amplifiedgenome,指一个液滴内单个微生物测序序列的集合)内read进行组装、分析,分析内容包括基因表达水平、细胞类型鉴定、群体结构分析等。
4、然而,基于微流控法的单细胞测序方法因其技术特点,不可避免的引入两种污染:(1)背景污染,表现为来自某物种的read因流道污染、液滴破裂等因素无特异性地均匀分布在所有的液滴中,这部分背景read会组装成长度较短且覆盖度较低的contig;(2)多胞污染,表现为一个液滴中包裹了两个或两个以上的细胞。这两种污染均会影响组装效果,需要在分析过程中尽可能除去。
5、在现有技术中,郑文山博士等人在文章(wenshan zheng et al.,high-throughput, single-microbe genomics with strain resolution, applied to ahuman gutmicrobiome.science376,eabm1483(2022). doi:10.1126/science.abm1483)中也提供了如何基于单细胞微生物测序数据去除多胞污染以及背景污染的算法。其中,因为由背景read组装而成的contig通常具有较低的覆盖度和长度,故该方法是按照固定经验阈值去除一定长度以下的contig。再对剩下的contig的覆盖度计算概率密度分布,用多正态分布拟合该概率密度分布,计算得到来自非污染conitg的主峰以及污染contig的污染峰,按照峰的位置计算覆盖度阈值,去除该阈值以下覆盖度的contig。
6、然而,上述的去除背景污染的方法仍存在以下问题。首先,该方法是按照固定经验阈值对contig的长度进行过滤的,因此,无法自动计算contig长度阈值,从而无法进行高通量过滤。其次,contig的覆盖度概率密度可能不呈现正态分布,因此覆盖度的概率密度可能呈现多个不明显的峰,从而可能无法按照峰的位置计算覆盖度阈值,使得覆盖度阈值可靠性不高。
技术实现思路
1、为了解决现有技术去除单细胞微生物基因组物种组装结果中背景污染过程中存在的(1)无法自动计算contig长度阈值;(2)contig覆盖度阈值可靠性不高的问题,本专利技术提供了一种基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的方法、系统及设备。
2、本专利技术采用的技术方案是:基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的方法,包括:依次去除bin内多胞污染、背景污染;
3、其中,去除bin内背景污染的方法包括:
4、组装去除多胞污染的bin,对获得的去除多胞污染的组装结果进行评估,获得bin的特征基因集,基于特征基因集确定bin的分类信息、参考特征序列;其中,所述特征基因集由具有特征序列的特征基因构成;
5、设定去除多胞污染的组装结果中contig的长度搜索边界、长度搜索步长、覆盖度搜索边界、覆盖度搜索步长,再逐步搜索contig的假设长度阈值、假设覆盖度阈值;
6、将不同的假设长度阈值、假设覆盖度阈值进行组合,构成若干清理阈值,分别根据不同清理阈值对去除多胞污染的组装结果中具有特征序列的contig进行过滤,获得保留contig;根据bin的参考特征序列以及分布于保留contig中的特征序列,评估各清理阈值下去除多胞污染的组装结果的完整度、污染度;以完整度、污染度为指标对各清理阈值下去除多胞污染的组装结果进行质量评级,根据质量评级选取最佳的清理阈值;
7、根据最佳的清理阈值重新对去除多胞污染的组装结果中contig进行过滤,获得去除多胞污染、背景污染的组装结果。
8、特征基因集(marker gene set),是指物种基因组中一组非冗余且保守的特征基因(marker gene)集合,而一个特征基因具有多个特征序列(marker feature)。在完整且无污染的单细胞微生物基因组组装结果序列中,特征基因均出现且只出现一次。因此,本专利技术利用特征基因在物种基因组中的出现规律,提出了一种全新的去除单细胞微生物基因组物种组装结果中背景污染的方法。首先利用checkm软件对去除多胞污染的组装结果进行评估,获得该bin的特征基因集,并根据特征基因集获得bin的物种分类信息以及对应物种的特征序列。利用不同的假设长度阈值、假设覆盖度阈值组合分别对去除多胞污染的组装结果中contig进行过滤,再根据bin的参考特征序列种类、保留contig中的特征序列的种类以及重复种类对不同组合下获得的组装结果的完整度与本文档来自技高网...
【技术保护点】
1.基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的方法,其特征在于,包括:依次去除Bin内多胞污染、背景污染;
2.如权利要求1所述的方法,其特征在于,所述去除Bin内多胞污染的方法包括:
3.如权利要求2所述的方法,其特征在于,所述终止条件为以下(1)~(3)中的任意一种:
4.如权利要求1所述的方法,其特征在于,
5.如权利要求1所述的方法,其特征在于,所述根据Bin的参考特征序列、保留contig的特征序列,评估该清理阈值下去除多胞污染的组装结果的完整度、污染度的方法包括:
6.如权利要求1所述的方法,其特征在于,以完整度、污染度为指标对各清理阈值下去除多胞污染的组装结果进行质量评级,根据质量评级选取最佳的清理阈值的方法包括:
7.如权利要求6所述的方法,其特征在于,所述各清理阈值下去除多胞污染的组装结果分别与预设的理想点、高质量点、中质量点的距离的计算方式为:
8.如权利要求1所述的方法,其特征在于,还包括:
9.基于分类特征基因集去除单细胞微生物基因组物种组装结
10.基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的设备,其特征在于,包括处理器和存储器;所述处理器与存储器通过通信总线相连接;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序至少用于执行权利要求1~8中任一所述的基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的方法。
...【技术特征摘要】
1.基于分类特征基因集去除单细胞微生物基因组物种组装结果中污染的方法,其特征在于,包括:依次去除bin内多胞污染、背景污染;
2.如权利要求1所述的方法,其特征在于,所述去除bin内多胞污染的方法包括:
3.如权利要求2所述的方法,其特征在于,所述终止条件为以下(1)~(3)中的任意一种:
4.如权利要求1所述的方法,其特征在于,
5.如权利要求1所述的方法,其特征在于,所述根据bin的参考特征序列、保留contig的特征序列,评估该清理阈值下去除多胞污染的组装结果的完整度、污染度的方法包括:
6.如权利要求1所述的方法,其特征在于,以完整度、污染度为指标对各清理阈值下去除多胞污染的组装结果进行质量评级,根据质量评级选取最...
【专利技术属性】
技术研发人员:巢杉,
申请(专利权)人:墨卓生物科技浙江有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。