【技术实现步骤摘要】
一种基于三代测序技术的宏基因组测序数据的自动化分析方法
本专利技术一般有关三代测序
,具体为一种基于三代测序技术的宏基因组测序数据的自动化分析方法。
技术介绍
基于基因组序列的生物信息学已经应用在生物界的方方面面,从动物、植物再到微生物,人们投入大量资金组织实施着各种基因组计划。测序技术也因此不断更新发展,虽然二代测序在当下使用的更为频繁普遍,但由于其读长太短的特点,使得最终得到的基因组序列缺失大量片段,基因组信息不完整,对于后续的分析造成了很大的困扰。以PacBio公司的SMRT技术和OxfordNanoporeTechnologies公司的纳米孔单分子技术为代表的新一代测序技术被称为第三代测序技术,与前两代测序技术相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增,并且理论上可以测定无限长度的核酸序列。相比于二代测序技术200-500bp的测序读长,三代测序技术的读长可达几十kb,甚至100kb,并且三代测序技术的速度也远远快于二代测序技术。宏基因组是基因组学一个新兴的科学研究方向,宏基因组学的研究对象是整个微生物群落,宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外,微生物通常是以群落方式共生与某一环境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此宏基因组学相比于 ...
【技术保护点】
1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,包括以下步骤:/n1) 对原始测序数据进行质量控制得到clean reads;/n2) 对经过质量控制的clean reads进行拼接组装得到consensus序列;/n3) 对拼接组装得到的consensus序列进行纠错优化;/n4) 对经过纠错优化的consensus进行物种注释;/n5) 基于物种丰度矩阵对样本多样性进行统计分析;/n6) 基于物种丰度矩阵对样本组间差异显著物种进行统计分析;/n7) 对经过纠错优化的consensus进行分箱;/n8) 对分箱得到的bins进行基因注释;/n9) 基于基因丰度矩阵对样本组间差异显著基因进行统计分析;/n10) 基于基因注释的结果,对序列进行功能注释以及物种注释。/n
【技术特征摘要】
1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,包括以下步骤:
1)对原始测序数据进行质量控制得到cleanreads;
2)对经过质量控制的cleanreads进行拼接组装得到consensus序列;
3)对拼接组装得到的consensus序列进行纠错优化;
4)对经过纠错优化的consensus进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的consensus进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。
2.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤1)具体过程如下:
a.根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b.对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过长序列比对,对非微生物DNA进行过滤筛除,得到cleanreads。
3.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤2)具体过程如下:
a、Overlap:对所有cleanreads进行两两比对,找到片段间的重叠信息;
b、Layout:根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群,即contig;
c、在重叠群中寻找一条最优的序列路径,并获得与路径对应的序列,即Consensus。
4.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤3)具体过程如下:
a、将cleanreads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
5.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
6.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。