当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于三代测序技术的宏基因组测序数据的自动化分析方法技术

技术编号:26847628 阅读:21 留言:0更新日期:2020-12-25 13:12
本发明专利技术公开了一种基于三代测序技术的宏基因组测序数据自动化分析方法,包括以下步骤:1)原始三代测序数据进行质量控制,得到clean reads;2)对clean reads拼接组装得到contigs序列;3)对contigs进行纠错优化;4)对优化后的contigs进行物种注释;5)基于物种丰度矩阵对样本多样性进行统计分析;6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;7)对优化后的contigs进行分箱;8)对分箱得到的bins进行基因注释;9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;10)基于基因注释结果,完成功能注释以及物种注释;本发明专利技术提供了从三代宏基因组测序数据处理到物种组成分析、基因组成分析与功能注释的分析方法,解决了宏基因组数据自动化精准分析难题。

【技术实现步骤摘要】
一种基于三代测序技术的宏基因组测序数据的自动化分析方法
本专利技术一般有关三代测序
,具体为一种基于三代测序技术的宏基因组测序数据的自动化分析方法。
技术介绍
基于基因组序列的生物信息学已经应用在生物界的方方面面,从动物、植物再到微生物,人们投入大量资金组织实施着各种基因组计划。测序技术也因此不断更新发展,虽然二代测序在当下使用的更为频繁普遍,但由于其读长太短的特点,使得最终得到的基因组序列缺失大量片段,基因组信息不完整,对于后续的分析造成了很大的困扰。以PacBio公司的SMRT技术和OxfordNanoporeTechnologies公司的纳米孔单分子技术为代表的新一代测序技术被称为第三代测序技术,与前两代测序技术相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增,并且理论上可以测定无限长度的核酸序列。相比于二代测序技术200-500bp的测序读长,三代测序技术的读长可达几十kb,甚至100kb,并且三代测序技术的速度也远远快于二代测序技术。宏基因组是基因组学一个新兴的科学研究方向,宏基因组学的研究对象是整个微生物群落,宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外,微生物通常是以群落方式共生与某一环境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此宏基因组学相比于做单个个体的研究更能发现其特性。虽然三代测序技术解决了二代测序技术读长短的问题,但其错误率较高,并且有关三代测序技术的分析工具也较少。在宏基因组领域,虽然已经专利技术了一些基于三代测序技术的分析工具,但是一个相对完善的分析流程还未被设计与开发。
技术实现思路
本专利技术的目的在于提供一种基于三代测序技术的宏基因组测序数据的自动化分析方法,以解决上述
技术介绍
中提出的需求。为实现上述目的,本专利技术提供如下技术方案:一种基于三代测序技术的宏基因组测序数据的自动化分析方法,包括以下步骤:1)对原始测序数据进行质量控制得到cleanreads;2)对经过质量控制的cleanreads进行拼接组装得到contigs序列;3)对拼接组装得到的contigs序列进行纠错优化;4)对经过纠错优化的contigs进行物种注释;5)基于物种丰度矩阵对样本多样性进行统计分析;6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;7)对经过纠错优化的contigs进行分箱;8)对分箱得到的bins进行基因注释;9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;10)基于基因注释的结果,对序列进行功能注释以及物种注释。优选的,所述步骤1)具体过程如下:a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到cleanreads。优选的,所述步骤2)具体过程如下:a、对所有cleanreads进行两两比对,找到片段间的重叠信息;b、根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群;c、在重叠群众找一条最优的序列路径,并获得与路径对应的序列,从而得到最终的contigs。优选的,所述步骤3)具体过程如下:a、将cleanreads与拼接组装产生的contigs进行比对对齐;b、根据每个位点的一致性信息进行修正;c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。优选的,所述步骤4)具体过程如下:a、将经过纠错优化的contigs与基因组数据库进行比对;b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;c、对物种丰度进行热图可视化;d、基于物种丰度矩阵,可视化物种相对丰度柱状图;e、将物种进化分支树进行可视化。优选的,所述步骤5)具体过程如下:a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。优选的,所述步骤6)具体过程如下:a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。优选的,所述步骤7)具体过程如下:a、将cleanreads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;b、对上述步骤a分箱结果根据完成度与污染度进行过滤;c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。优选的,所述步骤8)具体过程如下:a、基于动态规划算法对bins进行基因结构预测;b、计算基因丰度矩阵。优选的,所述步骤9)具体过程如下:a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。优选的,所述步骤10)具体过程如下:a、对上述基因结构预测得到的编码基因序列进行去冗余;b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;c、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。与现有技术相比,本专利技术的有益效果是:解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求,为研究人员提供便利。附图说明图1为本专利技术流程图。具体实施方式本文档来自技高网
...

【技术保护点】
1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,包括以下步骤:/n1) 对原始测序数据进行质量控制得到clean reads;/n2) 对经过质量控制的clean reads进行拼接组装得到consensus序列;/n3) 对拼接组装得到的consensus序列进行纠错优化;/n4) 对经过纠错优化的consensus进行物种注释;/n5) 基于物种丰度矩阵对样本多样性进行统计分析;/n6) 基于物种丰度矩阵对样本组间差异显著物种进行统计分析;/n7) 对经过纠错优化的consensus进行分箱;/n8) 对分箱得到的bins进行基因注释;/n9) 基于基因丰度矩阵对样本组间差异显著基因进行统计分析;/n10) 基于基因注释的结果,对序列进行功能注释以及物种注释。/n

【技术特征摘要】
1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,包括以下步骤:
1)对原始测序数据进行质量控制得到cleanreads;
2)对经过质量控制的cleanreads进行拼接组装得到consensus序列;
3)对拼接组装得到的consensus序列进行纠错优化;
4)对经过纠错优化的consensus进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的consensus进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。


2.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤1)具体过程如下:
a.根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b.对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过长序列比对,对非微生物DNA进行过滤筛除,得到cleanreads。


3.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤2)具体过程如下:
a、Overlap:对所有cleanreads进行两两比对,找到片段间的重叠信息;
b、Layout:根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群,即contig;
c、在重叠群中寻找一条最优的序列路径,并获得与路径对应的序列,即Consensus。


4.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤3)具体过程如下:
a、将cleanreads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。


5.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。


6.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述...

【专利技术属性】
技术研发人员:刘健田妹陈娇
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1