一种基于二代测序技术的高通量预测噬菌体宿主的分析方法技术

技术编号:36500626 阅读:11 留言:0更新日期:2023-02-01 15:22
本发明专利技术公开了一种基于二代测序技术的高通量预测噬菌体宿主的分析方法,包括对测序数据分别进行质量控制,得到细菌的clean reads和病毒的clean reads,对质控后的细菌数据进行组装得到细菌contigs序列,对细菌contigs序列进行分箱,得到bins,bins进行质控和去冗余,得到非冗余的高质量宏基因组组装基因组(MAGs)并对其进行物种注释。对质控后的病毒clean reads进行组装得到病毒contigs序列,对病毒序列进行质控得到高质量的病毒contigs并对其进行噬菌体的物种注释,最后预测噬菌体及其宿主,并对预测结果进行精准性评估。本发明专利技术提出了可靠的基于二代测序技术的高通量预测噬菌体宿主的分析方法,其实现方法简单,应用范围广泛。范围广泛。范围广泛。

【技术实现步骤摘要】
一种基于二代测序技术的高通量预测噬菌体宿主的分析方法


[0001]本专利技术涉及二代测序
及噬菌体宿主预测领域,具体为一种基于二代测序技术的高通量预测噬菌体宿主的分析方法。

技术介绍

[0002]2005年,罗氏推出了第一款二代测序仪罗氏454,生命科学开始进入高通量测序时代。后续随着Illumina系列测序平台的推出,极大降低了二代测序的价格,推动了高通量测序在生命科学各个研究领域的普及。虽然三代测序技术已经诞生,但是受限于高昂的测序成本和不完善的分析软件,目前二代测序依然是最主流的一种常规研究方法,被广泛应用在科研工作中。第二代测序(Next

generation sequencing,NGS)又称为高通量测序(High

throughput sequencing),是基于PCR和基因芯片发展而来的DNA测序技术,其开创性的引入了可逆终止末端,从而实现边合成边测序(Sequencing by Synthesis)。由于在二代测序中,单个DNA分子必须扩增成由相同DNA组成的基因簇,然后进行同步复制,来增强荧光信号强度从而读出DNA序列;而随着读长增长,基因簇复制的协同性降低,导致碱基测序质量下降,这严格限制了二代测序的读长(50~250bp,最长不超过500bp),因此,二代测序具有通量高、读长短的特点。
[0003]由于测序技术的飞速发展,相继产生了宏基因组学和病毒宏基因组学,其研究对象主要是微生物群落的细菌和病毒、类似物及其所携带的遗传信息。传统的微生物研究依赖于实验室培养,宏基因组学和病毒宏基因组学的兴起填补了无法在实验室培养的微生物研究的空白。噬菌体是一类可以侵袭细菌且导致其裂解的病毒,是地球生物圈最丰富的生物种类;作为一种可移动遗传元件,还可将遗传物质在细菌之间传播。因此,噬菌体在调节细菌的生物量、维持生物多样性、基因水平转移以及整个生物圈内的生物化学循环都有着重要作用。噬菌体的宿主范围非常窄小,通常具有特异性,主要在属或者种水平,因此可用于菌群的精准调控。研究噬菌体和菌群相互作用即噬菌体的宿主,更容易发现对健康和疾病有重要作用的菌株,为疾病治疗、药物开发提供新靶点和新工具。
[0004]针对噬菌体宿主预测的工具层出不穷,其侧重点均有不同,各有优劣,预测结果常常大相径庭。如何有效评估筛选多种预测结果进而得到更为精准的噬菌体和宿主相互作用关系,是生物信息领域一直关注并竭力解决的关键问题。虽然基于二代测序技术的单独宏基因组或病毒组分析均已比较成熟,但是如何节约科研成本,高效利用一套测序数据,同时完成细菌和病毒的基因组组装,并评估筛选更为精准的两者相互作用关系已经成为迫切需求。

技术实现思路

[0005]本专利技术的目的在于提供一种基于二代测序技术的高通量预测噬菌体宿主的分析方法,本专利技术提供了从二代测序数据得到噬菌体和细菌基因组并精准评估噬菌体宿主的全部流程,使得研究人员高效利用一套测序数据就能得到更全面的分析结果,也让非生物信
息专业的科研人员独立完成高通量测序数据的分析。达到优化科研人员的工作效率,提高二代测序数据的重新再利用,降低科研成本的目的。本专利技术提出了可靠的基于二代测序技术的高通量预测噬菌体宿主的分析方法,其实现方法简单,应用范围广泛;以解决现有技术中存在的同时完成细菌和病毒的基因组组装的技术问题。
[0006]根据本专利技术的目的,提供了一种基于二代测序技术的高通量预测噬菌体宿主的分析方法,包括以下步骤:
[0007](1)对原始测序数据进行质量控制、过滤、拼接组装、分箱和去冗余,得到非冗余的细菌微生物组装基因组MAGs;
[0008]步骤(1)中所述的去冗余得到MAGs,具体步骤为:
[0009]S1:过滤长度<50kb的基因组;
[0010]S2:基于原核生物的动态编程基因查找算法识别MAGs中的基因,并翻译出相应的蛋白质序列;
[0011]S3:利用基因的单拷贝性来有效的比对基因组完整度和污染度,过滤序列完整度<80%或污染度>10%的低质量细菌基因组;
[0012]S4:通过基因组距离和平均核苷酸同一性进行初级和次级聚类,选取同一簇内的最长基因组为最优基因组;
[0013](2)从步骤(1)中得到的细菌基因,使用隐马尔可夫模型识别出单拷贝标记基因并构建进化树,最后与已知的细菌和古细菌进化树相比进行物种注释;
[0014](3)对原始测序数据进行质量控制、过滤、拼接组装,得到病毒contigs序列,对病毒contigs进行质控得到高质量的病毒contigs;
[0015]步骤(3)中所述的对病毒contigs进行质控分析,具体步骤为:
[0016]S1:过滤长度<1.5kb的contigs;
[0017]S2:将序列与病毒基因组进行比较来估计完整性,0~5%错误匹配的被认为高质量contig,5~10%错误匹配的是中等质量contig,大于10%的错误匹配是低质量contig需要被过滤,最终保留高、中等质量的病毒contigs;
[0018](4)计算病毒contigs的平均核苷酸一致性ANI,保留ANI>95%的contigs,通过contigs的氨基酸水平的基因与TrEMBL数据库中的病毒子集进行比较,从而对病毒进行family水平的物种注释,基于K

mer特征通过监督机器学习方法进行genus水平的物种注释,最后依据病毒的family和genus水平的注释结果,从已知的taxonomy库完善病毒contigs的其他分类水平注释;
[0019](5)基于细菌MAGs和病毒contigs采用至少三种不同的方法预测噬菌体宿主,并对预测结果从纯净度purity指标和一致性agreement指标进行精准性评估;
[0020]步骤(5)中所述的预测噬菌体宿主的方法包括从以下四种方法中任选三种方法或采用以下四种方法:
[0021]方法1:基于CRISPR

Cas系统的噬菌体及其宿主关系预测方法;
[0022]方法2:基于序列相似性的比对以及遗传特征的机器学习分类从细菌基因组预测活性噬菌体方法;
[0023]方法3:基于动态规划算法的的噬菌体宿主预测方法;
[0024]方法4:基于病毒及其宿主寡核苷酸频率预测噬菌体宿主的方法;
[0025]步骤(5)中所述的精准性评估,具体步骤为:
[0026]S1:纯净度purity指标评估:该指标为衡量单个预测噬菌体宿主一致性的评估指标;提取一个病毒的宿主,在不同的物种水平统计最常见宿主的比例,具体计算公式为:
[0027][0028]假设有n个病毒contigs,某一contig的预测宿主有N个,其中,i∈(1,n),j∈(1,N),r∈(1,7),V
ir
表示第i个病毒的第r个物种水平的第j个宿主的比例,m
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于二代测序技术的高通量预测噬菌体宿主的分析方法,其特征在于,包括以下步骤:(1)对原始测序数据进行质量控制、过滤、拼接组装、分箱和去冗余,得到非冗余的细菌微生物组装基因组MAGs;步骤(1)中所述的去冗余得到MAGs,具体步骤为:S1:过滤长度<50kb的基因组;S2:基于原核生物的动态编程基因查找算法识别MAGs中的基因,并翻译出相应的蛋白质序列;S3:利用基因的单拷贝性来有效的比对基因组完整度和污染度,过滤序列完整度<80%或污染度>10%的低质量细菌基因组;S4:通过基因组距离和平均核苷酸同一性进行初级和次级聚类,选取同一簇内的最长基因组为最优基因组;(2)从步骤(1)中得到的细菌基因,使用隐马尔可夫模型识别出单拷贝标记基因并构建进化树,最后与已知的细菌和古细菌进化树相比进行物种注释;(3)对原始测序数据进行质量控制、过滤、拼接组装,得到病毒contigs序列,对病毒contigs进行质控得到高质量的病毒contigs;步骤(3)中所述的对病毒contigs进行质控分析,具体步骤为:S1:过滤长度<1.5kb的contigs;S2:将序列与病毒基因组进行比较来估计完整性,0~5%错误匹配的被认为高质量contig,5~10%错误匹配的是中等质量contig,大于10%的错误匹配是低质量contig需要被过滤,最终保留高、中等质量的病毒contigs;(4)计算病毒contigs的平均核苷酸一致性ANI,保留ANI>95%的contigs,通过contigs的氨基酸水平的基因与TrEMBL数据库中的病毒子集进行比较,从而对病毒进行family水平的物种注释,基于K

mer特征通过监督机器学习方法进行genus水平的物种注释,最后依据病毒的family和genus水平的注释结果,从已知的taxonomy库完善病毒contigs的其他分类水平注释;(5)基于细菌MAGs和病毒contigs采用至少三种不同的方法预测噬菌体宿主,并对预测结果从纯净度purity指标和一致性agreement指标进行精准性评估;步骤(5)中所述的预测噬菌体宿主的方法包括从以下四种方法中任选三种方法或采用以下四种方法:方法1:基于CRISPR

Cas系统的噬菌体及其宿主关系预测方法;方法2:基于序列相似性的比对以及遗传特征的机器学习分类从细菌基因组预测活性噬菌体方法;方法3:基于动态规划算法的的噬菌体宿主预测方法;方法4:基于病毒及其宿主寡核苷酸频率预测噬菌体宿主的方法;步骤(5)中所述的精准性评估,具体步骤为:S1:纯净度purity指标评估:该指标为衡量单个预测噬菌体宿主一致性的评估指标;提取一个病毒的宿主,在不同的物种水平统计最常见宿主的比例,具体计算公式为:
假设有n个病毒contigs,某一contig的预...

【专利技术属性】
技术研发人员:陈卫华吴英健高娜
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1