一种肠道病毒组的高通量检测方法及应用技术

技术编号:20122757 阅读:33 留言:0更新日期:2019-01-16 12:56
本发明专利技术公开了一种肠道病毒组的高通量检测方法,其中,所述方法以Kraken自带的病毒库(衍生于Refseq的病毒库)为基础,建立现有样本数据库的肠道病毒组分注释平台和肠道病毒组分分析平台,肠道组分分析平台分析肠道组分注释平台获得的数据,并以构建预测模型和肠道病毒数据集,再将高通量测序待测样本的肠道病毒组与预测模型比对,比对结果用于判断宿主的血压与设定阈值对比,对比后概率值最高的一组数据为待测样本的对比结果。本发明专利技术以人类肠道微生物群落里的病毒组作为研究对象,基于微生物组和生物信息学思路,提供一种利用肠道病毒组样本预测高血压的方法,具有周期短、无创取样、通用性高、附加值高等特点。

A High-throughput Detection Method for Enterovirus Group and Its Application

The invention discloses a high-throughput detection method for enterovirus group. The method is based on Kraken's own virus library (derived from Refseq's virus library), establishes an enterovirus Component annotation platform and an enterovirus component analysis platform of the existing sample database, and intestinal component analysis platform to analyze the data obtained by the enterovirus Component annotation platform, and builds a prediction model. Compared with the enterovirus data set, the enterovirus group of the high-throughput sequenced samples was compared with the prediction model. The comparison results were used to judge the blood pressure of the host and to compare the set threshold. The group of data with the highest probability after comparison was the comparison results of the tested samples. Based on the idea of Microbiology and bioinformatics, the invention provides a method for predicting hypertension by using samples of enterovirus group, which has the characteristics of short cycle, non-invasive sampling, high versatility and high added value.

【技术实现步骤摘要】
一种肠道病毒组的高通量检测方法及应用
本专利技术涉及一种肠道病毒组的高通量检测方法,属于微生物组和生物信息学领域。
技术介绍
病毒普遍存在于我们身体和自然环境的微生物群落中,并且具有很高的多样性(Rodriguez-Britoetal.,2010)。它可以通过改变宿主的适应能力和促进遗传物质的交换来改变微生物群落的结构和功能组成(AnderssonandBanfield,2008)。此外,据估计,在人类癌症中,15-20%的癌症是与病毒有关的,如前列腺癌、乳腺癌和脑癌(McLaughlin-DrubinandMunger,2008)。越来越清楚的是,病毒在不同的生态系统中发挥着关键作用,因此快速鉴定人类肠道微生物群落中的病毒是非常有必要的。人类微生物群落由100多万亿个微生物细胞组成,主要存在于肠道并形成大的群落(McKennaetal.,2008;Qinetal.,2010;Glasner,2017),肠道微生物群落是宿主不可分割的一部分。近几十年来,肠道微生物组的潜在作用已经被证实,这表明肠道微生物组的组成对免疫系统有着深远的影响(Hooperetal.,2012),中枢神经系统(Sharon等人,2016年),以及肠道微生物组与各种疾病之间的联系也得到了证实。在这些研究的基础上,发现了一些针对这些疾病的微生物分类生物标记物和功能生物标记物,粪便微生物区系移植正被用作治疗炎症性肠病(IBD)等特定疾病的治疗策略(Andersonetal.,2012)。然而,现有的微生物组研究大多集中在细菌和古细菌上,并过滤了病毒的分类信息,但病毒在塑造人类微生物组和对宿主的资产效应方面发挥了重要作用(Cardingetal.,2017;Nikolich-Zugichetal.,2017)。因此,对微生物群落中的“暗物质”病毒的分析变得至关重要。随着测序技术的发展,高通量测序技术以其通量大和高性价比的优势,使得人们能够对不同类型的样本进行微生物测序,同时也能够对那些99%的不可培养的微生物进行研究,对微生物群落结构的物种组成和功能组成进行高精度解析。随着测序数据的增多,怎么拓展测序数据与临床疾病之间的关联性和增加测序数据的高附加值,变得更为重要。以前高血压的评定,是通过仪器进行测定,比较便捷,但是也存在着不稳定性。其最大的缺点是不能够进行提前预测,而使用病毒和高血压之间的关联性,能够很好的预测宿主是否存在患高血压的风险,具有很好的灵敏性和准确性。因此非常有必要运用微生物组和生物信息学思路,提供一种利用肠道病毒组样本预测高血压的方法。
技术实现思路
针对现有技术存在的上述问题,本专利技术的目的是获得一种肠道病毒组的高通量检测方法。为实现上述专利技术目的,本专利技术采用的肠道病毒组的高通量检测方法的技术方案如下:所述方法以Kraken自带的病毒库(衍生于Refseq的病毒库)为基础,建立现有样本数据库的肠道病毒组分注释平台和肠道病毒组分分析平台,肠道组分分析平台分析肠道组分注释平台获得的数据,并以构建预测模型和肠道病毒数据集,再将高通量测序待测样本的肠道病毒组与预测模型比对,比对结果用于判断宿主的血压与设定阈值对比,对比后概率值最高的一组数据为待测样本的对比结果。现有样本来源于与高血压相关的已经发表文章中的人类肠道微生物宏基因组数据,随着研究的不断深入,现有样本可实时更新。优选的,现有三组样本包括:健康对照样本组、高血压前期样本组和高血压样本组。本专利技术基于已知的宏基因组数据,对三组数据(每组20个样本)进行混合拼装,得到contigs,预测ORF,蛋白,病毒的种类和分类,基于3组样本的病毒组成不同,构建后面比对的数据集和训练模型,新的样本的读段(reads)直接绘制(mapping)到数据集中,在导入到模型中,得到概率值最大的组,就为样本所属的组。所述肠道病毒组分注释平台为对收集到的数据库样本进行处理的平台,所述处理包括:数据质控处理、混合拼装、基因和蛋白质预测、病毒蛋白的鉴定和病毒组分的含量计算。所述肠道病毒组分分析平台为分析数据库中已知样本信息的平台,已构建高血压肠道病毒数据集,所述分析包括:不同组别之间的病毒生物标志物分析,样本的病毒型分析,细菌与病毒之间的网络分析等。分析内容可以根据预测指标的变动而变动,只要分析对象是以平台内的数据为基础,即认为该项分析内容落入本专利技术的分析平台的保护范围之内。肠道病毒组分注释平台和分析平台的建立是为了更好的构建高血压肠道病毒数据集,使用的肠道宏基因组数据组装鉴定出的病毒的序列构建出一个高血压肠道病毒数据集,所述的高血压肠道病毒数据集的构建过程包括:i.对病毒数据样本进行混合拼装,获得长度不低于1000bp的片段;ii.对步骤i中获得的长序列片段进行开放阅读框预测,获得对应的基因序列和蛋白序列;iii.对步骤ii中获得的基因序列和蛋白序列进行去冗余处理,获得非冗余的基因和蛋白数据集;iv.以Kraken自带的病毒库(衍生于Refseq的病毒库)为依据对步骤iii中获得的非冗余基因和蛋白数据集进行鉴定,获得高血压肠道病毒数据集并设为阈值。数据集涉及的数据库为Kraken自带的病毒库(衍生于Refseq的病毒库),涉及的生物信息学软件有MEGAHIT、prodigal、CD-HIT、Kraken、R语言、Bowtie2和metaphlan2等。所述使用的生物信息学数据库,例如Kraken的病毒库,具有针对性和数据量适中的特性,且容易下载和使用,具有低门槛性。使用的生物信息学工具,例如MEGAHIT、prodigal、CD-HIT、Kraken、Bowtie2和metaphlan2,下载,安装和使用都比较容易,具有高效的便捷性。优选的,混合拼装每次进行两组样本,健康对照样本组,高血压前期样本组和高血压样本组一组样本20个。具体的,高血压肠道病毒数据集的构建过程包括如下步骤:通过MEGAHIT对60个样本(健康对照样本组,高血压前期样本组和高血压样本组每组20个样本)进行混合拼装,得到长序列的片段(contigs);通过prodigal软件对这些长序列片段进行开放阅读框架(ORFs)预测,得到对应的基因序列和蛋白序列;通过CD-HIT分别对这些基因和蛋白序列进行去冗余处理,得到非冗余的基因和蛋白数据集;通过Kraken对这些基因和蛋白质数据集进行鉴定,得到高血压肠道病毒数据集。优选的,预测模型的构建采用机器学习中的随机森林方法进行。更优选的预测模型采用R语言进行构建。随机森林模型选择特定的病毒组合作为特征向量,预测结果具有高准确性。在构建好高血压肠道病毒数据集后,对宿主的肠道病毒,也就是未知的肠道病毒进行取样检测,对未知样本利用高通量测序的数据和建立的预测模型,对样本分类进行从头预测并判断其是否高血压和高血压阶段。具体的检测步骤包括提取宿主宏基因组DNA、高通量测序、数据比对和预测结论等步骤。其中,宏基因组DNA为宿主样本中全部的DNA,包括细菌,古菌,病毒等的遗传物质。采用Bowtie2对未知样本的宏基因组DNA进行打断、加接头,进行高通量测序。为了获得高质量的宏基因组数据,测序结果中优选的去除宿主DNA序列。由于以Kraken自带的病毒库(衍生于Refseq的病毒库)为参照依据,因此得到的本文档来自技高网
...

【技术保护点】
1.一种肠道病毒组的高通量检测方法,其特征在于:所述方法以Kraken自带的病毒库为基础,建立现有样本数据库的肠道病毒组分注释平台和肠道病毒组分分析平台,肠道组分分析平台分析肠道组分注释平台获得的数据,并以构建预测模型和肠道病毒数据集,再将高通量测序待测样本的肠道病毒组与预测模型比对,比对结果用于判断宿主的血压与设定阈值对比,对比后概率值最高的一组数据为待测样本的对比结果。

【技术特征摘要】
1.一种肠道病毒组的高通量检测方法,其特征在于:所述方法以Kraken自带的病毒库为基础,建立现有样本数据库的肠道病毒组分注释平台和肠道病毒组分分析平台,肠道组分分析平台分析肠道组分注释平台获得的数据,并以构建预测模型和肠道病毒数据集,再将高通量测序待测样本的肠道病毒组与预测模型比对,比对结果用于判断宿主的血压与设定阈值对比,对比后概率值最高的一组数据为待测样本的对比结果。2.根据权利要求1所述的肠道病毒组的高通量检测方法,其特征在于,所述肠道病毒组分注释平台为对收集到的数据库样本进行处理的平台,所述处理包括:数据质控处理、混合拼装、基因和蛋白质预测、病毒蛋白的鉴定和病毒组分的含量计算。3.根据权利要求1所述的肠道病毒组的高通量检测方法,其特征在于,所述肠道病毒组分分析平台为分析数据库中已知样本信息的平台,已构建高血压肠道病毒数据集,所述分析包括:不同组别之间的病毒生物标志物分析,样本的病毒型分析和细菌与病毒之间的网络分析。4.根据权利要求3所述的肠道病毒组的高通量检测方法,其特征在于,所述的高血压肠道病毒数据集的构建过程包括:i.对病毒数据样本进行混合拼装,获得长度不低于1000bp的片段;ii.对步骤i中获得...

【专利技术属性】
技术研发人员:宁康韩毛振杨朋硕钟朝芳
申请(专利权)人:华中科技大学鄂州工业技术研究院华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1