System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息学分析领域,特别是涉及一种噬菌体介导耐药基因归趋的组学分析方法。
技术介绍
1、噬菌体是一种对细菌感染具有专一性的病毒,并是耐药基因(antibioticresistance genes,args)的重要携带者。它可分为烈性噬菌体和温和噬菌体两大类,其中烈性噬菌体可以裂解耐药菌宿主,导致耐药菌死亡,从而实现对args的衰减或削减;而携带args的温和噬菌体可以将自身携带的args整合到宿主染色体中,实现耐药基因的转导传播。此外,当烈性噬菌体携带args时,又可以通过子代的增殖实现args的富集和传播。因此,病毒对args的归趋具有双重影响(削减和传播),揭示环境中病毒究竟对args的归趋主要是扮演什么角色对args的控制具有重要作用。当前,宏基因组、宏转录组、宏病毒组等组学技术在环境样品的病毒群落和args组成的分析中得到了广泛应用。但仍缺乏将病毒群落和args建立联系的同步分析方法,阻碍了科研人员对病毒群落介导args传播作用的认识。因此,基于组学方法,建立病毒群落与args的同步分析方法,并构建噬菌体与args交互作用网络,明确噬菌体介导args归趋的重要作用,可为环境中args的靶向控制提供方法与技术支撑,具有重要的科学和现实意义。
技术实现思路
1、针对上述问题,本专利技术的目的是提供一种噬菌体介导耐药基因归趋的组学分析方法,首先通过基于读条(reads)的结果注释,揭示样品中的耐药基因(args)的赋存特征;然后通过将读条组装成重叠群(contigs
2、为实现上述目的,本专利技术提供以下技术方案:
3、一方面,本专利技术提供噬菌体介导耐药基因归趋的组学分析方法,其包括以下步骤:
4、1)对宏基因组测序下机后的原始数据(raw data)进行解压和质检分析,获得有效读条并确定样本有效读条数;
5、2)对有效读条进行注释;
6、3)基于有效读条(reads)的注释结果,揭示样品中的耐药基因(args)的赋存特征;
7、4)通过将读条组装成重叠群(contigs),并进行耐药基因的注释和病毒序列的鉴定,揭示可移动耐药基因和病毒群落的赋存特性;
8、5)进一步将重叠群分箱(binning)成基因组草图(metagenome assemblygenomes,mags),并进行物种和耐药基因注释,揭示耐药基因的种水平宿主特征;
9、6)在病毒序列的重叠群水平和菌株的基因组草图水平上建立病毒群落与宿主的交互作用网络,并根据病毒生活方式及其携带的耐药基因与基因组草图携带耐药基因的同源性,明确噬菌体介导的args削减、增殖和转导,并结合病毒在样品中的丰度,定量解析出噬菌体介导的耐药基因归趋。
10、在一些实施方案中,通过使用metawrap软件的qc模块删除读条中包含三个或更多个模糊核苷酸、超过36个碱基的质量得分低于20或存在接头污染的读条,来对其进行质量控制,得到有效读条并确定样本有效读条数。
11、在一些实施方案中,将有效读条分别与耐药基因数据库进行比对和注释,以识别样品中的耐药基因,并通过计算得耐药基因在样品中的相对丰度,从而在读条水平上明确样品中的耐药基因的组成与赋存特征。
12、在一些实施方案中,所述耐药基因数据库选自sarg和card。
13、在一些实施方案中,将每个样品中的有效读条通过metawrap的assmebly模块组装成重叠群,并在重叠群水平上,基于protigal预测序列的开放阅读框,将预测的开放阅读框与sarg和card数据库进行比对,以获得携带耐药基因的重叠群,然后将sarg和card数据库比对结果根据序列相似性100%对耐药基因进行聚类,去除相同的耐药基因序列,以获得耐药基因数据集。
14、在一些实施方案中,识别测序数据中的病毒序列,将长度大于5.0kb的重叠群序列挑选出来,并通过genomad进行分类筛选出病毒序列,删除掉重复序列后,根据序列相似性>95%和比对分数>85%对病毒序列进行聚类,从而获得非冗余的病毒序列数据集及病毒操作分类单位(votu),并将病毒序列数据集与不同功能数据库进行比对注释,获得病毒的功能,包括分类、病毒的生活史、病毒携带的耐药基因和辅助代谢基因。
15、在一些实施方案中,利用majority rule、vcontact2、cat和genomad病毒生物信息学分类方法,解析出携带耐药基因的病毒物种分类,最后,通过计算得到病毒在样品中的丰度,从而明确病毒携带耐药基因的占比、不同的病毒在样品中存在信息(base coverage>=70%),并为后续病毒与宿主关联提供数据支持。
16、在一些实施方案中,采用metabat2、concoct、maxbin2三种分箱软件对每个样品的重叠群进行分箱。
17、在一些实施方案中,将每个样品的重叠群分箱成基因组草图后,合并所有样品的基因组草图,并过滤掉低质量的基因组草图,以得到非冗余的高质量基因组草图;然后,对非冗余的高质量基因组草图进行开放阅读框预测,并基于sarg和card数据库进行注释,同时采用vfdb微生物毒力因子数据库分析,在基因组草图水平上识别耐药菌和致病菌,并通过coverm计算得到基因组草图在样品中的丰度,以明确耐药菌的占比、不同基因组草图在样品中的赋存信息,并为后续病毒与宿主关联提供数据。
18、在一些实施方案中,低质量的基因组草图包括覆盖度小于75%、污染度大于10%的基因组草图。
19、在一些实施方案中,结合crispr cas spacers、trna和序列同源性方法,构建病毒操作分类单位和非冗余高质量基因组草图间的宿主关系,从而确定样品中病毒与宿主交互作用网络。
20、在一些实施方案中,根据构建的病毒与宿主交互作用网络,将噬菌体介导的耐药基因削减、增殖和水平转移区分出来,其中,携带有耐药基因的烈性噬菌体视为介导耐药基因的烈性增殖;未携带有耐药基因的烈性噬菌体且宿主为耐药菌,视为介导耐药基因的削减;当噬菌体与基因组草图携带同源性耐药基因时,视为噬菌体介导耐药基因的水平转移。
21、在一些实施方案中,根据病毒在样品中的丰度,定量解析噬菌体介导耐药基因的削减、增殖和水平本文档来自技高网...
【技术保护点】
1.噬菌体介导耐药基因归趋的组学分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,将有效读条分别与耐药基因数据库进行比对和注释,以识别样品中的耐药基因,并通过计算得耐药基因在样品中的相对丰度,从而在读条水平上明确样品中的耐药基因的组成与赋存特征,所述耐药基因数据库选自SARG和CARD。
3.根据权利要求1或2所述的方法,其特征在于,将每个样品中的有效读条通过MetaWrap的Assmebly模块组装成重叠群,并在重叠群水平上,基于Protigal预测序列的开放阅读框,将预测的开放阅读框与SARG和CARD数据库进行比对,以获得携带耐药基因的重叠群,然后将SARG和CARD数据库比对结果根据序列相似性100%对耐药基因进行聚类,去除相同的耐药基因序列,以获得耐药基因数据集。
4.根据权利要求1-3中任一项所述的方法,其特征在于,识别测序数据中的病毒序列,将长度大于5.0kb的重叠群序列挑选出来,并通过Genomad进行分类筛选出病毒序列,删除掉重复序列后,根据序列相似性>95%和比对分数>85%对病毒序
5.根据权利要求1-4中任一项所述的方法,其特征在于,利用Majority rule、Vcontact2、CAT和Genomad病毒生物信息学分类方法,解析出携带耐药基因的病毒物种分类,最后,通过计算得到病毒在样品中的丰度,从而明确病毒携带耐药基因的占比、不同的病毒在样品中存在信息(base coverage>=70%),并为后续病毒与宿主关联提供数据支持。
6.根据权利要求1-5中任一项所述的方法,其特征在于,采用Metabat2、Concoct、Maxbin2三种分箱软件对每个样品的重叠群进行分箱。
7.根据权利要求6所述的方法,其特征在于,将每个样品的重叠群分箱成基因组草图后,合并所有样品的基因组草图,并过滤掉低质量的基因组草图,以得到非冗余的高质量基因组草图;然后,对非冗余的高质量基因组草图进行开放阅读框预测,并基于SARG和CARD数据库进行注释,同时采用VFDB微生物毒力因子数据库分析,在基因组草图水平上识别耐药菌和致病菌,并通过coverM计算得到基因组草图在样品中的丰度,以明确耐药菌的占比、不同基因组草图在样品中的赋存信息,并为后续病毒与宿主关联提供数据。
8.根据权利要求7所述的方法,其特征在于,结合Crispr Cas spacers、tRNA和序列同源性方法,构建病毒操作分类单位和非冗余高质量基因组草图间的宿主关系,从而确定样品中病毒与宿主交互作用网络。
9.根据权利要求8所述的方法,其特征在于,根据构建的病毒与宿主交互作用网络,将噬菌体介导的耐药基因削减、增殖和水平转移区分出来,其中,携带有耐药基因的烈性噬菌体视为介导耐药基因的烈性增殖;未携带有耐药基因的烈性噬菌体且宿主为耐药菌,视为介导耐药基因的削减;当噬菌体与基因组草图携带同源性耐药基因时,视为噬菌体介导耐药基因的水平转移。
10.根据权利要求5-9中任一项所述的方法,其特征在于,根据病毒在样品中的丰度,定量解析噬菌体介导耐药基因的削减、增殖和水平转移,从而确定噬菌体介导的耐药基因归趋。
...【技术特征摘要】
1.噬菌体介导耐药基因归趋的组学分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,将有效读条分别与耐药基因数据库进行比对和注释,以识别样品中的耐药基因,并通过计算得耐药基因在样品中的相对丰度,从而在读条水平上明确样品中的耐药基因的组成与赋存特征,所述耐药基因数据库选自sarg和card。
3.根据权利要求1或2所述的方法,其特征在于,将每个样品中的有效读条通过metawrap的assmebly模块组装成重叠群,并在重叠群水平上,基于protigal预测序列的开放阅读框,将预测的开放阅读框与sarg和card数据库进行比对,以获得携带耐药基因的重叠群,然后将sarg和card数据库比对结果根据序列相似性100%对耐药基因进行聚类,去除相同的耐药基因序列,以获得耐药基因数据集。
4.根据权利要求1-3中任一项所述的方法,其特征在于,识别测序数据中的病毒序列,将长度大于5.0kb的重叠群序列挑选出来,并通过genomad进行分类筛选出病毒序列,删除掉重复序列后,根据序列相似性>95%和比对分数>85%对病毒序列进行聚类,从而获得非冗余的病毒序列数据集及病毒操作分类单位(votu),并将病毒序列数据集与不同功能数据库进行比对注释,获得病毒的功能,包括分类、病毒的生活史、病毒携带的耐药基因和辅助代谢基因。
5.根据权利要求1-4中任一项所述的方法,其特征在于,利用majority rule、vcontact2、cat和genomad病毒生物信息学分类方法,解析出携带耐药基因的病毒物种分类,最后,通过计算得到病毒在样品中的丰度,从而明确病毒携带耐药基因的占比、不同的病毒在样品中存在...
【专利技术属性】
技术研发人员:张俊亚,唐启河,魏源送,
申请(专利权)人:中国科学院生态环境研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。