一种基于宏基因组的人腺病毒分子分型和溯源方法及系统技术方案

技术编号:28149476 阅读:15 留言:0更新日期:2021-04-21 19:39
本发明专利技术公开了一种基于宏基因组的人腺病毒分子分型和溯源方法及系统,其方法包括:构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列,获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据,利用预设宏基因组测序数据双重比对注释系统分析目标宏基因组数据,确定所述临床样本是否有目标人腺病毒分类单元,当确定临床样本中有目标人腺病毒分类单元时,确定目标人腺病毒分类单元对应的目标关联特征,生成人腺病毒分型鉴定报告。能够对病毒含量偏低的临床感染样本进行人腺病毒的分类单元(亚型/基因型)分型鉴定。型)分型鉴定。型)分型鉴定。

【技术实现步骤摘要】
一种基于宏基因组的人腺病毒分子分型和溯源方法及系统


[0001]本专利技术涉及生物信息
,尤其涉及一种基于宏基因组的人腺病毒分子分型和溯源方法及系统。

技术介绍

[0002]人腺病毒(Human adenovirus,HAdV)属于腺病毒科(Adenoviridae)哺乳动物腺病毒属(Mastadenovirus),基因组全长约34.7kb,属于dsDNA,可感染多种黏膜组织,如胃肠道、呼吸道、泌尿生殖道及眼角结膜等,导致自限性的黏膜感染甚至严重的致死性感染。HAdV表面有3种主要的囊膜蛋白是构成囊膜的重要成分,也是用于诊断的重要抗原。在基因学上,编码这三类蛋白的区域是病毒基因组中变异最大的区域,是人腺病毒基因研究的热点区域。根据血凝、纤维基因长度、基因组GC含量等免疫学、生物学和生物化学特征,人腺病毒分为7个亚型/种:HAdV

A~G,又分为100种以上基因型/血清型。特定的HAdV亚型和基因型与特定的疾病、流行病学环境和人口风险组群相关。HAdV

1~7、11、14、21、35、55均与呼吸道疾病相关,且HAdV

7、35、55致病性较强。HAdV

7可分为多种基因型(如HAdV

7a等),其中7d基因型最常造成严重的感染。HAdV

40、41、52与胃肠炎相关,HAdV

4、8、9、19、37、53、54、56、64与流行性角膜结膜炎相关。对人腺病毒进行分类单元(亚型或基因型)的分型鉴定不仅在临床诊断、治疗和预后,也在监测人腺病毒流行和迁移等公卫领域有着重要的意义。
[0003]目前人腺病毒鉴定和分型方法包括:病毒分离鉴定、免疫学方法、核酸检测以及基于二代测序的扩增子测序、全基因组测序,但这些方法存在病毒培养、对样本的先验认知等局限性,或难以全面覆盖在临床上有重要意义的基因型。近年开始逐渐发展的宏基因组测序技术(Metagenomic sequencing),以特定生境中的整个微生物群落作为研究对象,直接提取临床样本的全部微生物组的核酸进行测序注释和比对分析。该技术弥补了以上方法的不足,无需培养,无需样本的先验知识,较全面的覆盖人腺病毒的各个亚型和基因型,但是目前主要应用于科学研究领域,其策略为测序reads(读序)直接比对参考基因组,基于比对质量(一致性位点百分数和比对reads数)进行分型,但当测序reads较短时,存在假阳性率较高的问题;或者将reads组装为全基因组后比对/进化分析以分型,但需要以样本有较高病毒丰度为前提,不适用于微量/痕量样本的鉴定分型。我国需要更灵敏、更全面的临床重要人腺病毒宏基因组分型技术,对微量/痕量的病毒样本进行亚型和基因型分型鉴定,满足临床人腺病毒诊断、治疗和流行病学病毒溯源的需求。

技术实现思路

[0004]本专利技术提出了一种基于宏基因组的人腺病毒分子分型和溯源方法及系统,用以解决
技术介绍
中提到的目前人腺病毒的宏基因组测序分型需要测序reads较长、样本中病毒含量较高,通过组装、比对策略对病毒进行种水平的注释,且不能提供基因型水平的分型鉴定,故而无法对病毒含量较低的临床样本进行较全面的人腺病毒分型鉴定的问题。
[0005]一种基于宏基因组的人腺病毒分子分型和溯源方法,包括以下步骤:
[0006]构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列;
[0007]获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据;
[0008]利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元;
[0009]当确定所述临床样本中有目标人腺病毒分类单元时,利用预设临床报告系统确定所述目标人腺病毒分类单元对应的目标关联特征,生成人腺病毒分型鉴定报告。
[0010]优选的,所述构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列,包括:
[0011]从NCBI Taxonomy数据库中提取人腺病毒亚型及基因型名称,构建第一人腺病毒分类单元列表;
[0012]按HAdV分型格式标准化分类单元命名,合并不规范的分类单元,建立分型层级分类系统;
[0013]从当前公共数据库中(NCBI GenBank、RefSeq)下载人腺病毒的完整基因序列及注释信息,获得第一基因序列集;
[0014]应用正则公式提取所述完整基因序列的注释信息中分类单元关键字进行序列分类单元注释,并基于分类单元合法性、序列质量合法性进行过滤,获得第二基因序列集;
[0015]将所述第二基因序列集中的序列进行聚类,过滤异常序列,获得第三基因序列集;
[0016]基于所述第三基因序列集中序列的分类单元,获得第一人腺病毒分类单元列表,去除所述第一人腺病毒分类单元列表中缺乏有效参考基因序列的第一分类单元,并补充未纳入的具有有效参考基因序列的第二分类单元,获得第二人腺病毒分类单元列表;
[0017]将所述第三基因序列集的分类单元注释与所述第二人腺病毒分类单元列表进行校对与标准化,获得人腺病毒分型层级中每个层级结构中的分类单元及其基因序列;
[0018]将所述每个层级结构中的人腺病毒分类单元以及基因序列进行存储,并建立人腺病毒分类单元基因参考序列索引,获得目标人腺病毒分型数据库。
[0019]优选的,所述基因序列包括:基因组和标记基因序列。
[0020]优选的,所述利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元,包括:
[0021]将所述目标人腺病毒分型数据库中的基因序列作为参考序列。
[0022]构建将宏基因组数据与参考序列进行比对,确定匹配的参考序列的算法流程;
[0023]确定根据所述匹配的参考序列,基于目标人腺病毒分型数据库中的参考序列索引,确定目标人腺病毒分类单元的匹配流程;
[0024]将所述算法流程和匹配流程构建为宏基因组测序数据双重比对注释系统;
[0025]将将所述目标宏基因组数据输入到所述预设宏基因组测序数据双重比对注释系统,确定所述临床样本是否有目标人腺病毒分类单元。
[0026]优选的,所述算法流程包括:以基因组序列为参考序列的WhScore算法和UniScore
算法流程,和以标记基因序列为参考序列的UniScore算法流程。
[0027]优选的,所述匹配流程包括:应用匹配的基因组参考序列的分类单元确定分型,和应用匹配的标记参考基因序列的分类单元确定分型。
[0028]优选的,所述获取临床样本的宏基因组测序原始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,包括以下步骤:构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列;获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据;利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元;当确定所述临床样本中有目标人腺病毒分类单元时,利用预设临床报告系统确定所述目标人腺病毒分类单元对应的目标关联特征,生成人腺病毒分型鉴定报告。2.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列,包括:从NCBI Taxonomy数据库中提取人腺病毒亚型及基因型名称,建立第一人腺病毒分类单元列表;按HAdV分型格式标准化分类单元命名,合并不规范的分类单元,构建分型层级分类系统;从当前公共数据库中(NCBI GenBank、RefSeq)下载人腺病毒的完整基因序列及注释信息,获得第一基因序列集;应用正则公式提取所述完整基因序列的注释信息中分类单元的关键字进行序列分类单元注释,并基于分类单元合法性、序列质量合法性进行过滤,获得第二基因序列集;将所述第二基因序列集中的序列进行聚类,过滤异常序列,获得第三基因序列集;基于所述第三基因序列集中序列的分类单元,获得第一人腺病毒分类单元列表,去除所述第一人腺病毒分类单元列表中缺乏有效参考基因序列的第一分类单元,并补充未纳入的具有有效参考基因序列的第二分类单元,获得第二人腺病毒分类单元列表;将所述第三基因序列集的分类单元注释与所述第二人腺病毒分类单元列表进行校对与标准化,获得人腺病毒分型层级中每个层级结构中的分类单元及其基因序列;将所述每个层级结构中的人腺病毒分类单元以及基因序列进行存储,并建立人腺病毒分类单元基因参考序列索引,获得目标人腺病毒分型数据库。3.根据权利要求2所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述基因序列包括:基因组和标记基因序列。4.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元,包括:将所述目标人腺病毒分型数据库中的基因序列作为参考序列;构建将宏基因组数据与参考序列进行比对,确定匹配的参考序列的算法流程;确定根据所述匹配的参考序列,基于目标人腺病毒分型数据库中的参考序列索引,确定目标人腺病毒分类单元的匹配流程;将所述算法流程和匹配流程构建为宏基因组测序数据双重比对注释系统;将所述目标宏基因组数据输入到所述预设宏基因组测序数据双重比对注释系统,确定所述临床样本是否有目标人腺病毒分类单元。
5.根据权利要求4所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述算法流程包括:以基因组序列为参考序列的WhScore算法和UniScore算法流程,和以标记基因序列为参考序列的UniScore算法流程。6.根据权利要求4所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述匹配流程包括:应用匹配的基因组参考序列的分类单元确定分型,和应用匹配的标记参考基因序列的分类单元确定分型。7.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据,包括:过滤所述宏基因组原始测序数据中质量值低于2,碱基数占整个read的40%的第一reads;切除所述宏基因组原始测序数据中特定滑窗内平均质量小于20的碱基;过滤所述宏基因组原始测序数据中平均质量小于20的第二reads、含N数量你大于5的第三reads以及长度小于50的第四reads。8.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述当确定所述临床样本中有目标人腺病毒分类单元时,利用预设临床报告系统确定所述目标人...

【专利技术属性】
技术研发人员:夏涵
申请(专利权)人:西咸新区予果微码生物科技有限公司予果智造科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1