【技术实现步骤摘要】
一种基于宏基因组的人腺病毒分子分型和溯源方法及系统
[0001]本专利技术涉及生物信息
,尤其涉及一种基于宏基因组的人腺病毒分子分型和溯源方法及系统。
技术介绍
[0002]人腺病毒(Human adenovirus,HAdV)属于腺病毒科(Adenoviridae)哺乳动物腺病毒属(Mastadenovirus),基因组全长约34.7kb,属于dsDNA,可感染多种黏膜组织,如胃肠道、呼吸道、泌尿生殖道及眼角结膜等,导致自限性的黏膜感染甚至严重的致死性感染。HAdV表面有3种主要的囊膜蛋白是构成囊膜的重要成分,也是用于诊断的重要抗原。在基因学上,编码这三类蛋白的区域是病毒基因组中变异最大的区域,是人腺病毒基因研究的热点区域。根据血凝、纤维基因长度、基因组GC含量等免疫学、生物学和生物化学特征,人腺病毒分为7个亚型/种:HAdV
‑
A~G,又分为100种以上基因型/血清型。特定的HAdV亚型和基因型与特定的疾病、流行病学环境和人口风险组群相关。HAdV
‑
1~7、11、14、21、35、55均与呼吸道疾病相关,且HAdV
‑
7、35、55致病性较强。HAdV
‑
7可分为多种基因型(如HAdV
‑
7a等),其中7d基因型最常造成严重的感染。HAdV
‑
40、41、52与胃肠炎相关,HAdV
‑
4、8、9、19、37、53、54、56、64与流行性角膜结膜炎相关。对人腺病毒进行分类单元(亚型 ...
【技术保护点】
【技术特征摘要】
1.一种基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,包括以下步骤:构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列;获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据;利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元;当确定所述临床样本中有目标人腺病毒分类单元时,利用预设临床报告系统确定所述目标人腺病毒分类单元对应的目标关联特征,生成人腺病毒分型鉴定报告。2.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列,包括:从NCBI Taxonomy数据库中提取人腺病毒亚型及基因型名称,建立第一人腺病毒分类单元列表;按HAdV分型格式标准化分类单元命名,合并不规范的分类单元,构建分型层级分类系统;从当前公共数据库中(NCBI GenBank、RefSeq)下载人腺病毒的完整基因序列及注释信息,获得第一基因序列集;应用正则公式提取所述完整基因序列的注释信息中分类单元的关键字进行序列分类单元注释,并基于分类单元合法性、序列质量合法性进行过滤,获得第二基因序列集;将所述第二基因序列集中的序列进行聚类,过滤异常序列,获得第三基因序列集;基于所述第三基因序列集中序列的分类单元,获得第一人腺病毒分类单元列表,去除所述第一人腺病毒分类单元列表中缺乏有效参考基因序列的第一分类单元,并补充未纳入的具有有效参考基因序列的第二分类单元,获得第二人腺病毒分类单元列表;将所述第三基因序列集的分类单元注释与所述第二人腺病毒分类单元列表进行校对与标准化,获得人腺病毒分型层级中每个层级结构中的分类单元及其基因序列;将所述每个层级结构中的人腺病毒分类单元以及基因序列进行存储,并建立人腺病毒分类单元基因参考序列索引,获得目标人腺病毒分型数据库。3.根据权利要求2所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述基因序列包括:基因组和标记基因序列。4.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元,包括:将所述目标人腺病毒分型数据库中的基因序列作为参考序列;构建将宏基因组数据与参考序列进行比对,确定匹配的参考序列的算法流程;确定根据所述匹配的参考序列,基于目标人腺病毒分型数据库中的参考序列索引,确定目标人腺病毒分类单元的匹配流程;将所述算法流程和匹配流程构建为宏基因组测序数据双重比对注释系统;将所述目标宏基因组数据输入到所述预设宏基因组测序数据双重比对注释系统,确定所述临床样本是否有目标人腺病毒分类单元。
5.根据权利要求4所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述算法流程包括:以基因组序列为参考序列的WhScore算法和UniScore算法流程,和以标记基因序列为参考序列的UniScore算法流程。6.根据权利要求4所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述匹配流程包括:应用匹配的基因组参考序列的分类单元确定分型,和应用匹配的标记参考基因序列的分类单元确定分型。7.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据,包括:过滤所述宏基因组原始测序数据中质量值低于2,碱基数占整个read的40%的第一reads;切除所述宏基因组原始测序数据中特定滑窗内平均质量小于20的碱基;过滤所述宏基因组原始测序数据中平均质量小于20的第二reads、含N数量你大于5的第三reads以及长度小于50的第四reads。8.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述当确定所述临床样本中有目标人腺病毒分类单元时,利用预设临床报告系统确定所述目标人...
【专利技术属性】
技术研发人员:夏涵,
申请(专利权)人:西咸新区予果微码生物科技有限公司予果智造科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。