一种大肠杆菌多糖抗原结构数据库及其在线分析平台制造技术

技术编号:35857376 阅读:15 留言:0更新日期:2022-12-07 10:45
本发明专利技术提供了一种大肠杆菌多糖抗原结构数据库及其在线分析平台(EcoSP)。通过汇总和分析大肠杆菌各抗原分型与多糖抗原结构、合成基因簇、多糖合成信息、单糖合成通路、菌株基因组和菌株名称的对应关系,构建了大肠杆菌多糖抗原结构数据库。并在数据库基础上,开发了可用于大肠杆菌多糖抗原信息检索和分型分析的在线平台(EcoSP)。EcoSP可快速浏览和检索大肠杆菌多糖抗原结构数据,包括186个O抗原分型和68个K抗原分型的多糖结构和多糖、单糖合成信息,同时可对提交的大肠杆菌基因组进行快速分型分析,对临床诊断、微生物资源开发、疫苗研发和流行病学调查等领域具有重要意义。和流行病学调查等领域具有重要意义。和流行病学调查等领域具有重要意义。

【技术实现步骤摘要】
一种大肠杆菌多糖抗原结构数据库及其在线分析平台


[0001]本专利技术涉及流行病学调查和疫苗研发等领域,主要是大肠杆菌O抗原和K抗原结构信息数据库和可供浏览、检索和分析的在线平台。

技术介绍

[0002]大肠杆菌(Escherichia coli)是条件致病菌,可引起人和动物感染性疾病,如大肠杆菌菌株O104:H4在2011年引发德国严重的食源性疾病爆发。表面多糖抗原,是大肠杆菌重要的毒力因子,也是药物、疫苗或诊断试剂研发的重要靶点。
[0003]大肠杆菌表面多糖抗原,主要包括O抗原(细胞壁脂多糖)和K抗原(荚膜多糖),具有致病性和高度的免疫原性。尤其是多变性的O抗原,是血清型分型的主要基础,O抗原分型可作为流行病调查和监测的基本工具。O抗原和K抗原,是由多个寡糖重复单元(O单元或K单元)组成,每个单元由数个糖基及糖基衍生物组成。大肠杆菌各O抗原或K抗原分型或亚群(subgroup),对应特异的多糖抗原结构和合成基因簇,其合成基因簇包括单糖合成基因、糖基转移酶和单元加工基因。
[0004]大肠杆菌的O抗原和K抗原的多糖结构、多糖合成信息、单糖合成通路和基于基因组的抗原分析,是目前疫苗研发、糖生物学合成、流行病学调查等研究的重要基础。已发布的大肠杆菌O抗原数据库ECODAB (www.casper.organ.su.se/ECODAB/),整理了大肠杆菌O抗原分型的抗原结构和部分糖基转移酶信息。EK3D数据库(www.iith.ac.in/EK3D/),整理公布了大肠杆菌K抗原结构信息,包括三维结构。以上报道的数据库,呈现了多糖抗原结构图和合成基因簇等信息,但是目前仍然存在以下不足之处:1)缺乏整合的大肠杆菌抗原结构数据库平台,无法快速浏览和检索O抗原和K抗原结构和准确的合成基因簇序列信息;2)缺乏可快速检索大肠杆菌抗原结构中多糖合成、单糖合成通路信息的数据库平台;3)缺乏可用于快速检索已发表大肠杆菌菌株抗原分型、且可对未知分型大肠杆菌基因组进行分型和功能注释的数据库平台。

技术实现思路

[0005]为了克服现有数据库平台的不足,本专利技术提供了大肠杆菌多糖抗原结构数据库及分析平台。
[0006]一种大肠杆菌多糖抗原结构数据库,构建步骤如下:1)大肠杆菌基因组获取、质控和分析1.1)从公共数据库(NCBI RefSeq),下载所有已发表大肠杆菌基因组序列;1.2)对已下载的基因组进行质量评估,采用FastANI软件(version1.3.3)计算各下载基因组与大肠杆菌模式菌株基因组的平均核苷酸相似性(Average Nucleotide Identity,ANI),同时采用checkM软件计算基因组完整性、污染率和异质性,采用Perl语言
自编写程序计算基因组Contig或Scaffold数目;1.3)根据计算和统计结果,仅保留高质量菌株基因组序列,去除命名错误、低质量基因组,1.3.1)去除与模式菌株基因组ANI值小于94%的基因组;1.3.2)去除污染率大于5%的基因组;1.3.3)去除完整率小于85%的基因组;1.3.4)去除基因组Contig或Scaffold数目大于500的基因组;1.4)采用自编写Perl程序,对所有基因组进行抗原分型分析:1.4.1)下载大肠杆菌O抗原和H抗原分型基因簇序列,作为分型DNA参考序列;1.4.2)采用Blast+(2.11.0)软件,将大肠杆菌基因组序列比对到参考序列;1.4.3)对比对结果的相似性和覆盖度进行筛选,生成抗原分型结果;1.4.4)整理各抗原分型和对应的菌株基因组信息。
[0007]2)大肠杆菌多糖抗原信息收集2.1)根据已发表的文献资料,下载、收集大肠杆菌186个O抗原分型(或亚群)和68个K抗原分型对应的最初发表多糖结构信息、合成基因簇信息,校正现有文献中引用有误的分型结构信息;2.2)根据已发表的文献资料,搜集并整合大肠杆菌O抗原和K抗原涉及的多糖合成信息,包括多糖重复单元中关键基因(糖基转移酶和聚合酶)、供体糖和受体糖信息;采用CSDB/SFNG和SVG工具绘制254个抗原多糖的化学结构图(Chemical representation),统一格式图示化展示和抗原的多糖单元结构和合成关键酶基因;绘制各抗原合成基因簇功能结构图,按照功能分类图示化呈现功能基因结构;2.3)根据已发表文献资料,整合大肠杆菌多糖抗原中的单糖合成通路信息,按照反应步骤整理单糖合成反应信息表格,包括合成关键基因、反应前体、反应产物和合成通路类型等信息,并采用SVG绘制39条单糖合成通路图。
[0008]3)整合上述大肠杆菌基因组、多糖抗原结构和合成通路信息,构建EcoSP

Db数据库,用于存储大肠杆菌多样抗原结构数据,包括抗原分型、多糖抗原结构、合成通路和对应的大肠杆菌基因组数据,共计是254个抗原分型对应的39条单糖合成通路、911条多糖合成信息和7741个高质量基因组信息。
[0009]一种大肠杆菌多糖抗原结构数据在线分析平台,构建和应用步骤如下:1)抗原分型浏览模块大肠杆菌多糖抗原结构数据浏览模块,呈现186个O抗原和68个K抗原分型列表,点击任一抗原分型名称,反馈抗原分型对应的多糖抗原单元结构图、合成基因簇结构图和序列、以及对应已发表的菌株信息至用户。
[0010]2)抗原分型检索模块用于在EcoSP

Db数据库中对用户输入的大肠杆菌菌株号或抗原分型名称进行检索,若检索到与用户输入的菌株名称或菌株基因组序列号,则反馈出该菌株对应的抗原分型、多糖抗原结构信息和合成基因簇功能结构及序列信息,同时反馈该菌株基因组的多糖合成相关基因(糖基转移酶和聚合酶)的功能注释信息;如检索用户输入的抗原分型信息,匹配数据库成功后,则反馈出该抗原分型对应的多糖抗原结构、合成基因簇和已发表菌株
信息。
[0011]3)多糖合成信息检索模块用于在EcoSP

Db数据库中对用户输入的多糖合成相关信息进行检索,如单糖名称、糖苷键类型,若检索到用户输入信息,可反馈检索相应的大肠杆菌中已知的多糖合成信息,包括抗原分型、菌株信息、糖苷键、糖苷键类型、聚合酶、糖基转移酶、供体糖或受体糖。
[0012]4)单糖合成通路检索模块用于在EcoSP

Db数据库中对用户输入的单糖名称进行检索,若检索到用户输入的单糖信息,可反馈出单糖一个或多个合成通路,包括每一步反应信息的反应前体、反应产物、关键基因、抗原分型、已发表菌株基因组、单糖合成分类和合成通路图。
[0013]5)用户数据上传模块用于用户在线提交大肠杆菌菌株基因组序列(Fasta格式文件),同时可输入用户邮箱名称,用以接收分析结果。
[0014]6)分析模块用于对用户提交上传的大肠杆菌基因组序列进行抗原分型分析,后台程序(eco

TYPEtool)分析完成后,反馈用户分型结果表格。
[0015]6.1)获取文献中的大肠杆菌O抗原和H抗原合成基因簇和注释信息,转换为可识别的大肠杆菌分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大肠杆菌多糖抗原结构数据库,其特征在于,构建的步骤如下:S1 大肠杆菌高质量菌株基因组获取和分析S1

1: 从公共数据库NCBI下载所有已发表的大肠杆菌基因组序列;S1

2:对已下载的基因组进行评估分析,包括基于基因组的菌种鉴定和基因组完整性、污染率评估;S1

3:过滤掉低质量、命名错误的大肠杆菌菌株基因组,筛选高质量菌株基因组;S1

4:对大肠杆菌高质量菌株基因组进行分型和注释分析;S2 大肠杆菌多糖抗原结构数据库(EcoSP

Db)构建S2

1 根据已发表的文献资料,收集并校正大肠杆菌186个O抗原分型和68个K抗原分型对应的多糖结构、合成基因簇序列和基因功能信息;S2

2 根据文献资料,收集并整合大肠杆菌O抗原和K抗原中的多糖合成信息,包括供体糖和受体糖信息,多糖重复单元中关键基因糖基转移酶和聚合酶;S2

3 绘制多糖抗原O单元结构图、K单元结构图和合成基因簇功能结构图;统一格式图示化展示;S2

4 根据已发表文献资料,收集并整合大肠杆菌多糖抗原中单糖合成通路39条,并绘制单糖合成通路图;分步骤展示合成信息,包括单糖合成反应序号、合成关键基因、反应前体、反应产物、最终产物、合成通路类型和通路图,涉及156个单糖合成基因、91条单糖反应信息和26个单糖;S2

5 汇总254个抗原分型与对应的多糖结构、合成基因簇功能结构、多糖合成、单糖合成通路和S1中高质量菌株基因组映射关系,构建大肠杆菌多糖抗原结构数据库(EcoSP

Db)。2.根据权利要求1所述的大肠杆菌多糖抗原结构数据库,其特征在于,对下载的大肠杆菌基因组序列,采用FastANI软件计算各下载基因组与大肠杆菌模式菌株基因组的平均核苷酸相似性(Average Nucleotide Identity,ANI),同时采用checkM软件计算基因组完整性、污染率和异质性,采用Perl语言自编写程序计算基因组Contig或Scaffold数目;筛除与大肠杆菌模式菌株基因组间ANI值小于94%、基因组片段数大于500个、污染率大于5%、完整度小于85%,或不包含多糖抗原合成基因簇的菌株基因组,获得高质量大肠杆菌基因组共计7741个。3.根据权利要求1所述的大肠杆菌多糖抗原结构数据库,其特征在于,获取文献发表的分型基因簇序列信息为分型数据库(eco

TypeDb),采用Python语言自编写程序(eco

TYPEtool)进行O抗原分型和H抗原分型;大肠杆菌基因组分型分析步骤如下所示:首先,下载文献已发表的大肠杆菌各分型的O抗原和H抗原合成基因簇序列和注释信息,转换为可识别的大肠杆菌分型DNA参考序列和对应的蛋白序列,构建eco

TypeDb数据库;其次,采用Blast程序将基因组序列比对至大肠杆菌分型DNA参考序列,基于序列相似性和覆盖度阈值,筛选最佳匹配的DNA参考序列;再次,采用tBlastn程序,将待分型基因比对到分型参考基因序列中相应的蛋白序列,
得到最佳匹配的基因信息;最后,根据以上匹...

【专利技术属性】
技术研发人员:王莹朱力徐荣何陆平王恒樑王东澍陈欢
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1