基于蛋白三维结构和图神经网络的免疫原预测系统及方法技术方案

技术编号:37748471 阅读:11 留言:0更新日期:2023-06-05 23:34
本发明专利技术公开了一种基于蛋白三维结构和图神经网络的免疫原预测系统及方法。所述系统包括:(1)三维结构特征提取模块;(2)免疫原结构数据集处理模块;(3)机器学习分类器模块;(4)自动预测输出模块。所述系统将蛋白三维结构信息和图神经网络、蛋白质语言模型等人工智能算法运用于新型疫苗免疫原的发现领域,克服了传统仅基于一维氨基酸序列特征开展免疫原预测导致的局限,实现普适(适用于细菌、病毒、寄生虫等)、高精度的免疫原预测,所述该方法有助于新型疫苗的高效研发。新型疫苗的高效研发。新型疫苗的高效研发。

【技术实现步骤摘要】
基于蛋白三维结构和图神经网络的免疫原预测系统及方法


[0001]本专利技术公开了一种基于蛋白三维结构和图神经网络的免疫原预测系统和方法,属于生物医药和生物信息学


技术介绍

[0002]免疫原决定了疫苗所诱导免疫应答攻击的靶向性,是新型疫苗研发的决定性因素。传统的疫苗免疫原鉴定方法流程长、效率低,已经不能满足新型疫苗的快速研制需求。反向疫苗学(Reverse Vaccinology)为寻找复杂病原体新型免疫原提供了全新手段,主要方法是基于组学研究发现,对大量的数据进行计算分析和预测,筛选靶标抗原并验证保护性反应(Rappuoli R. (2000) Curr. Opin. Microbiol., 3, 445

450.)。目前该方法已在脑膜炎奈瑟菌、金黄色葡萄球菌等复杂病原体疫苗研制中得到成功应用(Pizza M. (2000) Science (80

), 287, 1816

1820.)。相应的多种反向疫苗学免疫原预测方法及软件系统陆续被开发出来,以第一个本地化免疫原发现系统NERVE和第一个在线免疫原发现系统Vaxign为代表,主要采用基于规则的过滤方法,依照预定的步骤对蛋白特性(如蛋白亚细胞定位、分子量大小、粘附性、毒力概率等)进行分析,符合规则的蛋白通过过滤进入下一阶段,直至筛选出目的免疫原(Vivona S. (2006) BMC Biotechnol., 6;35.;He Y. (2010) J. Biomed. Biotechnol., 1;15.)。
[0003]随着人工智能的迅速发展,基于机器学习的分类模型已逐步应用于反向疫苗学免疫原预测发现领域。代表性的如Darren等人基于一维氨基酸序列注释获得的45个理化参数特征,采用偏最小二乘法(DA

PLS)算法建立了VaxiJen方法(Doytchinova I.A., (2007) BMC Bioinformatics, 8;4.);Zai等人基于一维氨基酸序列注释获得的6个核心生物学特征,采用投票算法等建立了MPPA

ML方法(Zai X, (2021)Vet Res 52;75.);He等人基于一维氨基酸序列注释获得的509个生物学特征和理化参数特征,采用支持向量机(SVM)等算法建立了Vaxign

ML方法(He Y, (2020) Bioinformatics,36;10:3185

3191.);以上方法相比于传统基于规则的过滤方法,在免疫原预测的准确性上得到较大改善。近期,基于Transformer的无监督的蛋白质语言模型ESM

2相比于传统算法显示出较好的提取一维氨基酸序列特征的能力(Rives A, (2021) Proc Natl Acad Sci U S A.118(15):e2016239118.)。
[0004]但是,目前以上所有方法均需要从一维氨基酸序列出发,采用大量生物信息学软件进行蛋白质生物学特征和理化参数特征的注释,过程极其繁琐复杂(Dalsass M, (2019).Front Immunol,14;10:113)。同时,针对不同类型病原体如细菌、病毒、寄生虫等,蛋白质的生物学特征注释方法和软件各异,模型广泛适用性较差。此外,目前方法预测免疫原范围仍然较广,免疫评价验证较为困难,有待进一步提升方法预测准确性。
[0005]蛋白质的三维结构最终决定了其生物学特征和理化参数特征,具有远超一维氨基酸序列的信息丰度。本专利技术的目的是建立一种基于三维结构特征的免疫原预测新方法,实现普适(适用于细菌、病毒、寄生虫等)、高精度的免疫原预测。

技术实现思路

[0006]本专利技术旨在于克服现有反向疫苗学仅基于一维氨基酸序列特征开展免疫原预测技术的缺陷,提供一种全新的基于蛋白三维结构和图神经网络的免疫原高精度预测系统和方法。
[0007]蛋白质的三维结构最终决定了其生物学特征和理化参数特征,具有远超一维氨基酸序列的信息丰度。基于蛋白质三维结构特征建立免疫原的机器学习分类预测模型,有望突破已有仅基于一维氨基酸序列模型的局限。
[0008]基于蛋白质三维结构特征建立免疫原预测模型,首先需要解决如何从蛋白结构中提取有效的特征向量。通过实验测定以及Alphafold2等软件预测获得的蛋白质三维结构通常以PDB文件格式存储。PDB文件本质是一种ASCII码文本文件,其中包含构成蛋白质的氨基酸各个原子的坐标等信息。这种文本文件格式的结构数据难以直接进行特征提取和机器学习模型建立。
[0009]蛋白质的三维结构由氨基酸组成,氨基酸之间由化学键形成连边。因此,可以将蛋白质三维结构看作一个“图”(graph),其中氨基酸是节点,化学键是边。目前捕获蛋白质三维结构的方法有很多,包括将蛋白质的三维结构抽象成3D栅格图,或者将蛋白质在三维空间的结构抽象成一维或者二维结构之后再做分析。然而,蛋白质的三维结构是由原子组成,原子之间又由化学键形成连边,本质上是一个“图”(graph),因此,本专利技术选择使用图神经网络(GNN,Graphic Nuaral Network)作为处理蛋白质三维结构特征的工具,建立了一种基于蛋白三维结构和图神经网络的免疫原预测系统。
[0010]所述系统具体包括以下模块:(1)三维结构特征提取模块:使用一种针对免疫原结构特点设计的图神经网络模型表征并提取蛋白质三维结构特征,通过对蛋白质三维结构PDB数据库进行预训练学习,获得蛋白质中氨基酸在三维空间中相互作用的特征表示;(2)免疫原结构数据集处理模块:收集病原体已知免疫原作为正样本集,病原体蛋白数据库中随机抽取与已知免疫原非同源蛋白的非免疫原作为负样本集,通过结构预测软件获得蛋白质三维结构PDB文件,形成首个免疫原结构数据集和非免疫原结构数据集,将结构信息输入上述预训练好的图神经网络模型,提取得到三维结构对应的特征向量;(3)机器学习分类器模块:对特征向量进行降维后,联合一维氨基酸序列特征,采用机器学习算法进行分类模型训练,得到训练好的免疫原分类器,基于测试集对模型预测准确性进行评估;(4)自动预测输出模块:输入待预测病原体全部注释蛋白三维结构信息和一维氨基酸序列,应用上述预训练好的图神经网络模型与免疫原分类器,自动输出候选免疫原列表。
[0011]在一个优选的实施方案中,在模块(1)中所述蛋白结构数据库包括但不限于PDB(Protein Data Bank)、Alphafold Protein Structure Database数据库。
[0012]在另一个优选的实施方案中,在模块(1)中所述优化的改进的图神经网络模型具体为改进型邻域增强神经网络模型(NEGCN,Neighbor Enhanced Graph Convolutional Network)。基于蛋白质中氨基酸的三维空间分布,NEGCN分别依据氨基酸之间的空间距离、氨基酸的链式连接、氨基酸之间的最邻近距离等关系构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于蛋白三维结构和图神经网络的免疫原预测系统,其特征在于,所述系统包括以下模块:(1)三维结构特征提取模块:使用基于免疫原结构特点设计的图神经网络模型表征并提取蛋白质三维结构特征,通过对蛋白质三维结构PDB数据库进行预训练学习,获得蛋白质中氨基酸在三维空间中相互作用的特征表示;(2)免疫原结构数据集处理模块:收集病原体已知免疫原作为正样本集,病原体蛋白数据库中随机抽取与已知免疫原非同源蛋白的非免疫原作为负样本集,通过结构预测软件获得蛋白质三维结构PDB文件,形成免疫原结构数据集和非免疫原结构数据集,将结构信息输入上述预训练好的图神经网络模型,提取得到免疫原三维结构对应的特征向量和非免疫原三维结构对应的特征向量;(3)机器学习分类器模块:对免疫原和非免疫原蛋白三维结构特征向量进行降维后,联合一维氨基酸序列特征,采用机器学习算法进行分类模型训练,得到训练好的免疫原分类器,基于测试集对模型预测准确性进行评估;(4)自动预测输出模块:输入待预测病原体全部注释蛋白三维结构PDB文件和一维氨基酸序列文件,应用上述预训练好的图神经网络模型与免疫原分类器,自动输出候选免疫原列表。2.根据权利要求1所述的系统,其特征在于,在所述三维结构特征提取模块中,所述图神经网络模型为改进型邻域增强神经网络模型;所述改进型邻域增强神经网络模型基于蛋白质中氨基酸的三维空间分布,分别依据氨基酸之间的空间距离、氨基酸的链式连接、氨基酸之间的最邻近距离关系构建邻接图;然后,将氨基酸邻接图转换为基于氨基酸之间作用力的边图,将边的类型按照空间位置依据x,y,z轴划分成8个象限,区分三维空间中不同邻边所起到的不同作用,根据不同作用力,边在空间的向量方向进行方向敏感的消息传递;最后,基于对比学习机制,获得蛋白质中氨基酸在三维空间中相互作用的特征表示,所述蛋白三维结构特征包括氨基酸的空间位置、不同氨基酸之间的相互作用、氨基酸理化性质。3.根据权利要求1所述的系统,其特征在于,在所述免疫原结构数据集处理模块中,所述病原体是指对人和/或动物宿主致病的细菌类、病毒类或寄生虫类微生物。4. 根据权利要求1所述的系统,其特征在于,在所述免疫原结构数据集处理模块中,所述已知免疫原指经实验验证可在宿主体内激发有效免疫保护的病原体蛋白质成分,已知免疫原的收集方式包括整合数据库筛选、文献调研以及实验发现,数据库包括IEDB Databse、Antigen Databse和/或Protegen Databse;所述非免疫原指尚没有实验证据证实可在宿主体内激发有效免疫保护的病原体蛋白质成分,收集方式为,从Uniprot蛋白数据库中下载所有病原体全部蛋白质序列,采用随机抽取方式从中获得候选蛋白质,通过基于局部比对算法的搜索工具排除与已知免疫原同源序列后,建立非免疫原数据集,即负样本集。5.根据权利要求1所述的系统,其特征在于,在所述免疫原结构数据集处理模块中,所述结构预测软件位为AlphaFold2、RoseTTAFold和/或ESMFold。6.根据权利要求1所述的系统,其特征在于,在所述机器学习分类器模块中,所述一维氨基酸序列特征由蛋白质语言模型ESM

2提取。7.根据权利要求1所述的系统,其特征在于,在所述机器学习分类器模块中,所述降维方法为主成分分析。
8.根据权利要求1所述的系统,其特征在于,在所述机器学习分类器模块中,所述分类模型算法为极端梯度提升。9.一种基于蛋白三...

【专利技术属性】
技术研发人员:宰晓东赵云祥徐俊杰任洪广陈薇
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1