【技术实现步骤摘要】
基于蛋白三维结构和图神经网络的免疫原预测系统及方法
[0001]本专利技术公开了一种基于蛋白三维结构和图神经网络的免疫原预测系统和方法,属于生物医药和生物信息学
技术介绍
[0002]免疫原决定了疫苗所诱导免疫应答攻击的靶向性,是新型疫苗研发的决定性因素。传统的疫苗免疫原鉴定方法流程长、效率低,已经不能满足新型疫苗的快速研制需求。反向疫苗学(Reverse Vaccinology)为寻找复杂病原体新型免疫原提供了全新手段,主要方法是基于组学研究发现,对大量的数据进行计算分析和预测,筛选靶标抗原并验证保护性反应(Rappuoli R. (2000) Curr. Opin. Microbiol., 3, 445
–
450.)。目前该方法已在脑膜炎奈瑟菌、金黄色葡萄球菌等复杂病原体疫苗研制中得到成功应用(Pizza M. (2000) Science (80
‑
), 287, 1816
–
1820.)。相应的多种反向疫苗学免疫原预测方法及软件系统陆续被开发出来,以第一个本地化免疫原发现系统NERVE和第一个在线免疫原发现系统Vaxign为代表,主要采用基于规则的过滤方法,依照预定的步骤对蛋白特性(如蛋白亚细胞定位、分子量大小、粘附性、毒力概率等)进行分析,符合规则的蛋白通过过滤进入下一阶段,直至筛选出目的免疫原(Vivona S. (2006) BMC Biotechnol., 6;35.;He Y. (2010) J. Biomed. Biotechnol. ...
【技术保护点】
【技术特征摘要】
1.一种基于蛋白三维结构和图神经网络的免疫原预测系统,其特征在于,所述系统包括以下模块:(1)三维结构特征提取模块:使用基于免疫原结构特点设计的图神经网络模型表征并提取蛋白质三维结构特征,通过对蛋白质三维结构PDB数据库进行预训练学习,获得蛋白质中氨基酸在三维空间中相互作用的特征表示;(2)免疫原结构数据集处理模块:收集病原体已知免疫原作为正样本集,病原体蛋白数据库中随机抽取与已知免疫原非同源蛋白的非免疫原作为负样本集,通过结构预测软件获得蛋白质三维结构PDB文件,形成免疫原结构数据集和非免疫原结构数据集,将结构信息输入上述预训练好的图神经网络模型,提取得到免疫原三维结构对应的特征向量和非免疫原三维结构对应的特征向量;(3)机器学习分类器模块:对免疫原和非免疫原蛋白三维结构特征向量进行降维后,联合一维氨基酸序列特征,采用机器学习算法进行分类模型训练,得到训练好的免疫原分类器,基于测试集对模型预测准确性进行评估;(4)自动预测输出模块:输入待预测病原体全部注释蛋白三维结构PDB文件和一维氨基酸序列文件,应用上述预训练好的图神经网络模型与免疫原分类器,自动输出候选免疫原列表。2.根据权利要求1所述的系统,其特征在于,在所述三维结构特征提取模块中,所述图神经网络模型为改进型邻域增强神经网络模型;所述改进型邻域增强神经网络模型基于蛋白质中氨基酸的三维空间分布,分别依据氨基酸之间的空间距离、氨基酸的链式连接、氨基酸之间的最邻近距离关系构建邻接图;然后,将氨基酸邻接图转换为基于氨基酸之间作用力的边图,将边的类型按照空间位置依据x,y,z轴划分成8个象限,区分三维空间中不同邻边所起到的不同作用,根据不同作用力,边在空间的向量方向进行方向敏感的消息传递;最后,基于对比学习机制,获得蛋白质中氨基酸在三维空间中相互作用的特征表示,所述蛋白三维结构特征包括氨基酸的空间位置、不同氨基酸之间的相互作用、氨基酸理化性质。3.根据权利要求1所述的系统,其特征在于,在所述免疫原结构数据集处理模块中,所述病原体是指对人和/或动物宿主致病的细菌类、病毒类或寄生虫类微生物。4. 根据权利要求1所述的系统,其特征在于,在所述免疫原结构数据集处理模块中,所述已知免疫原指经实验验证可在宿主体内激发有效免疫保护的病原体蛋白质成分,已知免疫原的收集方式包括整合数据库筛选、文献调研以及实验发现,数据库包括IEDB Databse、Antigen Databse和/或Protegen Databse;所述非免疫原指尚没有实验证据证实可在宿主体内激发有效免疫保护的病原体蛋白质成分,收集方式为,从Uniprot蛋白数据库中下载所有病原体全部蛋白质序列,采用随机抽取方式从中获得候选蛋白质,通过基于局部比对算法的搜索工具排除与已知免疫原同源序列后,建立非免疫原数据集,即负样本集。5.根据权利要求1所述的系统,其特征在于,在所述免疫原结构数据集处理模块中,所述结构预测软件位为AlphaFold2、RoseTTAFold和/或ESMFold。6.根据权利要求1所述的系统,其特征在于,在所述机器学习分类器模块中,所述一维氨基酸序列特征由蛋白质语言模型ESM
‑
2提取。7.根据权利要求1所述的系统,其特征在于,在所述机器学习分类器模块中,所述降维方法为主成分分析。
8.根据权利要求1所述的系统,其特征在于,在所述机器学习分类器模块中,所述分类模型算法为极端梯度提升。9.一种基于蛋白三...
【专利技术属性】
技术研发人员:宰晓东,赵云祥,徐俊杰,任洪广,陈薇,
申请(专利权)人:中国人民解放军军事科学院军事医学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。