一种基于深度学习的蛋白质结构设计方法及装置制造方法及图纸

技术编号:27194701 阅读:26 留言:0更新日期:2021-01-31 11:45
本发明专利技术涉及一种基于深度学习的蛋白质结构设计方法及装置,其方法包括:根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;利用训练好的几何图神经网络模型生成氨基酸序列;根据生成氨基酸序列和同源蛋白质构建蛋白质骨架模型;根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。本发明专利技术通过蛋白质数据与对应的DNA序列、mRNA序列绑定,一方面提高生成氨基酸序列的可解释性和有效性,另一方面减少蛋白质设计或验证的筛选、反复吸附、洗脱、扩增的过程,通过几何图神经网络减少了模型的计算量。通过几何图神经网络减少了模型的计算量。通过几何图神经网络减少了模型的计算量。

【技术实现步骤摘要】
一种基于深度学习的蛋白质结构设计方法及装置


[0001]本专利技术涉及生物信息和深度学习领域,尤其涉及一种基于深度学习的抗体库构建方法及装置。

技术介绍

[0002]蛋白质作为生命体重要组成部分,参与了生命体多数生物功能。特别是人体内重要的生理活动都是由蛋白质来完成的,蛋白质是生命活动的重要物质基础。作为生物体内分布最广,功能最复杂的一类大分子,对蛋白质的研究一直是生物学的重要组成部分。
[0003]蛋白质的分子结构包括四级,其中氨基酸序列的排列顺序称为蛋白质的一级结构(primary structure);蛋白质的多肽链中有依靠氧基之间的氢键来调节的、规则的并且具有周期性的稳定结构,称为蛋白质的二级结构(secondry structure);在二级结构的基础上,蛋白质中的多肽链通过在三维空间的排列进一步形成了更复杂的三级结构(tertiary structure);具有三级结构的多肽链之间互相作用,按一定的排列方式进行空间排列并结合在一起形成具有功能的蛋白质聚集体称为蛋白质的四级结构(quaternty structure)。研究发现,尽管蛋白质的一级结构千变万化,即一条多肽链中的氨基酸排列组合种类非常多,但是其二级结构的种类却是有限的,主要包括有α-螺旋(α-helix)、β-折叠(β-sheet)、β-转角(β-turn)和无规卷曲(random coil),其中α螺旋和β折叠这两个蛋白质二级结构仅依赖于主链骨架,即所有氨基酸的共同部分,所以这两个蛋白质的二级结构会频繁地出现于大多数的蛋白质结构中。蛋白质的氨基酸序列决定了它的二级结构,二级结构又决定了它的空间结构,蛋白质的空间结构又决定了它生理功能的多样性。可见,序列、结构和功能之间的关系密不可分。
[0004]而二级结构就是通过蛋白质的氨基酸序列来研究其空间结构的重要过渡。蛋白质的二级结构预测是指,给定蛋白质的氨基酸序列,将序列映射为其对应的二级结构,判断每个氨基酸分别处于哪一种二级结构的状态。蛋白质二级结构的预测对于正确预测蛋白质的空间结构具有非常重要的意义,同时也有利于了解蛋白质的功能及其作用机制。理论上,序列与结构之间的关系应该可以通过某种数学方法表示出来,一旦确定这种关系,就可以预测蛋白质的二级结构。所以,目前对于蛋白质结构的研究中,蛋白质二级结构预测的研究有很多,并且一些预测的算法模型己经取得了很高的精确率。
[0005]上述这些预测方法是一种判断行为,反过来,如果有模型可以做到根据需要的结构来设计氨基酸序列,即蛋白质二级结构序列的生成,这将是一种新的蛋白质结构研究的思路,同时也会有比预测更大的理论意义与实际意义。
[0006]另外,一些利用自然语言处理(NLP)模型将氨基酸序列视为文本,而基本氨基酸的词库(即氨基酸库)只有20个,这样使得利用NLP模型会生成重复率很高的氨基酸序列。
[0007]吉林大学在ICLR2020的一篇论文“Geom-Gcn:Geometric Graph Convolutional Networks”,该研究针对MPNN现存的一些问题提出了一种新的图神经网络的几何聚合方式,该方法分别在欧几里得(Euclidean)和双曲嵌入(hyperbolic embedded)空间中设计具有
特定几何关系的结构邻域。针对具体应用,使用不同的embedding方法将graph映射到合适的latent space之中,并保留了合适的graph topology模型,简单而少量的层级图模型在图像处理、NLP等相关的数据集上达到了较好的性能。

技术实现思路

[0008]本专利技术为解决基于模型的现有蛋白质设计中生成的氨基酸序列重复度高、有效性低、可解释性差的问题,在本专利技术的第一方面提供了基于深度学习的蛋白质结构设计方法,包括如下步骤:根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;利用训练好的几何图神经网络模型生成氨基酸序列;根据所述生成的氨基酸序列及其同源蛋白质构建蛋白质骨架模型;根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
[0009]在本专利技术的一个可能的实施方式中,所述几何图神经网络模型包括第一几何图神经网络模型、第二几何图神经网络模型,所述第一几何图神经网络模型,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二几何图神经网络模型,用于根据分子晶体结构信息生成氨基酸序列。
[0010]进一步的,所述第一几何图神经网络模型通过以下方法进行训练:根据中心法则建立DNA-mRNA-蛋白质相互对应的第一数据集;将所述第一数据集和天然蛋白质数据库合并去重得到第二数据集;将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量;将第一多维向量作为第一几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第一几何图神经网络模型。
[0011]更进一步的,所述将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量包括如下步骤:根据Damerau

莱文斯坦距离将所述第二数据集的样本中的基因序列、氨基酸序列进行聚类,然后按照蛋白质的残基统计信息、物化属性、进化信息进行特征提取、embedding、PCA降维得到第一多维向量。
[0012]在本专利技术的一个可能的实施方式中,所述第二几何图神经网络模型通过以下方法进行训练:将表征蛋白质分子晶体结构的形态学图像融合,构成第二多维向量;将第二多维向量作为第二几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第二几何图神经网络模型。
[0013]在本专利技术的一个可能的实施方式中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
[0014]在本专利技术的第二方面,提供了一种基于深度学习的蛋白质结构设计装置,包括确定模块、输入模块、生成模块、构建模块、优化模块,所述确定模块,用于根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;所述输入模块,用于将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;所述生成模块,用于利用训练好的几何图神经网络模型生成氨基酸序列;所述构建模块,用于根据生成氨基酸序列和同源
蛋白质构建蛋白质骨架模型;所述优化模块,用于根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
[0015]进一步的,所述生成模块包括第一生成模块、第二生成模块,所述第一生成模块,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二生成模块,用于根据分子晶体结构生成氨基酸序列。
[0016]在本专利技术的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的蛋白质结构设计方法,其特征在于,包括如下步骤:根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;利用训练好的几何图神经网络模型生成氨基酸序列;根据所述生成的氨基酸序列及其同源蛋白质构建蛋白质骨架模型;根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。2.根据权利要求1所述的基于深度学习的蛋白质结构设计方法,其特征在于,所述几何图神经网络模型包括第一几何图神经网络模型、第二几何图神经网络模型,所述第一几何图神经网络模型,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二几何图神经网络模型,用于根据分子晶体结构信息生成氨基酸序列。3.根据权利要求2所述的基于深度学习的蛋白质结构设计方法,其特征在于,所述第一几何图神经网络模型通过以下方法进行训练:根据中心法则建立DNA-mRNA-蛋白质相互对应的第一数据集;将所述第一数据集和天然蛋白质数据库合并去重得到第二数据集;将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量;将第一多维向量作为第一几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第一几何图神经网络模型。4.根据权利要求3所述的基于深度学习的蛋白质结构设计方法,其特征在于,所述将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量包括如下步骤:根据Damerau

莱文斯坦距离将所述第二数据集的样本中的基因序列、氨基酸序列进行聚类,然后按照蛋白质的残基统计信息、物化属性、进化信息进行特征提取、embedding、PCA降维得到第一多维向量。5.根据权利要求2所述的基于深度学习的蛋白质结构设计方法,其特征在于,所...

【专利技术属性】
技术研发人员:华权高舒芹
申请(专利权)人:武汉华美生物工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利