System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于层次图和几何向量感知器的蛋白质位点预测方法技术_技高网

基于层次图和几何向量感知器的蛋白质位点预测方法技术

技术编号:42845422 阅读:2 留言:0更新日期:2024-09-27 17:15
本发明专利技术涉及生物信息学领域,特别是涉及基于层次图和几何向量感知器的蛋白质位点预测方法,RAGVP‑PPIS模型构建了一个综合了残基层次和原子层次的蛋白质图,包括:残基图和原子图,模型采用几何向量感知器,构建了基于GVP的图神经网络来学习残基图和原子图上两个尺度的信息来进行预测。模型的主要流程包括:层次图构建、特征学习、信息聚合。最终,聚合后的节点特征被输入到预测层,以生成位点预测结果。实验结果表明,与其他基于蛋白质结构和蛋白质序列的预测方法相比,该模型在准确度、精确度、召回率、F1分数、马修斯相关系数、接收者操作特征曲线下面积以及精确召回曲线下的面积等评估指标上均达到较好的效果。

【技术实现步骤摘要】

本专利技术属于生物信息学,特别涉及基于层次图和几何向量感知器的蛋白质位点预测方法


技术介绍

1、在蛋白质作用研究中,识别蛋白质-蛋白质相互作用中的结合位点是一个关键问题,这对揭示蛋白质的功能机制及其在医学研究中的应用至关重要。近年来,许多研究者专注于基于深度学习的方法来实现蛋白质位点的快速预测,其中图神经网络(gnns)已展示出优异的表现。然而,目前的图神经网络方法在位点预测中存在不足,特别是对蛋白质分子不同尺度信息的建模不足,以及对蛋白质分子在三维空间中自然对称性的处理不够全面。

2、蛋白质相互作用是生物学研究中的一个重要领域,这种相互作用在细胞信号传导、代谢调控和细胞周期等过程发挥着关键作用。对蛋白质相互作用的深入理解有助于解析细胞内复杂的分子网络,揭示疾病机制,并推动新药的开发。与此相关的研究领域之一是蛋白质相互作用位点的识别。这些位点,即相互作用蛋白质之间的界面残基,不仅决定了蛋白质与其交互伙伴的结合方式,还直接影响了蛋白质的功能和调控机制。通过对这些位点的深入研究,能够揭示蛋白质间的相互作用机制,为疾病治疗和新药设计提供关键的信息。然而,传统的实验方法如x射线晶体学和双杂交筛选在识别这些位点时存在时间长、成本高的问题。因此,开发快速且高效的计算方法来进行蛋白质-蛋白质相互作用(ppis)的识别,已成为研究的重点。

3、目前,基于图的蛋白质位点预测方法在处理二维蛋白质图时,通常未能充分考虑多尺度分子信息的建模,特别是充分利用原子信息。此外,分子表示学习的研究表明,考虑分子的空间等变性对于提升预测效果具有重要作用。然而,现有的图神经网络方法在蛋白质位点预测中往往忽略了蛋白质分子在三维空间中固有的对称性,如旋转、反射和平移等变性对图表示学习的影响。这种忽视可能限制了模型在处理复杂空间结构中的表现。因此,结合多尺度层次信息和空间等变性的处理,将有助于提高蛋白质位点预测的准确性和效果。


技术实现思路

1、本专利技术提出基于层次图和几何向量感知器的蛋白质位点预测方法,解决了上述问题。

2、本专利技术的技术方案是这样实现的:

3、基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,包括以下步骤:

4、s1、从蛋白质序列和蛋白质结构信息中提取蛋白质的节点特征和边特征,这些特征包括残基类型、原子坐标、化学键信息等,用于全面描述蛋白质的结构和功能;

5、s2、根据提取的节点特征和边特征,构建蛋白质的层次图表示,作为ragvp-ppis模型的输入,层次图表示包括原子层次和残基层次的图结构,能够表示蛋白质的不同尺度信息;

6、s3、分别搭建关注原子层次和残基层次几何向量感知器,以学习原子尺度和残基尺度的特征信息;

7、s4、基于ragvp-ppis模型的层次图表示,将蛋白质图的节点特征和边特征输入到对应尺度的几何向量感知器中,进行节点嵌入的聚合更新;

8、s5、ragvp-ppis模型通过预测层进行特征降维处理,并输出最终的预测结果,用于蛋白质位点的准确预测;预测层的功能是将前面学习到的特征进行降维,前面特征可能是几十维的向量,而最后输出预测结果只有两维,代表预测位点是或不是结合位点的概率,所以需要预测层进行降维,本专利技术中的预测层也是由gvp堆叠成的。

9、可选的,步骤s2中的蛋白质的层次图构建通过对原子层次和残基层次的图结构建模得到;

10、在原子层次图的建模中,每个原子被视为图中的一个节点,节点的特征通常包括原子的类型、位置坐标以及化学环境等,这些信息通过特征向量表示为:

11、;

12、其中,是从原子提取的特征向量,边的定义基于原子之间的化学键,通常连接的是具有化学键相连的原子对,边的特征包括距离和键类型,表示为:

13、;

14、其中,是原子和之间的距离;

15、由此得到的原子层次图包括节点集和边集,其图结构可以表示为:

16、;

17、在残基层次图的建模过程中,每个残基被视为图中的一个节点,节点的特征包括残基类型、位置以及与相邻残基的接触信息等,这些特征通过特征向量表示为:

18、;

19、其中,是从残基提取的特征向量,边的定义基于残基之间的接触关系,通常连接的是在空间上相互接近或具有一定相互作用的残基对,边的特征表示为:

20、;

21、由此得到的残基层次图的图结构可以表示为:

22、;

23、这种层次图结构能够同时处理蛋白质在原子级别和残基级别的特征,为后续的图神经网络模型提供了全面的输入数据,通过这种多尺度信息的整合,模型能够更好地捕捉蛋白质的复杂结构特征,从而提升预测的准确性和效果。

24、可选的,步骤s3中,分别针对s2中构建的原子层次和残基层次的图结构,基于几何向量感知器构建图节点特征学习模型,几何向量感知器(gvp)是一个简单的模块,用于学习几何向量和标量上的向量值函数和标量值函数,给定一个元组,其中包括标量特征s和向量特征v,这里对之前得到的特征进行了划分,向量特征包括之前提到的位点信息,标量特征则是其余非位置信息,计算新特征,其更新公式如下所示:

25、;

26、;

27、;

28、;

29、;

30、;

31、;

32、;

33、gvp首先通过使用两个线性变换矩阵,,对向量特征进行特征转换。然后对中间得到的向量表示和分别取l2范数和得到和,与初始标量表示拼接得到,然后通过线性变换和偏移量得到,最终输出向量表示通过一个非线性函数变换的与前面的向量表示逐元素乘得到。最终输出标量则是通过对的一个非线性函数变换得到,这个过程中,对向量值输入的只进行了标量乘法、线性组合和l2范数变换,所以gvp在三维欧氏空间中旋转和反射操作,对于向量和标量分别是等变和不变的;

34、其中,、、表示线性变换矩阵,表示偏移矩阵,、、、表示向量特征,、、、、、表示标量特征,和指的是非线性函数;

35、同时,为了在图结构上使用gvp,搭建了gvp-gnn,其更新公式如下所示:

36、;

37、;

38、首先,计算消息传递机制中的消息,其中gvp表示上面提到的gvp更新过程,负责将节点i的特征和来自邻居节点j的信息进行更新,节点i收到节点j之间的消息通过对节点j的节点特征和节点之间的边特征进行拼接并进行gvp变换得到;然后,对图上邻居信息进行消息传递,通过对节点i的所有邻居节点传递的消息进行平均,再与节点i的原特征相加;最终得到第l+1层的节点i的新特征,聚合过程中通过layernorm进行归一化,中间加上了dropout来防止过拟合;i、j均表示节点,代表第l层节点i和节点j之间的边特征,代表第l层节点i的节点特征,代表第l层节点j的节点特征,代表第l+1层节点i的节点本文档来自技高网...

【技术保护点】

1.基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤S2中的蛋白质的层次图构建通过对原子层次和残基层次的图结构建模得到;

3.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤S3中,分别针对S2中构建的原子层次和残基层次的图结构,基于GVP构建图节点特征学习模型,给定一个元组,其中包括标量特征s和向量特征V,向量特征包括位点信息,标量特征是其余非位置信息,计算新特征,其更新公式如下所示:

4.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤S4中,在蛋白质层次图上进行基于几何向量感知器特征进行特征学习,主要涉及在原子层次图和残基层次图上进行节点嵌入的聚合和更新,以捕捉蛋白质的结构信息并优化预测性能;

5.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,所述RAGVP-PPIS模型包括输入、特征提取、输出三部分,RAGVP-PPIS模型使用pytorch进行搭建,RAGVP-PPIS模型重要的超参数的值如下所示:

6.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤S2中的节点特征中包括残基节点特征和原子节点特征,其中,残基节点特征表示包括PSSM、HMM和DSSP,原子节点特征表示包括原子类型和化学特征。

...

【技术特征摘要】

1.基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤s2中的蛋白质的层次图构建通过对原子层次和残基层次的图结构建模得到;

3.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤s3中,分别针对s2中构建的原子层次和残基层次的图结构,基于gvp构建图节点特征学习模型,给定一个元组,其中包括标量特征s和向量特征v,向量特征包括位点信息,标量特征是其余非位置信息,计算新特征,其更新公式如下所示:

4.根据权利要求1所述的基于层次图和几何向量感知器的蛋白质位点预测方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:宋弢王珣王爽丁洪震韩佩甫
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1