System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息领域,涉及一种基于图卷积网络预测蛋白质-蛋白质结合亲和力的方法。
技术介绍
0、技术背景
1、蛋白质之间的相互作用在生物体内的生理过程中发挥着核心功能,包括免疫、代谢以及信号传导等。了解蛋白质-蛋白质相互作用对于研究生物系统和药物设计至关重要,直接影响到蛋白质和肽药物的发展。分子之间相互作用的一个关键特征是结合亲和力,准确得到蛋白质-蛋白质的结合亲和力是了解蛋白质-蛋白质相互作用而引起的生物学功能的关键,但传统的实验方法对于亲和力的测定需要耗费大量的资源和时间,同时计算预测如分子动力学模拟和经验能量函数在计算需求和准确性方面存在一定的局限性。
2、蛋白质-蛋白质结合亲和力的预测是一个复杂的问题,因为蛋白质之间的相互作用涉及到多种因素,如结构、序列、电荷等。这些因素之间的相互作用非常复杂,难以准确地建立数学模型来对其进行预测;并且蛋白质之间结合亲和力的预测需要大量的数据支持,而目前可用的数据集相对有限,这限制了深度学习方法在该领域的应用;此外,蛋白质-蛋白质结合亲和力的预测涉及到多个蛋白质之间的相互作用,而现有的数据集中大部分只包含两个蛋白质链的信息,这限制了对复杂蛋白质相互作用的深入研究和预测能力。
3、虽然目前已有相当多的深度学习方法来预测蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸复合物的解离常数(kd)或吉布斯自由能(δg)。然而,尚未能够开发出一种能够高精度预测各种性质的蛋白质复合物的特征的方法,尤其是蛋白质-蛋白质结合亲和力预测领域。该领域仍然未被充分探索,尚未构
技术实现思路
1、针对现有蛋白质-蛋白质亲和力预测方法精度较低、难以预测多链复合物亲和力的问题,本专利技术提出了一种基于图卷积网络的蛋白质-蛋白质结合亲和力预测的方法,涉及生物信息学领域,基本原理如下(图1):将蛋白质-蛋白质复合物与相互作用区域分别转化为原子级别的图,通过基于图卷积网络构建的模型对复合物进行分子内和分子间节点特征以及边特征进行学习,充分利用蛋白质的图结构特征,深入挖掘蛋白质-蛋白质之间的相互作用关系,继而提升预测蛋白质-蛋白质结合亲和力数值的精度,并且通过对数据集的处理实现预测多链复合物亲和力的功能。
2、为实现上述目的,本专利技术所采用的技术方案如下:
3、一方面,本专利技术提供了一种基于图卷积网络预测蛋白质-蛋白质结合亲和力的方法,所述方法包含以下步骤:
4、s1:获取蛋白质-蛋白质复合物数据集;
5、s2:提取蛋白质-蛋白质复合物中一定距离阈值内的相互作用界面,并生成蛋白质-蛋白质复合物图和相互作用图(图2);
6、具体地,蛋白质-蛋白质复合物图中将原子作为节点,两原子之间作为边;相互作用图只有边。
7、s3:提取图的初始节点特征和边特征;
8、s4:更新蛋白质-蛋白质复合物图的节点特征;
9、s4.1:使用线性层将节点特征和边特征投影到特定维度,再使用激活函数,引入非线性关系,这可使得模型可以捕捉到更复杂的、非线性的关系。
10、s4.2:再更新边特征,将边连接的节点特征与边特征进行拼接,使得后续更新节点特征考虑到边的特性;
11、s4.3:将更新后的边特征与节点特征进行融合得到新的节点特征,使用注意力机制和门控循环单元(gru)来捕捉节点和边之间的关系;
12、需要理解的是,传统的图卷积神经网络(gcn)通常只是通过邻接矩阵加权求和,而本专利技术利用注意力机制对边特征进行加权,这意味着模型可以根据边的“重要性”调整信息传播的方式,从而捕获更有意义的边信息,提升表示能力;并且在融合边特征和节点特征时使用了gru单元,这不仅仅是简单的加权求和或者平均,而是利用gru来动态地结合邻居节点的特征和边特征,继而更好地捕捉节点和边的复杂关系。因此注意力机制和gru相结合来融合节点和边特征,是本专利技术提高预测蛋白之间结合亲和力准确率的必要条件。
13、s4.4:对节点特征继续进行更新,通过最大池化层对邻居节点特征进行聚合,再与源节点特征进行拼接。
14、需要理解的是,传统的gcn的信息聚合方式通常只是通过加权平均(或简单平均)聚合邻居节点的特征,这种方式可能会导致一些重要的邻居节点特征被平均化,从而丧失一些显著信息,且在某些情况下,这种平均的聚合方法不能很好地捕捉到图中重要节点的局部结构信息;而最大池化能从每个特征通道中选择数值最大的节点特征,这意味着该处理方式能够专注于最显著或最活跃的特征,同时忽略不重要的信息,从而对关键特征进行强调。在图数据中,节点的数量可能很大,直接处理所有节点会导致计算开销过高且难以提取全局特征;最大池化能将大量的局部信息浓缩为少量的全局信息,既减小了计算量,又突出了主要特征。因此,最大池化层处理方式也是影响预测结果准确性的关键因素。
15、s5:更新相互作用图的边特征;
16、s6:通过全连接层输出蛋白质-蛋白质结合亲和力的最终预测值。
17、进一步地,步骤s4.1所述的激活函数为h'v=leakyrelu(wnhv+bn),其中,h'v是投影后的节点特征,wn表示线性变换的权重矩阵,hv表示初始节点特征,bn表示偏置项。
18、适用于卷积神经网络隐藏层的激活函数主要有relu和leaky relu,leaky relu函数解决了relu函数的神经元死亡问题,且同时具有relu函数的优点,即计算效率高、允许网络快速收敛、非线性等;此外,leaky relu函数在负区域具有小的正斜率,因此即使对于负输入值,它也可以进行反向传播。因此,激活函数的种类也是影响预测结果准确性的关键因素,也只有leaky relu函数最适于本专利技术提供的预测方法。
19、进一步地,步骤s4.3所述的注意力机制为其中αuv表示从结点u到节点v的注意力权重,e”uv表示边(u,v)更新后的最终特征,n(v)表示节点v的邻居节点集合,e”vk表示由节点v及其邻居节点k构成的边。
20、进一步地,步骤s4.3所述的门控循环单元的公式为其中,表示融合节点特征和边特征后更新的节点特征,h'v表示投影后的节点特征,n(v)表示节点v的邻居节点集合,αuv表示从结点u到节点v的注意力权重,e”uv表示边(u,v)更新后的最终特征。
21、进一步地,步骤s4.4所述的最大池化层公式为其中,为最大池化聚合邻居节点的特征,n(v)表示节点v的邻居节点集合,表示融合节点特征和边特征后更新的节点特征。
22、进一步地,s4.4步骤中所述节点特征拼接公式为其中,l表示节点更新层的层数;表示融合节点特征和边特征后更新的节点特征;为最大池化聚合邻居节点的特征。
23、进一步地,所述s5步骤包含如下步骤:
24、s5.1:将每个边与其连接的两个节点最终更新得到的特征(即s4步骤更新后的节点特征)进行拼接,得到新的边特征;本文档来自技高网...
【技术保护点】
1.一种基于图卷积网络预测蛋白质-蛋白质结合亲和力的方法,其特征在于,所述方法包含以下步骤:
2.如权利要求1所述的方法,其特征在于,所述的激活函数为hv'=LeakyRELU(Wnhv+bn),其中,hv'表示投影后的节点特征,Wn表示线性变换的权重矩阵,hv'表示初始节点特征,
3.如权利要求1所述的方法,其特征在于,所述的注意力机制为其中αuv表示从节点u到节点v的注意力权重,e'u'v表示边(u,v)更新后的最终特征,N(v)表示节点v的邻居节点集合,e'v'k表示由节点v及其邻居节点k构成的边。
4.如权利要求1所述的方法,其特征在于,所述的门控循环单元的公式为其中,表示融合节点特征和边特征后更新的节点特征,hv'表示投影后的节点特征,N(v)表示节点v的邻居节点集合,αuv表示从结点u到节点v的注意力权重,e'u'v表示边(u,v)更新后的最终特征。
5.如权利要求1所述的方法,其特征在于,所述的最大池化层公式为其中,为最大池化聚合邻居节点的特征,N(v)表示节点v的邻居节点集合,表示融合节点特征和边特征后更新的节点特征
6.如权利要求1所述的方法,其特征在于,S4步骤中所述节点特征拼接公式为其中,L表示节点更新层的层数;表示融合节点特征和边特征后更新的节点特征;为最大池化聚合邻居节点的特征。
7.如权利要求1所述的方法,其特征在于,所述S5步骤包含如下步骤:
8.如权利要求7所述的方法,其特征在于,S5.2步骤所述的多层感知机更新边特征采用的公式为其中ei'j为更新后的边特征,为由源节点i特征、目标节点j特征和初始边特征拼接而成的边特征。
9.如权利要求1所述的方法,其特征在于,所述S2步骤包含以下步骤:
10.一种计算机程序产品,其特征在于,所述产品包含处理器和存储器,所述存储器用于存储所述处理器的可执行指令;所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任意一项所述的基于图卷积网络预测蛋白质-蛋白质结合亲和力的方法。
...【技术特征摘要】
1.一种基于图卷积网络预测蛋白质-蛋白质结合亲和力的方法,其特征在于,所述方法包含以下步骤:
2.如权利要求1所述的方法,其特征在于,所述的激活函数为hv'=leakyrelu(wnhv+bn),其中,hv'表示投影后的节点特征,wn表示线性变换的权重矩阵,hv'表示初始节点特征,
3.如权利要求1所述的方法,其特征在于,所述的注意力机制为其中αuv表示从节点u到节点v的注意力权重,e'u'v表示边(u,v)更新后的最终特征,n(v)表示节点v的邻居节点集合,e'v'k表示由节点v及其邻居节点k构成的边。
4.如权利要求1所述的方法,其特征在于,所述的门控循环单元的公式为其中,表示融合节点特征和边特征后更新的节点特征,hv'表示投影后的节点特征,n(v)表示节点v的邻居节点集合,αuv表示从结点u到节点v的注意力权重,e'u'v表示边(u,v)更新后的最终特征。
5.如权利要求1所述的方法,其特征在于,所述的最大池化层公式为其中,为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。