System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图Transformer的蛋白质-配体对接打分模型的构建方法及其系统技术方案_技高网

基于图Transformer的蛋白质-配体对接打分模型的构建方法及其系统技术方案

技术编号:44164015 阅读:8 留言:0更新日期:2025-01-29 10:36
本发明专利技术公开了一种基于图Transformer的蛋白质‑配体对接打分模型的构建方法,包括图神经网络、基于注意力机制的多层网络和解码模块,解码模块包括MND解码模块和pKd解码模块;MND解码模块用于计算蛋白质和配体之间距离概率分布;pKd解码模块用于预测蛋白质和配体结合时的亲和力值;损失函数包括MDN损失和pKd损失,多层网络的第一层具有随着训练迭代更新的用于指示特征被保留或屏蔽的掩码向量,以蛋白质图和配体图为输入进行对接打分预测。本方案模型同时使用了MDN和pKd两个解码模块,MDN从概率分布的角度优化模型参数,而pKd模块则从结合亲和力的角度来优化模型参数,两者分别从空间关系和相互作用关系来进行对接打分,通过两者的配合可有效提升模型的综合评价能力。

【技术实现步骤摘要】

本专利技术属于计算机生物学领域,尤其涉及一种基于图transformer的蛋白质-配体对接打分模型的构建方法及其系统。


技术介绍

1、打分函数作为分子对接中的关键步骤,在用于新药发现的虚拟筛选中至关重要。打分函数的主要目标是量化配体与受体间的相互作用能量,包括静电相互作用、范德华力和氢键等因素。传统的打分函数主要是基于力场的打分函数,这种方法基于物理化学原理,如分子力学模型,通过计算分子之间的相互作用能来预测配体与受体的结合亲和力。基于力场的打分函数虽然精确,但在效率、灵活性以及对复杂相互作用和溶剂效应的建模上存在不足,且缺乏利用已有生物大分子数据的能力,导致其适应性和预测性能的不足。

2、为了解决前述问题,研究人员尝试结合数据驱动的方法优化蛋白质-配体对接打分函数。随着高通量筛选技术、结构生物学方法的进步,相关的蛋白质-配体复合物数据库得以大规模建立和完善。这些数据库的丰富为基于经验和基于知识的打分函数提供了大量高质量的训练和验证数据,显著提升了分子对接预测的准确性和可靠性。例如,vitscore借鉴于视觉领域的visiontransformer,利用3维网格体素化相互作用区域,利用3维卷积神经网络学习特征,最后结合距离对构象进行打分。但是,该方法的体素化表示方法可能丢失蛋白质-配体对接构象的局部细节,而且,目前所公开的方法在对蛋白质特征进行学习时,使用全部特征进行学习,而蛋白质和配体在对接过程中实际只集中于部分点位而非全部的点位。总的来说,目前的方法只能提升部分能力,如vitscore仅提升了打分函数的对接能力,对其他方面能力并未提高,由于不能综合提升多方面的评价能力,导致模型不能全面评估构象得分。


技术实现思路

1、本专利技术的目的是针对现有技术存在的问题提出一种基于图transformer的蛋白质-配体对接打分模型的构建方法及其系统。

2、为达到上述目的,本专利技术采用了下列技术方案:

3、一种基于图transformer的蛋白质-配体对接打分模型的构建方法,模型包括依次相连的图神经网络、基于注意力机制的多层网络以及解码模块;

4、解码模块包括mnd解码模块和pkd解码模块;

5、mnd解码模块用于计算蛋白质和配体之间距离概率分布;

6、pkd解码模块用于预测蛋白质和配体结合时的亲和力值;

7、模型的损失函数包括mdn损失和pkd损失:,α和β分别是 mdn 损失和 pkd 损失的权重;

8、多层网络的第一层具有随着训练迭代更新的用于指示特征被保留或屏蔽的掩码向量;

9、所述模型以蛋白质图和配体图为输入,由所述图神经网络将输入转换为嵌入向量;

10、所述的嵌入向量被输入至所述的多层网络进行掩码处理后进入注意力机制计算得到蛋白质和配体图的节点特征表示;

11、解码模块基于所述的节点特征进行对接打分预测;

12、模型基于所述的损失函数更新模型参数。

13、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,将蛋白质和配体的三维空间关系表示为二维图结构分别得到所述的蛋白质图和配体图;

14、所述的蛋白质图包括蛋白质节点特征和蛋白质边特征,配体图包括配体节点特征和配体边特征。

15、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,所述的配体节点特征包括原子类型、杂化状态、形式电荷、芳香性以及自由基电子的存在;

16、所述的配体边特征由配体原子间键的属性定义,包括键类型、共轭性和环参与。

17、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,所述的蛋白质节点特征包括残基类型、残基内关键原子之间的空间距离、键内旋转的二面角描述;

18、所述的蛋白质边特征包括两残基是否连接,两个残基内部分原子的距离。

19、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,图神经网络通过如下方式将输入转换为嵌入向量:

20、   (1)

21、    (2)

22、其中和分别表示输入的节点和边特征,i,j是索引变量,分别表示同一图中的不同节点;

23、表示节点的初始特征,表示连接节点i,j边特征;

24、和是对应的权重矩阵,和是节点和边的偏置项。

25、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,对于输入的嵌入向量,经过掩码处理后的特征表示为:

26、(3)

27、其中,m是掩码向量,用于指示特征的保留或屏蔽,通过逐元素相乘操作,掩码后的特征仅保留与掩码向量中值为 1 的特征对应的部分。

28、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,注意力机制通过如下方式计算得到蛋白质和配体图的节点特征表示:

29、(11)

30、表示第l+1层中节点i的特征表示; relu表示非线性激活函数; norm表示归一化操作;、是两个权重矩阵;

31、表示节点i在第l+1层更新后的特征表示,通过如下方式得到:

32、(9)

33、i,j是索引变量,节点i和节点j分别表示同一图中的不同节点;

34、为第l层中节点i的特征表示;表示线性变换矩阵;∥表示连接,k=1…k表示注意力头数;

35、为注意力权重,与节点i的查询向量、节点j的键向量和节点ij之间的边特征向量相关;

36、为特征节点j的值向量。

37、在上述的基于图transformer的蛋白质-配体对接打分模型的构建方法中,mdn损失和pkd 损失分别为:

38、(17)

39、(21)

40、n表示样本总数;表示第n个样本中,蛋白质节点i和配体节点j之间关系的权重;

41、表示给定蛋白质节点 i和配体节点 j的特征和时,蛋白质节点 i和配体节点 j之间距离 d( i, j)的条件概率分布;

42、表示第 n个样本中,蛋白质节点i和配体节点j之间关系的高斯分布的标准差;

43、表示第 i个样本的预测 pkd值;表示第 i个样本的真实 pkd值。

44、本文档来自技高网...

【技术保护点】

1.一种基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,模型包括依次相连的图神经网络、基于注意力机制的多层网络以及解码模块;

2.根据权利要求1所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,将蛋白质和配体的三维空间关系表示为二维图结构分别得到所述的蛋白质图和配体图;

3.根据权利要求2所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,所述的配体节点特征包括原子类型、杂化状态、形式电荷、芳香性以及自由基电子的存在;

4.根据权利要求2所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,所述的蛋白质节点特征包括残基类型、残基内关键原子之间的空间距离、键内旋转的二面角描述;

5.根据权利要求1所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,图神经网络通过如下方式将输入转换为嵌入向量:

6.根据权利要求5所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,对于输入的嵌入向量,经过掩码处理后的特征表示为:

7.根据权利要求1所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,注意力机制通过如下方式计算得到蛋白质和配体图的节点特征表示:

8.根据权利要求5所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,MDN损失和pKd 损失分别为:

9.根据权利要求1-8任意一项所述的基于图Transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,训练模型所使用的训练数据包括所述的蛋白质图和配体图,以及相应的标签数据;

10.一种蛋白质-配体对接打分系统,其特征在于,包括通过权利要求1-9任意一项所述方法构建的打分模型;

...

【技术特征摘要】

1.一种基于图transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,模型包括依次相连的图神经网络、基于注意力机制的多层网络以及解码模块;

2.根据权利要求1所述的基于图transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,将蛋白质和配体的三维空间关系表示为二维图结构分别得到所述的蛋白质图和配体图;

3.根据权利要求2所述的基于图transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,所述的配体节点特征包括原子类型、杂化状态、形式电荷、芳香性以及自由基电子的存在;

4.根据权利要求2所述的基于图transformer的蛋白质-配体对接打分模型的构建方法,其特征在于,所述的蛋白质节点特征包括残基类型、残基内关键原子之间的空间距离、键内旋转的二面角描述;

5.根据权利要求1所述的基于图transformer的蛋白质-配体对接打分模型的构建方法,其特征...

【专利技术属性】
技术研发人员:刘利邹权张润华丁漪杰吴宏杰
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1