System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于几何图神经网络的蛋白质口袋识别方法技术_技高网

一种基于几何图神经网络的蛋白质口袋识别方法技术

技术编号:42547238 阅读:7 留言:0更新日期:2024-08-27 19:49
本公开提供一种基于几何图神经网络的蛋白质口袋识别方法。包括步骤S1‑S8:步骤S1,输入存储蛋白质的结构信息的蛋白质文件;步骤S2,对输入的所述蛋白质文件提取原子信息;步骤S3,获取蛋白质原子的局部几何信息;步骤S4,获取蛋白质全局结构特征;步骤S5,将蛋白质表面的原子的信息拼接,作为原子的综合特征;步骤S6,使用几何图神经网络获取更新后的节点综合表征;步骤S7,预测每个原子可以构成蛋白质口袋的概率;步骤S8,输出潜在的蛋白质口袋和对应的空间坐标。本发明专利技术能够通过解析蛋白质的三维结构数据,并进行原子级别的信息处理手段,处理不同大小的蛋白质,并通过分析分子的局部几何信息和化学结构信息,实现较高的准确度和精度。

【技术实现步骤摘要】

本公开涉及人工智能领域,更具体地讲,涉及一种基于几何图神经网络的蛋白质口袋识别方法


技术介绍

1、在药物发现过程中,识别蛋白质表面能够与小分子配体特异性结合的区域(通常称为“口袋”)是至关重要的步骤。这些口袋通常是潜在的药物靶标,其识别和表征对于新药的设计和开发具有重大意义。在识别出蛋白质表面的潜在口袋区域,药物学家会进一步进行药物设计。现有方法主要采用卷积神经网络(convolutional neural networks,cnns)来进行口袋发现和识别,特别是如专利cn 115620801的方案,虽然已经取得了一定的成绩,但是在计算过程中仍然需要对蛋白质进行体素化处理,转化为固定大小的三维体素化表示,这就带来了如限制处理蛋白质的大小、难以获得丰富的蛋白质结构表征、对旋转敏感等问题,最终导致失败率高、效率低、预测精度不够。

2、本专利技术的目的在于针对现有技术中蛋白质结合位点预测方法存在的失败率高、效率低、预测精度不够等问题,提出一种新型基于几何图神经网络的蛋白质口袋识别技术方案。


技术实现思路

1、本公开的实施例的目的在于提供一种基于几何图神经网络的蛋白质口袋识别方法。

2、在一个总的方面,提供一种基于几何图神经网络的蛋白质口袋识别方法,包括步骤s1-s8:

3、步骤s1,输入存储蛋白质的结构信息的蛋白质文件;

4、步骤s2,对输入的所述蛋白质文件,解析其中蛋白质的三维结构数据,提取以atom开头的原子信息;

5、步骤s3,根据解析得到的蛋白质的原子信息获得蛋白质分子中的原子相关局部几何信息;

6、步骤s4,获取蛋白质全局结构特征;

7、步骤s5,将每个位于蛋白质表面的原子的局部几何信息和化学结构信息进行拼接,作为原子的综合特征;

8、步骤s6,根据位于蛋白质表面的原子的空间位置,再次使用几何图神经网络对这些原子的综合特征进行更新和迭代获取更新后的节点综合表征;

9、步骤s7,基于每个蛋白质表面原子更新后的综合表征,使用3层前馈神经网络来预测每个原子属于蛋白质口袋的概率,其中前馈神经网络的激活函数使用了relu,并且应用了adam优化器进行模型训练和参数优化;

10、步骤s8,以步骤s7计算得到的概率对蛋白质表面原子使用mean-shift方法进行聚类,输出潜在的蛋白质口袋和对应的空间信息。mean-shift是一种基于密度的非参数聚类算法。其基本步骤如下,在蛋白质的原子中随机选定一个点,然后以这个点为圆心,以一定半径画一个圆,求出这个点到所有蛋白质原子的距离向量的平均值,并将圆心坐标加上该距离向量均值作为新的圆心。然后迭代此过程,直到圆心空间位置的变化小于设定阈值(0.5)而结束。最终确定的圆心和包含的蛋白质原子就是蛋白质口袋的空间信息。

11、所述原子信息包括:原子序号、原子类型、碱基序列或是氨基酸序列、链序号、核苷酸序号、xyz三维直角坐标、原子名称、化学键信息。

12、蛋白质原子的局部几何信息的获取方式为:

13、步骤s301,根据蛋白质的原子名称、坐标、类型信息,生成蛋白质的溶剂可及表面;

14、步骤s302,计算蛋白质原子到蛋白质溶剂可及表面的距离,具体而言:根据每个蛋白质原子的空间位置坐标,计算其与最近的蛋白质溶剂可及表面的欧几里得距离。再根据该距离信息,根据预设的阈值,过滤出位于蛋白质表面的节点和位于蛋白质内部的蛋白原子。

15、步骤s303,针对s302步骤过滤出来的位于蛋白质表面的原子节点,计算这些原子到蛋白质表面的几何信息,包括距离、角度信息;

16、步骤s304,将s303步骤计算出来原子的几何信息输入到深度神经网络,计算出蛋白质原子的局部几何特征包括蛋白质原子周围溶剂可及表面的曲率,大小,深度等等。

17、4、如权利要求1所述的一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,所述获取蛋白质原子的全局结构特征的具体步骤为:

18、步骤s401,提取蛋白质原子的结构信息,包括原子坐标、原子类型、所属的化学键类型;

19、步骤s402,使用神经网络对原子类型、化学键进行编码;

20、步骤s403,根据蛋白质原子之间的相对位置信息,使用了3层的几何图神经网络对步骤s402得到的编码信息进行互相迭代和升级,得到原子的全局结构特征;几何图神经网络结构如下:

21、

22、

23、

24、其中,公式(1-3)就是该几何图神经网络的主要结构,代表了第l层的输入的原子i的特征信息。是代表了第l层的原子i的全局结构特征。,就是蛋白质原子最初的坐标信息和步骤s402得到的原子特征的编码信息。就是蛋白质原子间的相对位置信息。是前馈神经网络。为最终结算得到的蛋白质原子的全局结构信息。

25、本专利技术能够通过解析蛋白质的三维结构数据,基于原子级别的信息处理手段,分析蛋白质原子的局部几何信息和化学结构信息,进行蛋白质口袋识别。其中,步骤s301-s304以及步骤s401-s403不受蛋白质的大小限制,可以适应处理各种尺寸的蛋白质。步骤s304和s403得到的局部几何特征和全局结构特征共同协力以实现较高的准确度和精度。

本文档来自技高网...

【技术保护点】

1.一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,包括步骤S1-S8:

2.如权利要求1所述的一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,所述原子信息包括:原子序号、原子类型、碱基序列或是氨基酸序列、链序号、核苷酸序号、XYZ三维直角坐标、原子名称、化学键信息。

3.如权利要求1所述的一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,蛋白质原子的局部几何信息的获取方式为:

4.如权利要求1所述的一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,所述获取蛋白质原子的全局结构特征的具体步骤为:

5.如权利要求1所述的一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,所述阈值围为0.5。

【技术特征摘要】

1.一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,包括步骤s1-s8:

2.如权利要求1所述的一种基于几何图神经网络的蛋白质口袋识别方法,其特征在于,所述原子信息包括:原子序号、原子类型、碱基序列或是氨基酸序列、链序号、核苷酸序号、xyz三维直角坐标、原子名称、化学键信息。

3.如权利要求1所述的一种基...

【专利技术属性】
技术研发人员:魏哲巍张阳黄文炳
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1