基于图卷积神经网络模型的蛋白质分子模拟结果分析方法技术

技术编号：42730808 阅读：27 留言：0更新日期：2024-09-13 12:16

本发明专利技术公开了基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，本发明专利技术通过图卷积神经网络模型完成分子模拟结果的分析和降维，并通过引入注意力机制可视化了分子间相互作用力的强弱和分子对微观状态的贡献值，提升了模型的可解释性。解决了现有的蛋白质分子模拟结果分析方法存在结构特征子集选择困难和模型可解释性不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息领域，尤其涉及的是一种基于图卷积神经网络模型的蛋白质分子模拟结果分析方法。

技术介绍

1、分子动力学模拟(md)是以牛顿力学的经典理论为基础，从原子之间的基本相互作用势出发，对体系的构象变化进行采样，分析相应的动力学和热力学信息，从而研究该分子体系的计算方法。

2、分子模拟技术是理解蛋白质结构的重要方法之一，生物大分子如蛋白质、核酸等，是生物进行生命活动的核心。其中，蛋白质是生命系统中重要的分子物质，对于生命体系的构建有着至关重要的作用。蛋白质大分子通常通过构象变化来发挥其功能，分子模拟可以从原子水平上反应蛋白质结构变化的细致原因和动态转换过程。

3、蛋白质分子模拟的结果分析与数据挖掘能够揭示许多重要生命过程，如蛋白质折叠、膜蛋白转运、蛋白质相互作用等。随着分子模拟时间的快速增长和蛋白质模拟体系尺度的急速增加，蛋白质构象转变的分子模拟轨迹包含的数据维度和数据规模不断扩大，如何从繁杂的模拟数据中挖掘有用的数据特征并合理降维称为领域内的一项重要挑战。同时，伴随各种人工智能算法在该领域的应用，分子机制的关联性和模型的可解释性也逐渐成为一个重要难题。

4、全原子分子动力学模拟可以详细研究功能构象变化，然而蛋白质分子模拟的时间尺度(微秒或更短)仍然比功能构象变化(毫秒或更长)短几个数量级。马尔可夫状态模型(markov state models，msms)是一种通过基于大量的短md模拟预测长尺度动力学轨迹分析来弥补这一时间尺度差距的流行方法。目前msms已被广泛应用于研究整体构象变

5、因此，现有技术还有待改进和发展。

技术实现思路

1、本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，旨在解决现有的蛋白质分子模拟结果分析方法存在结构特征子集选择困难和模型可解释性不足的问题。

2、本专利技术解决问题所采用的技术方案如下：

3、第一方面，本专利技术实施例提供一种基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其中，所述方法包括：

4、将固定滞后时间前后分别对应的蛋白质轨迹输入已训练的图卷积神经网络模型；

5、获取所述图卷积神经网络模型输出的两个所述蛋白质轨迹各自的变换表示；

6、所述图卷积神经网络模型包括：

7、建图模块，用于将两个所述蛋白质轨迹中的蛋白质结构分别转化为对应的图表示，其中，所述图表示由节点的特征和边的特征组成；所述节点基于原子或者氨基酸建立，所述边用于表征节点之间的关系；节点嵌入通过随机初始化或者one-hot编码完成；边嵌入通过高斯分布计算得到；

8、图卷积模块，用于将两个所述图表示的节点嵌入分别在若干图卷积交互层中更新，其中，每一所述图卷积交互层包含节点之间的连续卷积；

9、注意力层，用于学习边嵌入对更新下一层中传入节点嵌入的重要性；

10、池化层，用于根据学习到的节点嵌入，为两个所述蛋白质轨迹分别生成一个图嵌入；

11、softmax层，用于根据两个所述图嵌入分别确定两个所述蛋白质轨迹各自的所述变换表示。

12、在一种实施方式中，所述边基于每一原子或者氨基酸按照cα原子选择最邻近的若干原子或者氨基酸建立。

13、在一种实施方式中，每一所述图表示的节点嵌入的实现方法包括：

14、将该图表示的各所述边输入图卷积过滤器生成网络；

15、通过所述图卷积过滤器生成网络将各所述边的特征映射到dh维；

16、各所述边的特征和各所述节点的特征经过多次过滤卷积生成新的节点嵌入。

17、在一种实施方式中，所述注意力层中的注意权值通过训练注意力层参数和softmax函数在节点嵌入和相邻节点之间进行学习。

18、在一种实施方式中，所述softmax层包括用于输出所述蛋白质轨迹的蛋白结构属于不同子状态的概率的softmax函数；所述方法还包括：

19、根据所述softmax层中softmax函数的输出数据确定所述蛋白质轨迹的蛋白结构的状态类别。

20、在一种实施方式中，所述图卷积神经网络模型在训练时使用的损失函数基于约束参数s和u计算得到；所述图卷积神经网络模型的输出为最优变换函数的计算结果；所述图卷积神经网络模型的训练方法包括：

21、通过vamp-e评分对所述最优变换函数进行训练；

22、将整个训练集集中在一批中，对于隐含的时间尺度，保持所述最优变换函数固定，仅对s和u进行训练。

23、在一种实施方式中，通过vamp-e评分对所述最优变换函数进行训练之前还包括：

24、通过vamp-2评分训练一个带有softmax输出的网络作为所述最优变换函数；

25、将整个训练集集中在一批中，将所述最优变换函数固定为vamp-e评分，对s和u进行训练。

26、第二方面，本专利技术实施例还提供一种用于蛋白质分子模拟结果分析的图卷积神经网络模型，其中，所述图卷积神经网络模型包括：

27、建图模块，用于将两个所述蛋白质轨迹中的蛋白质结构分别转化为对应的图表示，其中，所述图表示由节点的特征和边的特征组成；所述节点基于原子或者氨基酸建立，所述边用于表征节点之间的关系；节点嵌入通过随机初始化或者one-hot编码完成；边嵌入通过高斯分布计算得到；

28、图卷积模块，用于将两个所述图表示的节点嵌入分别在若干图卷积交互层中更新，其中，每一所述图卷积交互层包含节点之间的连续卷积；

29、注意力层，用于学习边嵌入对更新下一层中传入节点嵌入的重要性；

30、池化层，用于根据学习到的节点嵌入，为两个所述蛋白质轨迹分别生成一个图嵌入；

31、softmax层，用于根据两个所述图嵌入分别确定两个所述蛋白质轨迹各自的所述变换表示。

32、第三方面，本专利技术实施例还提供一种终端，其中，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如上述任一所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法的指令；所述处理器用于执行所述程序。

33、第四方面，本专利技术实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法的步骤。

34、本专利技术的有益效果：本专利技术实施例通过图卷积神经网络模型完成分子模拟结果的分析和降维，并通过引入注意力机制可视化了分子间相互作用力的强弱和分子对微观状态的贡献值，提升了模型的可解释性。因此本实施例提供的方法可以解决目前蛋白质分子模拟本文档来自技高网...

【技术保护点】

1.一种基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述边基于每一原子或者氨基酸按照Cα原子选择最邻近的若干原子或者氨基酸建立。

3.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，每一所述图表示的节点嵌入的实现方法包括：

4.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述注意力层中的注意权值通过训练注意力层参数和Softmax函数在节点嵌入和相邻节点之间进行学习。

5.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述Softmax层包括用于输出所述蛋白质轨迹的蛋白结构属于不同子状态的概率的Softmax函数；所述方法还包括：

6.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述图卷积神经网络模型在训练时使用的损失函数基于约束参数S和u计算得到

7.根据权利要求6所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，通过VAMP-E评分对所述最优变换函数进行训练之前还包括：

8.一种用于蛋白质分子模拟结果分析的图卷积神经网络模型，其特征在于，所述图卷积神经网络模型包括：

9.一种终端，其特征在于，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如权利要求1-7中任一所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法的指令；所述处理器用于执行所述程序。

10.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述权利要求1-7任一所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法的步骤。

...

【技术特征摘要】

1.一种基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述边基于每一原子或者氨基酸按照cα原子选择最邻近的若干原子或者氨基酸建立。

3.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，每一所述图表示的节点嵌入的实现方法包括：

4.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述注意力层中的注意权值通过训练注意力层参数和softmax函数在节点嵌入和相邻节点之间进行学习。

5.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果分析方法，其特征在于，所述softmax层包括用于输出所述蛋白质轨迹的蛋白结构属于不同子状态的概率的softmax函数；所述方法还包括：

6.根据权利要求1所述的基于图卷积神经网络模型的蛋白质分子模拟结果...

【专利技术属性】
技术研发人员：黄莹，郗文辉，魏彦杰，
申请(专利权)人：深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人