一种基于双向长短期记忆网络的蛋白质残基B-factor预测模型构建方法技术

技术编号：43168836 阅读：17 留言：0更新日期：2024-11-01 19:59

本发明专利技术属于蛋白质结构计算领域，具体涉及一种基于双向长短期记忆网络的蛋白质残基B‑factor预测模型构建方法，包括：对用于构建训练样本的每种蛋白质序列进行切割，对应获得序列片段集；提取每个序列片段中每个残基的四种序列特征和五种结构特征，并将两种特征拼接作为该残基的特征向量；将每个序列片段中各残基的特征向量拼接构成该序列片段的特征矩阵，将位于每个序列片段中心位置处的残基作为待预测残基，每个序列片段的特征矩阵和对应待预测残基的B‑factor构成一个训练样本；采用训练样本集训练深度神经网络模型，得到蛋白质B‑factor预测模型，深度神经网络模型包括BiLSTM。本发明专利技术能提高预测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于蛋白质结构计算领域，更具体地，涉及一种基于双向长短期记忆网络的蛋白质残基b-factor预测模型构建方法。

技术介绍

1、b-factor是衡量蛋白质晶体结构在x射线衍射过程中由原子热运动引起的射线衰减程度，可以表征蛋白质局部结构的柔性和动态性质，因此被广泛应用于蛋白质动力学研究、生物活性小分子筛选和蛋白质工程。尽管b-factor在蛋白质研究中具有如此重要的价值，但b-factor的测量来自于x射线晶体学实验，而通过核磁共振或冷冻电镜解析获得的蛋白质结构则缺乏b-factor数据，且实验方法获取b-factor的成本高、耗时长，这极大地限制了相关生命科学的研究。因此，有必要开发能够准确有效预测b-factor的计算方法。

2、根据预测结果，目前b-factor的预测任务可以分为两类：分类和回归。通常，b-factor值越大，表明残基柔性越强，蛋白质局部结构越活跃；反之，残基柔性越弱，局部结构越稳定。因此，通过设定合适的阈值，可以将残基分为柔性和刚性，进而对残基进行分类预测。回归预测则是对残基的b-factor进行具体的数值预测，可以对蛋白质的柔性进行更准确地预测和分析。近年来，随着人工智能技术的快速发展和广泛应用，机器学习算法广泛应用于蛋白质柔性的预测，这些方法包括随机森林(rf)、支持向量机(svm)和人工神经网络(ann)等。

3、尽管已经有许多方法来预测蛋白质的b-factor，但大多数只是将其作为简单的二分类问题来处理，将残基只归入两类可能会导致预测准确性的降低。

4、

技术实现思路

1、针对现有技术的缺陷和改进需求，本专利技术提供了一种基于双向长短期记忆网络的蛋白质残基b-factor预测模型构建方法，其目的在于提高蛋白质中残基b-factor的预测精度。

2、为实现上述目的，按照本专利技术的一个方面，提供了一种基于双向长短期记忆网络的蛋白质残基b-factor预测模型构建方法，包括：

3、对用于构建训练样本的每种蛋白质序列进行切割，对应获得序列片段集，其中每个序列片段包含15个残基，在切割之前在该种蛋白质序列的两端分别增加7个空白残基；提取每个序列片段中每个残基的序列特征和结构特征，并将两种特征拼接作为该残基的特征向量；将每个序列片段中各残基的特征向量拼接构成该序列片段的特征矩阵，将位于每个序列片段中心位置处的残基作为待预测残基，每个序列片段的特征矩阵和作为标签的对应待预测残基的b-factor构成一个训练样本，得到训练样本集；其中，序列特征包括：残基名称编码，残基物理化学性质，位置特异性打分矩阵pssm以及基于隐马尔可夫模型的位置特异性打分矩阵hmm；结构特征包括：用于表征原子模型质量的r-value，晶体分辨率，原子堆积密度，扭转角以及溶剂可接触面积；

4、采用训练样本集训练深度神经网络模型，得到蛋白质b-factor预测模型，其中，所述深度神经网络模型包括顺序连接的第一bilstm、第一dropout、第二bilstm、第二dropout、第一全连接层、flatten和第二全连接层。

5、进一步，所述残基物理化学性质包括：空间参数、极化率、体积、疏水性、等电点、螺旋率和片层率。

6、进一步，所述残基名称编码是通过one-hot编码方式对氨基酸残基名称所编码得到的21维编码向量。

7、进一步，用于构建训练样本的各蛋白质序列来自不同的蛋白质结构文件，所述蛋白质结构文件来自pdb数据库，筛选条件包括：序列同源性低于25％，r-value不超过0.2，晶体分辨率不超过以及序列长度在60到1000之间。

8、进一步，在执行训练之前，对所有训练样本中的标签值进行z-score归一化操作。

9、进一步，第一bilstm的units参数设置为15，第一dropout的units参数设置为0.5，第二bilstm的units参数设置为15，第二dropout的units参数设置为0.5，第一全连接层的units参数设置为1024，第二全连接层的units参数设置为1。

10、本专利技术还提供一种蛋白质b-factor预测方法，包括：

11、采用如上所述的蛋白质残基b-factor预测模型构建方法中的特征矩阵构建方式，构建待预测蛋白质中目标残基对应的特征矩阵；

12、将所述特征矩阵输入如上所述的蛋白质残基b-factor预测模型构建方法所构建得到的蛋白质残基b-factor预测模型，得到目标残基的b-factor，完成预测。

13、本专利技术还提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的蛋白质残基b-factor预测模型构建方法和/或如上所述的蛋白质b-factor预测方法的步骤。

14、本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的蛋白质残基b-factor预测模型构建方法和/或如上所述的蛋白质b-factor预测方法。

15、本专利技术还提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现如上所述的蛋白质残基b-factor预测模型构建方法和/或如上所述的蛋白质b-factor预测方法的步骤。

16、总体而言，通过本专利技术所构思的以上技术方案，能够取得以下有益效果：

17、(1)本专利技术为了解决现有技术中蛋白质b-factor的预测精度不够高的问题，构建了一个基于双向长短期记忆网络(bilstm)的深度神经网络模型，利用蛋白质残基的四种序列特征和五种结构特征对蛋白质残基的b-factor进行回归预测，大大提高了预测蛋白质残基b-factor的准确性与精确度。具体的，对每种蛋白质序列进行切割，对应获得序列片段集，其中每个序列片段包含15个残基，在切割之前在该种蛋白质序列的两端分别增加7个空白残基，以保证每个待测残基位于序列片段的中心位置；提出蛋白质残基的四种序列特征和五种结构特征；另外，长短期记忆(lstm)是一种增强型递归神经网络(rnn)架构，考虑到在蛋白质分子中，每个残基都受到其周围残基的影响，而bilstm由前向lstm和后向lstm组成，这使得它能够充分考虑上下文信息，因此特别适合用于处理蛋白质序列问题。本专利技术基于以上技术特征的协同，相比现有技术，极大提高了蛋白质残基b-factor预测精度。

18、(2)本专利技术考虑本文档来自技高网...

【技术保护点】

1.一种基于双向长短期记忆网络的蛋白质残基B-factor预测模型构建方法，其特征在于，包括：

2.根据权利要求1所述的蛋白质残基B-factor预测模型构建方法，其特征在于，所述残基物理化学性质包括：空间参数、极化率、体积、疏水性、等电点、螺旋率和片层率。

3.根据权利要求1所述的蛋白质残基B-factor预测模型构建方法，其特征在于，所述残基名称编码是通过one-hot编码方式对氨基酸残基名称所编码得到的21维编码向量。

4.根据权利要求1所述的蛋白质残基B-factor预测模型构建方法，其特征在于，用于构建训练样本的各蛋白质序列来自不同的蛋白质结构文件，所述蛋白质结构文件来自PDB数据库，筛选条件包括：序列同源性低于25％，R-value不超过0.2，晶体分辨率不超过以及序列长度在60到1000之间。

5.根据权利要求1所述的蛋白质残基B-factor预测模型构建方法，其特征在于，在执行训练之前，对所有训练样本中的标签值进行z-score归一化操作。

6.根据权利要求1至5任一项所述的蛋白质残基B-factor预测

7.一种蛋白质B-factor预测方法，其特征在于，包括：

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的蛋白质残基B-factor预测模型构建方法和/或如权利要求7所述的蛋白质B-factor预测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至6任一项所述的蛋白质残基B-factor预测模型构建方法和/或如权利要求7所述的蛋白质B-factor预测方法。

10.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现如权利要求1至6任一项所述的蛋白质残基B-factor预测模型构建方法和/或如权利要求7所述的蛋白质B-factor预测方法的步骤。

...

【技术特征摘要】

1.一种基于双向长短期记忆网络的蛋白质残基b-factor预测模型构建方法，其特征在于，包括：

2.根据权利要求1所述的蛋白质残基b-factor预测模型构建方法，其特征在于，所述残基物理化学性质包括：空间参数、极化率、体积、疏水性、等电点、螺旋率和片层率。

3.根据权利要求1所述的蛋白质残基b-factor预测模型构建方法，其特征在于，所述残基名称编码是通过one-hot编码方式对氨基酸残基名称所编码得到的21维编码向量。

4.根据权利要求1所述的蛋白质残基b-factor预测模型构建方法，其特征在于，用于构建训练样本的各蛋白质序列来自不同的蛋白质结构文件，所述蛋白质结构文件来自pdb数据库，筛选条件包括：序列同源性低于25％，r-value不超过0.2，晶体分辨率不超过以及序列长度在60到1000之间。

5.根据权利要求1所述的蛋白质残基b-factor预测模型构建方法，其特征在于，在执行训练之前，对所有训练样本中的标签值进行z-score归一化操作。

6.根据权利要求1至5任一项所述的蛋白质残基b-factor预测模型构建方法，其特征在于，第一bilstm的units参数设置为15，第一dro...

【专利技术属性】
技术研发人员：蒋滨，王倩倩，肖雄杰，苗志伟，张许，刘买利，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人