一种基于混合网络模型的蛋白质结构域边界预测方法技术

技术编号:37783361 阅读:11 留言:0更新日期:2023-06-09 09:13
一种基于混合网络模型的蛋白质结构域边界预测方法,设计了一种结合卷积网络和长短时记忆网络的混合深度学习网络模型对输入特征进行信息提取,输入特征包括:蛋白质氨基酸序列,位置特异性矩阵(PSSM),二级结构和溶剂可及性;然后使用随机森林对提出的深度特征进行分类,每个残基得到一个[0,1]之间的概率分数,结合大量实验数据得出的边界阈值判断每一个蛋白质残基是否处于域边界区域。用庞大数据来学习域边界分割规则,对于蛋白质结构域分割具有极大的进步意义。本发明专利技术提升了边界预测的可靠性。靠性。靠性。

【技术实现步骤摘要】
一种基于混合网络模型的蛋白质结构域边界预测方法


[0001]本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于混合网络模型的蛋白质结构域边界预测方法。

技术介绍

[0002]蛋白质结构域是蛋白质结构、折叠、功能、进化和设计的基本单元。它们是局部紧凑的结构单元。
[0003]蛋白质结构域检测方法可以分为两种:基于蛋白质结构的结构域分割方法和基于序列的结构域分割方法。基于结构的方法需要实验或预测的蛋白质结构来进行域识别。然而,生物湿实验测定蛋白三维结构耗时、费力、成本高。随着高通量测序技术的发展,使得蛋白质序列于其结构已经处于极度不平衡的关系,所以基于结构的结构域分割方法已经难以满足实际需求。
[0004]基于序列的方法包括基于同源和ab initio两种方法,基于同源的方法的局限性在于如果找不到好的同源模板时预测精度会急剧下降。而ab initio方法则可以克服这种局限性,因为ab initio方法大多使用的是统计方法来预测域边界。这种方法可以看作蛋白质每一个残基的二分类问题。但是早期的ab initio方法准确率只有25%

40%,因为他们的输入特征只选择了短程信息,而忽略了长程信息。

技术实现思路

[0005]为了克服现有的蛋白质结构域边界预测方法存在的局限性和精度低等问题,本专利技术提出了一种混合网络模型来提取短程和长程特征,弥补了传统网络模型只关注短程特征的缺陷;最后,本专利技术引入随机森林分类方法对特征进行分类,从而预测出每个残基是否为边界点的概率,进一步提升了边界预测的可靠性。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种基于混合网络模型的蛋白质结构域边界预测方法,所述方法包括以下步骤:
[0008]1)序列数据集构建:根据蛋白质结构域分类数据库CATH的结构域信息,提取出蛋白质的全长序列和边界;首先,从提取出的蛋白质序列中去除链长小于80或者域长度小于40的蛋白质序列,然后去除链长大于1500的蛋白质序列;得到78653条序列;其次,用CD

HIT以30%序列相似度去除冗余;最后得到20336条序列作为数据集;输入特征提取;
[0009]3)网络框架搭建;
[0010]4)训练模型参数:将序列编码(21*L),PSSM(42*L),二级结构(3*L)和溶剂可及性(2*L)融合成一个68*L的特征数据输入到特征提取网络,经过设定的训练轮次的数据降维,特征提取,反向传播,最终得到训练好的模型参数;
[0011]5)确定边界阈值:根据训练出来的模型,预测200个实例,使用不同的域边界阈值计算马修斯相关系数MCC,分数最高MCC对应的域边界阈值作为最终
[0012]使用的域边界阈值,计算公式为:
[0013][0014]6)域边界点确定:对于输入的蛋白质序列,利用训练好的网络预测得到的每个残基是域边界区域的概率,然后与边界阈值比较,如果大于步骤5)确定的阈值则设置为可能的域边界区域;然后从可能的域边界区域中找出最高概率残基M作为候选割点;根据步骤2预测出的二级结构,如果M残基不处于loop区域,则将候选割点移到距离M残基最近的loop区域的残基F上,如果M残基处于loop区域,则M为最终的割点。
[0015]进一步,所述步骤2)中,输入特征提取的过程如下:根据氨基酸序列,分别对每个氨基酸进行编码,编码方式为:20种氨基酸加一个gap区分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:
[0016]9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20,gap:21。然后将编码完成的蛋白质序列使用独热编码转化为L*21的矩阵;根据氨基酸序列,使用PSIBLAST从NR数据库中生成多序列联配,从而构建位置特异性分数矩阵PSSM作为本方法的输入特征之一,步骤如下:获取多序列比对文件:利用PSIBLAST工具,设定最大序列相似度S
max
=90%、覆盖率cov=75%,对NR序列数据库搜索,得到目标序列的同源序列组成的多序列比对文件;以序列相似度SS过滤多序列比对文件,得到有效多序列比对文件,计算有效序列数S
val
,公式如下:
[0017][0018][0019]其中S为多序列比对文件中序列的数目,m和n为多序列比对文件中两条互不相同的序列,若序列m和n在输入序列的第i个位置残基相同,则为1,否则为0,L表示输入序列的长度;
[0020]2.2.2)根据多序列比对文件计算序列PSSM,首先计算氨基酸在序列某个位置出现的频率谱f
i
(A),公式如下:
[0021][0022]其中N
A
为氨基酸A在有效多序列比对文件中某一列出现次数;为了防止出现频率谱数据稀疏的情况,对频率谱f
i
(A)做如下转化:
[0023][0024]获得21*L的PSSM,对序列氨基酸频率谱特征做水平遍历和垂直遍历处理,将频率谱特征维度变成42*L,L表示输入序列的长度;
[0025]2.3)根据氨基酸序列,使用SCRATCH预测蛋白的二级结构和溶剂可及性,其中二级
结构分别使用(1,0,0)代表α螺旋,(0,1,0)代表β折叠,(0,0,1)代表loop区,得到的二级结构为3*L维的特征;溶剂可及性分别使用(1,0)和(0,1)代表每个残基的暴露状态和掩埋状态,溶剂可及性表示为2*L维的特征。
[0026]再进一步,所述步骤3)中,网络框架搭建的过程如下:
[0027]3.1)网络的第一层是一个一维的multi

scale卷积层,它由三个卷积核分别为11、15、21的一维卷积层组合而成,multi

scale卷积层能够提取输入序列的短程特征;
[0028]3.2)网络第二层是一个BLSTMs,它由三个BLSTM堆叠而成,每个BLSTM又是由两个双向LSTM组成,两个LSTM分别从蛋白质序列的N

端和C

端开始扫描。BLSTMs能够提取输入序列的长程特征;
[0029]3.3)multi

scale卷积层和BLSTMs从输入特征中提取深度特征,然后根据提取到的深度特征,使用随机森林对每个残基进行是域边界区域概率的预测。
[0030]更进一步,所述步骤6)中,根据步骤2.3)预测出的二级结构,如果M残基不处于loop区域,则将候选割点移到距离M残基最近的loop区域的残基F上,如果M残基处于loop区域,则M为最终的割点。
[0031]本专利技术的有益效果主要表现在:在深度学习算法框架下,从序列出发提出一种基于混本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合网络模型的蛋白质结构域边界预测方法,其特征在于,所述方法包括以下步骤:1)序列数据集构建:根据蛋白质结构域分类数据库CATH的结构域信息,提取出蛋白质的全长序列和边界;首先,从提取出的蛋白质序列中去除链长小于80或者域长度小于40的蛋白质序列,然后去除链长大于1500的蛋白质序列;得到78653条序列;其次,用CD

HIT以30%序列相似度去除冗余;最后得到20336条序列作为数据集;输入特征提取;3)网络框架搭建;4)训练模型参数:将序列编码(21*L),PSSM(42*L),二级结构(3*L)和溶剂可及性(2*L)融合成一个68*L的特征数据输入到特征提取网络,经过设定的训练轮次的数据降维,特征提取,反向传播,最终得到训练好的模型参数;5)确定边界阈值:根据训练出来的模型,预测200个实例,使用不同的域边界阈值计算马修斯相关系数MCC,分数最高MCC对应的域边界阈值作为最终使用的域边界阈值,计算公式为:6)域边界点确定:对于输入的蛋白质序列,利用训练好的网络预测得到的每个残基是域边界区域的概率,然后与边界阈值比较,如果大于步骤5)确定的阈值则设置为可能的域边界区域;然后从可能的域边界区域中找出最高概率残基M作为候选割点;根据步骤2预测出的二级结构,如果M残基不处于loop区域,则将候选割点移到距离M残基最近的loop区域的残基F上,如果M残基处于loop区域,则M为最终的割点。2.如权利要求1所述的一种基于混合网络模型的蛋白质结构域边界预测方法,其特征在于,所述步骤2)中,输入特征提取的过程如下:根据氨基酸序列,分别对每个氨基酸进行编码,编码方式为:20种氨基酸加一个gap区分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20,gap:21。然后将编码完成的蛋白质序列使用独热编码转化为L*21的矩阵;根据氨基酸序列,使用PSIBLAST从NR数据库中生成多序列联配,从而构建位置特异性分数矩阵PSSM作为本方法的输入特征之一,步骤如下:获取多序列比对文件:利用PSIBLAST工具,设定最大序列相似度S
max
=90%、覆盖率cov=75%,对NR序列数据库搜索,得到目标序列的同源序...

【专利技术属性】
技术研发人员:张贵军汪乾梁彭春翔张金龙朱海涛周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1