一种基于蚁群算法的蛋白质结构的全原子预测方法技术

技术编号:35451395 阅读:18 留言:0更新日期:2022-11-03 12:06
一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型。本发明专利技术利用最优化技术,通过模拟蛋白质折叠过程来优化蛋白质模型,使其改变为接近天然蛋白质的分子构型。模拟蛋白质折叠这一过程,使蛋白质模型能够继续折叠,直到接近天然构象。本发明专利技术考虑蛋白质的主链结构与侧链的全原子模型,对全原子模型进行整体优化。对全原子模型进行整体优化。

【技术实现步骤摘要】
一种基于蚁群算法的蛋白质结构的全原子预测方法


[0001]本专利技术涉及生物信息学中蛋白质环区结构预测
,具体涉及一种蛋白质环区结构预测方法,将最优化方法应用到蛋白质结构预测。

技术介绍

[0002]蛋白质是地球上生物体中的必要组成成分,参与了细胞生命活动的每一个进程。目前对蛋白质结构预测的方法有三种办法:同源建模,折叠识别法,以及“从头开始”方法。一般来说,在蛋白质结构预测软件中构建蛋白质分子的全原子模型,据牛顿运动学利用分子动力学或者蒙特卡洛的方法进行模拟,依据物理的势能是自然的也是最基础的选择。但是研究表明经验势能在模拟生物分子时优于依据物理的势能。很多的科研人员研究并且提出了很多的全原子经验势能,这种模拟方法能很好的模拟蛋白质的结构。通过计算机算法预测蛋白质结构是十分必要的。从算法的角度上讲,蛋白质结构预测即为构建一种从蛋白质氨基酸序列,到蛋白质所有原子的三维坐标的映射问题。有限的蛋白质结构给了计算机模拟出全蛋白结构的可能性。使用一般来说,两蛋白质间的序列相似,则其三维结构亦相似。Dill根据蛋白质分子内部的基团往往是疏水性基团,相反亲水性残基则分布于蛋白质与水接触的表层这一特性,将蛋白质链分散分布,期望能建立蛋白质三维模型,不过因为只考虑了蛋白质的疏水性,效果并不太好。
[0003]在构建蛋白质结构模型之后,常用的优化模型的方法为分子动力学模拟法。分子动力学模拟方法是利用计算机软件,根据经典的牛顿力学方程来模拟大分子的运动过程及相互作用关系的方法。分子动力学模拟是可以由体系的当前状态,通过一系列规则,推测出其他任意时刻状态的工具。对于许多蛋白质来说,蛋白质结构预测软件的蛋白质三维结构模型在大体框架上离自然界中真实存在的蛋白质构象已无太大的差别。然而模拟推测出的蛋白质在局部结构上,比如二级结构的位置,氢键的数量与位置,和自然界真实蛋白质仍有不小的差距。蛋白质的结构决定了蛋白质的功能。如果用蛋白质结构预测的结果进行生物功能的研究,则必须保证预测出的模拟蛋白在大体三维结构上与局部结构中都与真实蛋白相似。所以蛋白质结构预测软件的结果并不能直接拿来进行生物功能的研究。实际上,许多蛋白质结构预测的最终结果来自于预测软件通过统计学的进行的归纳,其结构本身就包含许多错误的结构信息,及不准确的二级结构和功能域。所以对于蛋白质结构预测的结果进行优化是十分必要的。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术利用最优化技术,通过模拟蛋白质折叠过程来优化蛋白质模型,使其改变为接近天然蛋白质的分子构型。模拟蛋白质折叠这一过程,使蛋白质模型能够继续折叠,直到接近天然构象。
[0005]本专利技术的技术方案为,一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出
蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型,在优化方案中,为达到最佳优化效果,每一个原子的位置都要被考虑进去。但蛋白质模型拥有的全原子数量过大,需要进行考虑的数据过多,因此,需要对蛋白质结构模型进行粗粒化处理。只保留主链上的碳原子坐标,其余原子的坐标将暂时忽略掉,是利用有效的最优化技巧搜索最小能构象,蛋白质模型的主链结构决定了模型质量的好与坏。所以对蛋白质的主链结构预测结果进行优化是必须的,具体步骤如下:
[0006](1)网格建立
[0007]给定一条长度为n的氨基酸序列r=r1r2...r
n
,r
i
∈{H,P},i∈I
n
及一个有m(≥n)个格点的三维网格L,这里m=o
×
p
×
q。o,p,q分别是横向、纵向、竖向网格格点的个数。已知网格的位置,即每个网格格点的坐标S
j
=(x
j
,y
j
,z
j
)∈R3,R3是三维实数空间,j∈I
n
,并假设相邻网格格点之间的距离是常数a;
[0008](2)目标函数
[0009]序列r的H

H对数量为目标函数
[0010][0011]其中,
[0012][0013]R={R1,R2,...,R
n
},R
i
是氨基酸r
i
在三维空间中的位置,R
i
=(x
i
,y
i
,z
i
)∈R3,i∈I
n
,表示氨基酸r
i
占用了格点l
i
,,l
i
的相邻格点指标集为:N(l
i
)表示格点l
i
的邻点排在氨基酸r
i
之后的氨基酸占用。
[0014](3)约束条件:
[0015]i.每个氨基酸只能占用一个网格格点:
[0016]ii.格点j被占用,它在一个构象中只能被占用一次:
[0017]iii.氨基酸序列的局部相邻性不能被破坏;||R
i

R
i
‑1||=a,i=1,2,...,n
[0018]iv.氨基酸必须落在网格格点上而不是网格的边线上,即R
i
∈{S1,S2,...,S
m
},i∈I
n
[0019]只有主链的蛋白质模型并非最终结果。它并不能代表蛋白质的全部信息和功能。在生物领域使用时,局部结构也非常重要,因此全原子的添加和构建是必须的。因此需要建
立蛋白质侧链,并在原子间形成化学键。通过搜索已知蛋白质的侧链信息,能够帮助这些主链蛋白质模型建立偏向天然结构的蛋白质侧链。大部分的蛋白质侧链预测软件使用的从已知结构蛋白质上统计的侧链信息都来自于旋转异构体数据库。这些旋转异构体数据库分两种。一种是与主链侧链分离的数据库。这种数据库会将主链侧链分离开,收集所有侧链的信息。另一种会将侧链与主链的二面角信息成对收集在一次。构象数据库可以替代旋转异构体数据库。构象数据库包含从已知结构蛋白质上统计的笛卡尔坐标,分别为键长,键角和二面角变化率。因此,本专利技术还需要如下约束:
[0020]v.能量约束:当一条蛋白质序列折叠成某个特殊结构的时候,要求弯曲势能足够小,即其中,M是常数,θ
i
为编号为i

1,i和i+1的三个小球所形成角度的补角,cosθ
i
=(R
i
R
i
‑1·
R
i+1
R
i
)/|R
i
R
i
‑1||R
i+1
R
i
|
[0021](R
i
R
i
‑1·
R
i+1
...

【技术保护点】

【技术特征摘要】
1.一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型,蛋白质模型拥有的全原子数量过大,需要进行考虑的数据过多,需要对蛋白质结构模型进行粗粒化处理,只保留主链上的碳原子坐标,其余原子的坐标将暂时忽略掉,是利用有效的最优化技巧搜索最小能构象,对蛋白质的主链结构预测结果进行优化是必须的,具体步骤如下:(1)网格建立给定一条长度为n的氨基酸序列r=r1r2...r
n
,r
i
∈{H,P},i∈I
n
及一个有m(≥n)个格点的三维网格L,这里m=o
×
p
×
q;o,p,q分别是横向、纵向、竖向网格格点的个数;已知网格的位置,即每个网格格点的坐标S
j
=(x
j
,y
j
,z
j
)∈R3,R3是三维实数空间,j∈I
n
,并假设相邻网格格点之间的距离是常数a;(2)目标函数序列r的H

H对数量为目标函数其中,R={R1,R2,...,R
n
},R
i
是氨基酸r
i
在三维空间中的位置,R
i
=(x
i
,y
i
,z
i
)∈R3,i∈I
n
,表示氨基酸r
i
占用了格点l
i
,,l
i
的相邻格点指标集为:N(l
i
)表示格点l
i
的邻点排在氨基酸r
i
之后的氨基酸占用;(3)约束条件i.每个氨基酸只能占用一个网格格点:ii.格点j被占用,它在一个构象中只能被占用一次:iii.氨基酸序列的局部相邻性不能被破坏;||R
i

R
i
‑1||=a,i=1,2,...,niv.氨基酸必须落在网格格点上而不是网格的边线上,即R
i
∈{S1,S2,...,S
m
},i∈I
n
只有主链的蛋白质模型并非最终结果;它并不能代表蛋白质的全部信息和功能;在生物领域使用时,局部结构也非常重要,因此全原子的添加和构建是必须的,因此需要建立蛋白质侧链,并在原子间形成化学键,通过搜索已知蛋白质的侧链信息,能够帮助这些主链蛋
白质模型建立偏向天然结构的蛋白质侧链,大部分的蛋白质侧链预测软件使用的从已知结构蛋白质上统计的侧链信息都来自于旋转异构体数据库,这些旋转异构体数据库分两种:一种是与主链侧链分离的数据库,这种数据库会将主链侧链分离开,收集所有侧链的信息,另一种会将侧链与主链的二面角信息成对收集在一次,构象数据库可以替代旋转异构体数据库,构象数据库包含从已知结构蛋白质上统计的笛卡尔坐标,分别为键长,键角和二面角变化率;v.能量约束:当一条蛋白质序列折叠成某个特殊结构的时候,要求弯曲势能足够小,即其中,M是常数,θ
i
为编号为i

1,i和i+1的三个小球所形成角度的补角,cosθ
i
=(R
i
R
i
‑1·
R
i+1
R
i
)/|R
i
R
i
‑1||R
i+1
R
i
|(R
i
R
i
‑1·
R
i+1
R
i
)是向量R
i
R
i
‑1和向量R
i+1
R
i
的内积,即对应坐标乘积和,|R
i
R
i
‑1|是向量R
i
R
i
‑1的模,|R
i+1
R
i
|是向量和R
i+1
R
i
向量;其特征是:蛋白质结构预测的最优化模型P如下:(P)令可行域为则最优化模型P写成所述最优化模型P1的形式...

【专利技术属性】
技术研发人员:王威丹广心升鞠兴良
申请(专利权)人:青岛超蓝生物信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1