一种基于循环坐标下降法的环区预测方法技术

技术编号:35735542 阅读:20 留言:0更新日期:2022-11-26 18:37
本发明专利技术提出了一种基于循环坐标下降法的环区预测方法,所述方法解决蛋白质三维结构预测中数值计算的难点,设计了一种循环坐标下降法预测蛋白质三维结构和蛋白质环闭合问题,该方法不仅能将侧链的改变纳入计算,而且还能预测蛋白质骨架的柔性,算法具有更好的计算效率。有效得到问题最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。弥补了现有方法的缺陷。弥补了现有方法的缺陷。

【技术实现步骤摘要】
一种基于循环坐标下降法的环区预测方法


[0001]本专利技术涉及生物工程
,特别涉及一种基于循环坐标下降法的环区预测方法。

技术介绍

[0002]蛋白质的功能主要由三维结构来决定,但通过实验的方式获取三维结构需要耗费大量人力物力。在过去几十年里,人们主要通过X射线晶体学、冷冻电子显微镜或核磁共振等实验技术手段来解析蛋白质的三维结构,然而在实验过程中往往会有多种技术难关,费时费力,也需要依赖昂贵的大型仪器和大科学设施。为解决此问题,学者们提出了另一种方法:蛋白质结构预测法,打算从蛋白质链的一级结构开始直接对蛋白质结构进行预测。也就是从蛋白质序列出发利用计算机算法预测每个氨基酸的空间坐标并进而最终实现三维结构的预测。
[0003]蛋白质结构预测中一个非常困难的问题是环区的预测。所谓环区,就是在二级结构的分类中不属于螺旋和折叠的区域,也就是蛋白质中一些有序但不规则的,且没有固定三维结构的随机线圈。这些区域通常具有很大的柔性,很多时候在溶剂中呈现运动的状态,是蛋白质整体结构中最难预测的部分。有两个原因使得蛋白质环区的预测不同于蛋白质的整体结构预测:一是上面提及的柔性,另一个原因是环建模中所面临的环闭合问题。因为肽链是连续的,在改变其中一段片段时势必要影响到蛋白质的整体结构,这个时候就不得不暂时断开肽链,等到改变结构后,再使肽链重新闭合。因为对几乎所有基于几何的环建模方法,环闭合问题都是首先要解决的问题。
[0004]对蛋白质环结构预测来说,面临的主要挑战是其柔性的预测,如何预测或模拟蛋白质环在溶液中复杂的运动是具有挑战性的。在自然界中,蛋白质通常以复合物的形式存在,即蛋白质经常与配体小分子或另一个蛋白质结合在一起。Emil Fisher在1984年提出“锁和钥匙”理论,认为蛋白质与配体小分子的结合,依赖于形状匹配。而“诱导性契合”的理论认为,在蛋白质大分子与配体小分子结合时,蛋白质大分子的结构会由于配体小分子的存在而发生一定变化,从而达到一个更为稳定的状态―即蛋白质具有“柔性”。这种柔性使得蛋白质在与其它分子结合时会在整体或局部发生结构的改变。但对于大多数考虑柔性的蛋白质对接方法,都只将侧链的改变纳入计算。目前尚无非常有效的方法来在计算中模拟或者说预测骨架的柔性。
[0005]由于蛋白质是一种强柔性的大分子体系,其势函数的维数巨大、表达式本身性态差,存在极多局部极小点,使得模型计算较为复杂,数值计算缓慢且困难。

技术实现思路

[0006]为了克服现有技术的不足,本专利技术结合最优化技术,提出了一种基于循环坐标下降法的环区预测方法,所述方法解决蛋白质三维结构预测中数值计算的难点,设计了一种循环坐标下降法预测蛋白质三维结构和蛋白质环闭合问题,该方法不仅能将侧链的改变纳
入计算,而且还能预测蛋白质骨架的柔性,算法具有更好的计算效率。有效得到问题最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。
[0007]本专利技术的技术方案为,一种基于循环坐标下降法的环区预测方法,所述方法涉及一种蛋白质环区折叠成特定的拓扑结构,所述拓扑结构内设有总体势能E,以目标函数为肽链上任意原子与其目标原子的均方根偏差,建立最优化模型P。
[0008]定义蛋白质环区运动链上的残基序号为1至n,蛋白质环区运动链上的N端残基序号定义为0,蛋白质环区运动链上的C端残基序号定义为n+1,其中,N端为蛋白质环区运动链的始端,C端为蛋白质环区运动链的终端执行器,蛋白质环区运动链上设有蛋白质环,在所述蛋白质环的主链上设有原子,在所述蛋白质环上任意选择m个原子,称作向导原子,编号为1,2,

,m,对于每一个原子,为其指定一个“向导原子的目标”,简称为目标,所述向导原子被标记为P1,P2,

,P
m
,目标则标记为T1,T2,

,T
m
,旋转了角度θ之后,向导原子的位置记为Q1,Q2,

,Q
m
;蓝绿色代表向导原子,红色的代表目标,蓝色的表示肽段沿轴旋转θ角之后向导原子的位置;为每一个向导原子设置局部参考系:向导原子在旋转轴上的投影设为原点O1,O2,

,O
m
,和i=1,2,

,m都是单位向量,与旋转轴方向一致,为向量的单位向量。为得到一个右手坐标系,定义i=1,2,

,m,在蛋白质空间结构中,远距离的进化信息往往具有较高的使用价值,它们能够反映蛋白质空间中正确的折叠情况,统计势能都是基于残基层面的,对于拥有远程进化约束关系的残基对,当构象中的距离与约束距离存在偏差时,直接导致势能值的增大,精确的量化距离偏差与能量偏差之间的关系就可以得到任意构象的能量。如果该残基对之间具有较强的作用关系,当构象破坏了残基的距离约束关系时,随着破坏程度(与天然结构中距离的偏差程度)的增加,势能值成指数级增长。但是,只有在残基间作用距离较近时接触势能的波动才会比较剧烈,当某对残基之间距离过大时,几乎不存在相互作用力,从而导致接触的势能降为零;
[0009]所述总体势能为其中,E
ij
为残基i,j之间不破坏距离约束的条件下具有的基本能量,ΔE
ij
是由于距离约束的破坏而增加的能量,E
ij
包含系统内部任意残基对,ΔE
ij
只考虑涉及到距离约束的残基对,没有天然结构的信息时,无法知道不存在距离约束的残基对在空间上与天然结构的偏差。当构象接近天然结构时,ΔE
ij
就会很小,当构象偏离天然结构很大时ΔE
ij
就会很大,这样导致系统总能量变大。i,j∈{1,2...,m},是环上的残基序号。和以往蛋白质环区结构预测模型不同的是,所述方法改变骨架二面角φ和ψ的值,使得向导原子尽量接近目标,同时,又要保证总体势能尽量小,蛋白质环区结构的稳定。因此,本专利技术建立如下所述最优化模型P:
[0010](P)
[0011]其中,是常数,记以及以及则
[0012][0013][0014]其中p
i
表示向量的模,i=1,2,

,m。旋转后向导原子和目标之间距离的平方为
[0015][0016]本专利技术中的最优化模型(P)的m很大时,我们可以将分成固定数目的组(比如,5组等),每一组中可以包含任意数目的的和,这实际上相当于我们下面的循环坐标下降法中的内循环迭代次数就可以减少,从而加快了算法的收敛速度。
[0017]二、算法设计
[0018]本专利技术设计的算法思想是基于最优化模型(P)的结构,在保证可行性的要求下,依次循环优化目标函数的每个分量最终得到问题的最优解。蛋白质环区结构预测的循环坐标下降法包括以下步骤:
[0019]第一步:初始化:给出算法的外循环的初始的值,标定外循环指标的初始位置。
[0020]即,确定初始旋转角θ
(0)
,置n=0。...

【技术保护点】

【技术特征摘要】
1.一种基于循环坐标下降法的环区预测方法,所述环区预测方法涉及一种蛋白质环区折叠成特定的拓扑结构,所述拓扑结构内设有总体势能E,以目标函数为肽链上任意原子与其目标原子的均方根偏差,建立最优化模型P;定义蛋白质环区运动链上的残基序号为1至n,n为正整数,蛋白质环区运动链上的N端残基序号定义为0,蛋白质环区运动链上的C端残基序号定义为n+1,其中,N端为蛋白质环区运动链的始端,C端为蛋白质环区运动链的终端执行器,蛋白质环区运动链上设有蛋白质环,在所述蛋白质环的主链上设有原子,在所述蛋白质环上任意选择m个原子,称作向导原子,编号为1,2,

,m,m为正整数,对于每一个原子,为其指定一个“向导原子的目标”,简称为目标,所述向导原子被标记为P1,P2,

,P
m
,目标则标记为T1,T2,

,T
m
,旋转了角度θ之后,向导原子的位置记为Q1,Q2,

,Q
m
;蓝绿色代表向导原子,红色的代表目标,蓝色的表示肽段沿轴旋转θ角之后向导原子的位置;为每一个向导原子设置局部参考系:向导原子在旋转轴上的投影设为原点O1,O2,

,O
m
,和i=1,2,

,m都是单位向量,与旋转轴方向一致,为向量的单位向量;为得到一个右手坐标系,定义i=1,2,

,m;其特征是:所述总体势能为其中,E
ij
为残基i,j之间不破坏距离约束的条件下具有的基本能量,ΔE
ij
是由于距离约束的破坏而增加的能量,E
ij
包含系统内部任意残基对,ΔE
ij
只考虑涉及到距离约束的残基对,没有天然结构的信息时,...

【专利技术属性】
技术研发人员:广红宋加磊张军
申请(专利权)人:青岛超蓝生物信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1