基于能量的原子结构与电子密度图多目标优化拟合预测方法技术

技术编号:26422563 阅读:41 留言:0更新日期:2020-11-20 14:19
一种基于能量的原子结构与电子密度图多目标优化拟合预测方法,根据蛋白质三维结构和电子密度图,通过组建预测结构和电子密度图的基准数据集,生成初始模型;然后利用电子密度图的信息将预测的原子结构初步的移动到密度图的中心,生成N个初始模型;再通过多目标粒子群优化算法选取帕雷托集合并利用Knee算法从中选取最优模型,通过计算得到原子结构和电子密度图之间的拟合结果。本发明专利技术能够解决仅通过最小化单个能量函数而导致的潜在偏差问题。

【技术实现步骤摘要】
基于能量的原子结构与电子密度图多目标优化拟合预测方法
本专利技术涉及的是一种生物信息领域的技术,具体是一种基于全局和局部能量的原子结构与电子密度图多目标优化拟合预测方法。
技术介绍
高分辨率的蛋白质结构对于解蛋白质的功能和相关疾病的机制非常重要。X射线晶体学,核磁共振(NMR)和低温电子显微镜(Cryo-EM)等几种方法已用于获得大分子结构。近年来,由于低温电磁成像技术革命性发展,导致大量的低温电磁密度图出现,但是这些密度图通常具有相对较低的分辨率(例如)。尽管大多数电镜衍生的密度图分辨率不够高,但它们通常可以提供分子拓扑结构的描述,因此可以应用于原子结构的优化。这种基于密度图约束的优化的方法已经成为蛋白质结构预测领域的流行方向。优化建模过程通常包括三个步骤,即:(1)原子结构预测;(2)拟合原子结构到电子密度图中;(3)根据电子密度图来优化原子结构。拟合原子结构到电子密度图是优化原子结构的基础,其对于随后的优化过程有减小搜索空间的作用。尤其对于低等或中等分辨率密度图,搜索空间是一项较难的课题。为获得高分辨率的蛋白质结构,需要先进的计算技术来弥补来自电子密度图的缺失信息的空白。目前,已有几种计算方法已经成功地应用于密度图和电镜的拟合。如EMFIT,Situs,3SOM,MultiFit,ADP_EM,Attract-EM,EMatch,Powerfit和UCSFChimera,其已经发展到可以利用这些软件来诠释与结构相关的分子功能。这些程序通常执行一个自动的搜索来寻找可能的旋转和平移,以最大化互相关函数,从而找出最优的拟合位置。ADP_EM是一种多分辨率对接方法,通过快速旋转匹配方法在旋转空间中执行搜索以最大化相关性。ColresofSitus是一种基于轮廓的匹配方法,其结合快速傅里叶变换来加速空间的搜索,以快速的找到相对于密度图的原子结构的位置。EMatch使用模板匹配过程来识别电子密度图中的二级结构元素以实现结构的对齐。尽管取得部分的成功,但是有几个问题也限制现有拟合算法的功效。首先,如何评估拟合质量是一个重要目标,它将指导搜索方向。大多数现有算法都使用单个全局目标(例如,相关系数(CC))作为优化标准。预测结构与电子密度图之间的拟合可能非常复杂,并且由于以下复杂因素而导致不同的拟合位置:预测结构的质量,密度图的分辨率,密度图的SNR(信噪比),预测结构与密度图之间的错位等。单一的全局目标函数通常无法获得具有此类复杂因素的拟合效果和鲁棒性。其次,由于在拟合过程中搜索空间无限制,使现有的拟合工具执行的详尽搜索是一个耗时的过程。因此,更具启发性的搜索算法将有助于平衡性能和鲁棒性。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种基于能量的原子结构与电子密度图多目标优化拟合预测方法,能够解决仅通过最小化单个能量函数而导致的潜在偏差问题。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,根据蛋白质三维结构(PDB)和电子密度图,通过组建预测结构和电子密度图的基准数据集,生成初始模型;然后利用电子密度图的信息将预测的原子结构初步的移动到密度图的中心,生成N个初始模型;再通过多目标粒子群优化算法选取帕雷托集合并利用Knee算法从中选取最优模型,通过计算得到原子结构和电子密度图之间的拟合结果。本专利技术涉及一种实现上述方法的系统,包括:初始模型生成单元、多目标优化单元、模型选取单元以及全原子模型输出单元,其中:初始模型生成单元接收系统输入信息,进行初始化处理并得到多个初始状态的结果后输出至多目标优化单元,多目标优化单元接收初始模型生成单元的信息,进行核心的优化处理并得到多个优化结果后输出至模型选取单元,模型选取单元接收多目标优化单元的信息,进行最优结果选取的处理并得到最优解的结果后输出至全原子模型输出单元,全原子模型输出单元接收模型选取单元的信息,进行原子补全处理并得到全原子模型结果后输出至用户。技术效果本专利技术整体解决了预测结构和电子密度图的高精度拟合问题。当前已有的原子结构和电子密度图的拟合算法在解决类似的拟合问题时,具有拟合结果不稳定,精度不高等问题。与单目标优化相比,本专利技术可以避免陷入局部最优值,从而获得更好的拟合性能。在将预测结构拟合到密度图中时,本专利技术考虑全局互相关性和局部互相关性,其包含整个模型的相关性,氨基酸片段的相关性和残基水平相关性评分。多目标优化允许在多个目标之间进行互补的折衷,以获得最佳解决方案。最好的解决方案将从非支配的Pareto集合中获得。全局相关性从整体形状评估拟合的偏好,而局部相关性从局部拓扑结构评估拟合的结果,全局和局部相关性互补从而产生最终的优化结果。本专利技术通过符合实际情况的预测结构和电子密度图的基准数据集(292个预测的结构和292个电子密度图),在拟合难度上有所提升,拟合精度达到2.46的平均cRMSD。相对当前流行单目标的方法有较大提升。附图说明图1为基于电子密度图的原子结构刚性对接算法示意图;图2为292个测试蛋白对应的初始结构的TM-score的分布直方图;图3为292个测试蛋白对应的模拟密度图的分辨率分布直方图;图4为原子结构转化为计算的密度图的示意图;图5为在292个测试蛋白上MOFIT和其它三种方法的比较结果示意图;图中:左:MOFITvsADP_EM;中:MOFITvsPowerFit;右:MOFITvsSITUS;图6为显示目标蛋白T0880的帕雷托集中非支配粒子能量分布的示意图;图7为在来自鼠腺病毒2(ID:T0880)的MADV2纤维的末端的结构域上进行装配的示意图;图中:所有灰色透明的目标为电子密度图,黑色目标为原子结构。(A)最大CC(CC值为0.383,A-2)对应的位置的结构的cRMSD为TM-score匹配位置(CC值为0.357,A-1)对应的结构的cRMSD为0.0;天然PDB模型(A-3);(B)对于所有方法,不同的位置表示不同方法的拟合结果;Powerfit拟合模型(B-1,),Situs拟合模型(B-2,),ADP_EM拟合模型(B-3,),和MOFIT拟合模型(B-4,);(C)不同的位置代表使用Rosetta优化不同拟合结构的最终模型;PowerFit模型的优化结构的RMSD为TM-score为0.460(C-1);Situs模型的优化结构的RMSD为TM-score为0.465(C-2);ADP_EM模型的优化结构的RMSD为TM-score为0.503(C-3);MOFIT模型的优化结构的RMSD为TM-score为0.504(C-4);图8为在分辨率的模拟密度图上,测试拟合对3a1iA单域蛋白的优化效果的示意图;图中:所有灰色透明的目标为电子密度图,黑色目标为原子结构。(A)TM-score匹配位置(A-1)对应的结构的cRMSD为0.0;,天然PDB模型对应(A-2);(B)不同的位置代表不同的拟合结果,PowerFit的拟合模型本文档来自技高网
...

【技术保护点】
1.一种基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,其特征在于,根据蛋白质三维结构和电子密度图,通过组建预测结构和电子密度图的基准数据集,生成初始模型;然后利用电子密度图的信息将预测的原子结构初步的移动到密度图的中心,生成N个初始模型;再通过多目标粒子群优化算法选取帕雷托集合并利用Knee算法从中选取最优模型,通过计算得到原子结构和电子密度图之间的拟合结果。/n

【技术特征摘要】
1.一种基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,其特征在于,根据蛋白质三维结构和电子密度图,通过组建预测结构和电子密度图的基准数据集,生成初始模型;然后利用电子密度图的信息将预测的原子结构初步的移动到密度图的中心,生成N个初始模型;再通过多目标粒子群优化算法选取帕雷托集合并利用Knee算法从中选取最优模型,通过计算得到原子结构和电子密度图之间的拟合结果。


2.根据权利要求1所述的基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,其特征是,所述的组建预测结构和电子密度图的基准数据集,具体包括:
S11、首先从PDB数据库中提取含有电子密度图的全部的PDB,然后将的1809个PDB结构分裂为37952单链的PDB结构;
S12、利用CD-HIT删除冗余度在90%以上的序列,剩余2488个样本,剔除掉2488个样本中过短或序列不连续的样本后,剩余1186个样本;
S13、在1186个样本中随机选取292个对应的序列作为初始样本,利用I-TASSER预测出对应的原子结构;
S14、利用292个目标的天然PDB结构,使用EMAN2和Xmipp模拟出对应的无噪声密度图和噪声密度图,与步骤S13中预测的结构组成本方法的基准数据集。


3.根据权利要求1所述的基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,其特征是,所述的初始模型,利用电子密度图的信息将预测的原子结构初步的移动到密度图的中心,生成N个初始模型,其具体生成方式为:从电子密度图的头文件中读取电子密度图的格点和原点信息,将预测的原子结构移到电子密度图的中心,然后对电子密度图做随机的旋转,生成N个不同位置的初始模型。


4.根据权利要求1所述的基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,其特征是,所述的多目标粒子群优化算法,具体包括:
步骤1:首先将I-TASSER预测的模型变换至密度图中心,然后随机旋转以生成N个不同位置的初始结构;在MOPSO优化中,每个位置的结构都被视为一个粒子;由二维向量C=[t,r]表示为第i个粒子;t和r分别表示刚体的平移量和旋转矩阵,其分别属于和[-90°,90°];
步骤2:在每次的模拟迭代中,通过刚体平移和旋转来更新每个模型的位置;在每个模拟中,根据构象坐标计算三个能量函数作为目标函数,再将具有至少两个能量函数递减的非支配解放入Pareto集;
步骤3:将对Pareto集的所有模型进行排序,然后选择最优构象作为最终结构。


5.根据权利要求4所述的基于能量优化的原子结构与电子密度图多目标优化拟合预测方法,其特征是,所述的三个能量函数包括对拟合质量的全局状态和局部结构的评估,其定义分别为:
①代表由原子结构转化的密度图ρc(y)和实验密度图ρo(y)之间的相关性能量函数,其在整个结构上对拟合状态做评估,具体为:其中:和为转化密度图和实验密度图上网格点所含数值的平均值;RB(l)为所有格点的集合;CC是一个全局得分,其对密度图的形状非常敏感;
②局部...

【专利技术属性】
技术研发人员:张彪沈红斌
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1