一种蛋白质-蛋白质对接的计算模拟方法,主要包括如下流程:下载蛋白质对接benchmark数据库;使用大分子对接的软件3DDOCK,ZDOCK,ROSETTA进行全局采样;对采样得到的蛋白质复合物群使用DOPE,RAPDF,DDFIRE打分函数进行筛选,过滤掉大部分蛋白复合物;对筛选得到的复合物进行第二次分子对接,既第二次采样;采样得到的蛋白质复合物进行聚类分析,聚类后使用我们设计的打分函数Spcd进行第二轮的筛选;通过组合不同的对接软件以及多轮对接和多种打分的方法,筛选出较多的目标复合物。我们设计的打分函数Spcd能够较高效率地区分接近天然结合模式的复合物和错误结合模式的复合物,能够得到更多的目标分子复合物,这是本发明专利技术最为突出的一点。
【技术实现步骤摘要】
本专利技术涉及一种计算生物学计算领域,具体地说是。
技术介绍
在后基因组时代,生物大分子之间的相互作用受到越来越多的关注,理解不同生物分子单体是如何共同作用的需要用到复合物的结构知识。然而,生物分子复合物预计的数量将比蛋白质组中蛋白分子数量至少高一个数量级,而他们中难以用经典方法,比如核磁共振和X射线晶体衍射等进行研究。因而在需要做基于结构的复合物三维结构预测时, 对接这样的计算方法就显得非常重要。分子对接(molecular docking)是分子模拟的重要方法之一,其本质是两个或多个分子之间的识别过程,其过程涉及分子之间的空间匹配和能量匹配。分子对接的程序会产生大量的对接复合物构象,如何从这些构象中挑选出接近天然构象(真实构象,native structure)的复合物是分子对接中的难点,挑选天然构象这一过程通过打分函数来实现, 所以,在分子对接中如何构造打分函数来有效地区分正确与错误结合模式一直是人们研究的难点。目前大部分蛋白质-蛋白质对接算法使用的打分函数或是基于几何互补性,或是基于简单的分子势能函数。然而在很多情况下,简单的几何互补或是分子势能函数都不能对近天然和错误结合模式做出很好的区分。针对以上的情况,我们将现有的对接程序进行组合,首先应用多种打分函数进行初步筛选,筛选到一定数量的复合物我们再次进行分子对接,得到的候选复合物群进行基于两两蛋白之间的结构相似性进行聚类分析,聚类后的蛋白群,选择一定数量的复合物再次进行打分函数筛选,我们将打分函数进行优化,我们结合ENDES的筛选方法,再结合DDFIRE进行格点搜索(grid search),通过搜索我们选定了合适的参数,从而确定了新的打分函数,我们命名为Sped,该打分函数能够很好的区分蛋白质复合物的近天然和错误结合模式,大大提高了筛选的效率。
技术实现思路
本专利技术的目的是提供。本专利技术的目的是按以下方式实现的,使用大分子对接的软件3DD0CK,ZDOCK ,R0SETTA进行全局采样;对采样得到的蛋白质复合物群使用DOPE,RAPDF, DDFIRE打分函数进行筛选,过滤掉大部分蛋白复合物;对筛选得到的复合物进行第二次分子对接,既第二次采样;采样得到的蛋白质复合物进行聚类分析,聚类后使用我们设计的打分函数Sped进行第二轮的筛选;通过组合不同的对接软件以及多轮对接和多种打分的方法,筛选出较多的目标复合物;3具体步骤如下1)从蛋白质-蛋白质对接的数据库下载benchmark数据库http://zlab.bu. edu/benchmark/,下载得到的每一对蛋白质包含一个分子量较大的受体分子和一个分子量较小配体分子,以及通过实验方式获得的相对应的蛋白质复合物 (我们将实验获得蛋白质复合结构物称为native structure).2)全局采样使用分子对接软件3DD0CK,ZDOCK, R0SETTA三种大分子对接的软件进行全局采样。针对每一对蛋白质分子,我们将其中的配体分子使用3DD0CK中的randomposin程序产生三种随机的构象,每一对蛋白分子通过对接程序再产生3000种构象,所以每一对蛋白质共有 9000个构象。3)初次打分筛选对通过全局采样得到的9000个蛋白质复合物利用已经报道的三种打分函数 (DOPE, RAPDF, DDFIRE)进行筛选,利用得分值的高低将一部分蛋白质复合物过滤掉。选择部分构象进行下一步运算。4) 二次对接将第三步筛选产生的复合物再次利用上述的三种对接方法进行全局采样,得到候选分子群。5) 二次对接复合物的聚类分析(clustering)将第四步得到的复合物进行聚类分析。此处的聚类分析是蛋白质复合物结构相似性的两两比较,两个蛋白复合物之间结构相似度较高的归为一类。通过聚类分析每一对蛋白质对接产生的所有构象被分为不同的类,每一类我们称为一簇,每一簇中包含着数目不等的结构类似的构象。第一簇包含的构象数目是最多的。6) 二次打分筛选将第五步聚类分析得到的前几簇的构象群作为筛选目标,利用我们设计的打分函数 Sped进行筛选。本专利技术的方法和现有技术相比,不同之处在于它组合了多种不同的对接方法;同时利用多种方法方法进行筛选,包含打分函数和聚类分析的方法;最为突出的一点是设计了一种新的打分函数,能够较高效率地区分接近天然结合模式的复合物和错误结合模式的复合物,能够从候选分子群中挑选得到更多的接近天然结合模式的复合物目标分子复合物。该方法设计组合了不同的对接方法,几乎能够满足不同类型蛋白质复合物的需求;另外几种打分函数的组合也能扬长避短,发挥各自优势,提高筛选效率。附图说明图1:本专利技术的实施步骤图图2 三种打分函数比较图(DOPE,DDFIRE,RAPDF),横坐标是候选分子与天然构象结构比较所得L-RMSD (ligad-RMSD),纵坐标是打分函数所得的能量值;图3 使用DDFIRE和Sped打分前200的候选群中,能量值和RMSD的比较结果图; 图4为表1 采用本专利技术对benchmark数据库中,几种蛋白使用Sped打分,ddfire打分,分值前200中hits数的统计。具体实施例方式参照说明书附图对本专利技术的方法作以下详细地说明。,本专利技术的构思时这样的我们组合几种不同的分子对接方法,经过不同打分函数的筛选,选择一定数目的蛋白质复合物,再进行新一轮的分子对接,对接得到的复合物再进行基于结构相似性聚类分析。聚类分析可以将结构相近的复合物归为一类,我们选择同一类复合物群中构象最多的几组使用我们设计的打分函数进行筛选。该打分函数组合了 ENDES打分函数和DDFIRE的打分函数。ENDES的打分函数考虑了蛋白质结构倾向性和蛋白质进化信息,DDFIRE是一种基于统计能量的打分, 我们组合ENDES中的两项和DDFIRE的总打分值,共三项得分进行格点搜索(grid search), 搜索在哪一种参数组合下能够从蛋白质复合物群中挑选出最多的近天然构象。本专利技术的优点在于我们组合了多种刚性对接的方法,不同对接方法使用的算法不同,针对不同类型的蛋白质,这些方法之间可以互相补充,发挥各自优势,从而避免了使用一种对接方法的局限性。此外,在打分函数的选择方面我们综合考虑,选择基于知识的打分和基于统计的打分函数进行复合物候选分子的挑选;此外,我们还利用现有的打分函数, 使用格点搜索的方法设计出了新的打分函数,该打分函数能够从候选分子群中获得较多的接近天然构象的复合物,有较好的效果。这一套蛋白质-蛋白质对接的计算模拟方法是之前未使用过的,较之前的方法相比,也有较好的筛选效率。方法步骤如下1)从蛋白质-蛋白质对接的benchmark数据库下载蛋白质结构数据,得到的部分蛋白质结构不是完整结构,缺少部分残基,通过同源模建方法构建完整结构。2)全局采样每对蛋白质包含受体分子(分子量较大)和配体分子(分子量较小),使用3DD0CK程序中的randomposin模块,针对每个配体分子,随机产生三个任意构象 2. 1) 3DD0CK使用process-pdb. perl程序对受体和配体分子进行处理,去除氢原子和0ΧΤ。然后使用FTDOCK程序,采用几何互补和静电势互补的方法,进行全局扫描,格点单元设定为0. 7A, 表面厚度1.3 A,旋转角度9°。一般本文档来自技高网...
【技术保护点】
1.一种蛋白质-蛋白质对接的计算模拟方法,其特征在于使用大分子对接的软件3DDOCK, ZDOCK ,ROSETTA进行全局采样;对采样得到的蛋白质复合物群使用DOPE,RAPDF,DDFIRE打分函数进行筛选,过滤掉大部分蛋白复合物;对筛选得到的复合物进行第二次分子对接,既第二次采样;采样得到的蛋白质复合物进行聚类分析,聚类后使用我们设计的打分函数Spcd进行第二轮的筛选;通过组合不同的对接软件以及多轮对接和多种打分的方法,筛选出较多的目标复合物;具体步骤如下:1)从蛋白质-蛋白质对接的数据库下载benchmark数据库http://zlab.bu.edu/benchmark/,下载得到的每一对蛋白质包含一个分子量较大的受体分子和一个分子量较小配体分子,以及通过实验方式获得的相对应的蛋白质复合物(我们将实验获得蛋白质复合结构物称为native structure;2)全局采样使用分子对接软件3DDOCK,ZDOCK,ROSETTA三种大分子对接的软件进行全局采样;针对每一对蛋白质分子,我们将其中的配体分子使用3DDOCK中的randomposin程序产生三种随机的构象,每一对蛋白分子通过对接程序再产生3000种构象,所以每一对蛋白质共有9000个构象;3)初次打分筛选对通过全局采样得到的9000个蛋白质复合物利用已经报道的三种打分函数DOPE,RAPDF,DDFIRE进行筛选,利用得分值的高低将一部分蛋白质复合物过滤掉;选择部分构象进行下一步运算;4)二次对接将第三步筛选产生的复合物再次利用上述的三种对接方法进行全局采样,得到候选分子群;5)二次对接复合物的聚类分析clustering;将第四步得到的复合物进行聚类分析,此处的聚类分析是蛋白质复合物结构相似性的两两比较,两个蛋白复合物之间结构相似度较高的归为一类,通过聚类分析每一对蛋白质对接产生的所有构象被分为不同的类,每一类我们称为一簇,每一簇中包含着数目不等的结构类似的构象,第一簇包含的构象数目是最多的;6)二次打分筛选将第五步聚类分析得到的前几簇的构象群作为筛选目标,再利用设计的打分函数Spcd进行筛选。...
【技术特征摘要】
【专利技术属性】
技术研发人员:金莲,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:88
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。