A search method for the protein conformation of two level structure of spatial distance constraints based on the basic framework of genetic algorithm, using the space length of two level structure of each target protein and two adjacent two grade structure center inter residue distance information to form a feature vector for the space constraints, the energy function in a given condition next, search the solution space in the conformational space of a smaller, and the space information in the selection operator, to make up for the imprecision of the energy function, and improve the accuracy of modeling structure. The invention proposes a protein conformational search method based on two level structure spatial distance constraint, which has high sampling efficiency, high prediction accuracy and low computation cost.
【技术实现步骤摘要】
一种基于二级结构空间距离约束的蛋白质构象搜索方法
本专利技术涉及一种生物学信息学、人工智能优化、计算机应用领域,尤其涉及的是一种基于二级结构空间距离约束的蛋白质构象搜索方法。
技术介绍
蛋白质是由氨基酸脱水缩合形成的生物大分子,对人类的健康起着决定性作用,准确掌握蛋白质的结构和功能对疾病研究、生物制药等方面都有重要意义。目前蛋白质结构预测的方法主要有两种:实验方法和理论预测。实验方法包括X射线晶体学、核磁共振光谱、和电子显微镜等;虽然这些方法能够准确地测定某些蛋白质的三维结构,但是通过实验的方法来测定结构是耗时且昂贵的,同时有些蛋白质的结构通过实验方法根本无法获得。所以,利用计算的方法来预测蛋白质结构已成为生物信息学研究中的热点。理论预测方法主要利用计算机技术和智能优化算法从氨基酸一级序列来预测蛋白质三维结构,从而有效的节约了预测成本,减少了预测时间,因此这类方法相比于实验方法更能得到广泛应用。但由于蛋白质结构本身的复杂性,到目前为止蛋白质三维结构的预测问题仍是一个有待解决的难题。在从头预测蛋白质结构的方法中,进化算法是研究蛋白质分子构象优化的重要方法,例如遗传算法、差分进化等算法,这些算法拥有收敛速度快、结构简单以及鲁棒性强等优点。然而,当蛋白质序列比较长时,因构象空间太大,如果按照特定的能量函数来搜索,由于能量函数的不精确性,并不能保证所找到的能量最小的构象最接近天然态结构,因此往往不能形成正确的折叠。因此,现有的构象空间搜索方法在预测精度和采样效率方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的蛋白质结构预测构象空间搜索方法存在采样效率较低、预测 ...
【技术保护点】
一种基于二级结构空间距离约束的蛋白质构象搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:1)给定输入序列信息;2)参数初始化:设置种群规模NP,最大遗传代数Gmax,确定交叉概率Pc,初始种群迭代次数iteration,交叉片段长度frag_length,组装计数器reject_number,最大组装次数reject_max,先验知识中二级结构的空间长度以及相邻两个二级结构中心残基间的空间距离构成的特征向量D={d1,…,dm,d1,2,…,dk,k+1},其中dm是目标蛋白的第m个二级结构块的长度,dk,k+1是第k个二级结构块和第k+1个二级结构中心残基的空间距离,最大距离约束范围δ,选择概率Ps;3)初始化种群:启动NP条Monte Carlo轨迹,每条轨迹搜索iteration次,即生成NP个初始个体;4)对每个目标个体xi和随机选取的个体xj进行如下操作,i,j∈(1,...,NP)且j≠i:4.1)按概率Pc对个体xi和xj进行交叉操作,过程如下:4.1.1)在允许范围[1,total_residue‑frag_length]内随机选择交叉起始点begin_posi ...
【技术特征摘要】
1.一种基于二级结构空间距离约束的蛋白质构象搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:1)给定输入序列信息;2)参数初始化:设置种群规模NP,最大遗传代数Gmax,确定交叉概率Pc,初始种群迭代次数iteration,交叉片段长度frag_length,组装计数器reject_number,最大组装次数reject_max,先验知识中二级结构的空间长度以及相邻两个二级结构中心残基间的空间距离构成的特征向量D={d1,…,dm,d1,2,…,dk,k+1},其中dm是目标蛋白的第m个二级结构块的长度,dk,k+1是第k个二级结构块和第k+1个二级结构中心残基的空间距离,最大距离约束范围δ,选择概率Ps;3)初始化种群:启动NP条MonteCarlo轨迹,每条轨迹搜索iteration次,即生成NP个初始个体;4)对每个目标个体xi和随机选取的个体xj进行如下操作,i,j∈(1,...,NP)且j≠i:4.1)按概率Pc对个体xi和xj进行交叉操作,过程如下:4.1.1)在允许范围[1,total_residue-frag_length]内随机选择交叉起始点begin_position,同时计算出交叉终止点end_position=begin_position+frag_length,其中total_residue为残基总数;4.1.2)在每个交叉位点position∈[begin_position,end_position]处进行扭转角度交换,生成新个体x′i,x′j,即交叉个体x′i,x′j;4.2)对交叉个体x′i,x′j进行如下变异操作,过程如下:4.2.1)利用片段组装技术对交叉个体x′i进行空间构象搜索,计算出交叉个体x′i片段组装后的二级结构的长度以及相邻两个二级结构中心残基间的空间距离,并构成距离向量其中是交叉个体x′i中第m个二级结构块的长度,是第k个二级结构块中心残基和第k+1个二级结构块中心残基的空间距离;4.2.2)根据公式计算出个体x′i的特征向量与...
【专利技术属性】
技术研发人员:张贵军,王小奇,马来发,周晓根,谢腾宇,王柳静,孙科,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。