一种基于深度学习的蛋白质结构预测方法技术

技术编号：14510095 阅读：108 留言：0更新日期：2017-02-01 02:42

一种基于深度学习Residue2vec的蛋白质结构预测方法，给定输入序列信息，将PDB网站上已知的蛋白质结构看成语料库进行训练，将结构已知的蛋白质分割成长度为n的残基，通过CBOW模型结合Huffman编码，获取每个残基在向量空间中的表示，通过计算残基向量之间的距离来判断残基间的相似性，从而获取查询序列每个残基位置上的前N个片段结构，构成了Residue2vec的片段库；然后对查询序列进行随机折叠构成初始构象；之后随机选取其中一个长度为n的残基，与片段库中的片段进行二面角的替换；进而比较能量，若能量减小则接收构象，若能量增大则以Metropolis准则接收构象，通过不断迭代最终获得亚稳态构象。本发明专利技术查询序列中匹配度较高、预测精度较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息学、计算机应用领域，尤其涉及的是一种基于深度学习Residue2vec的蛋白质结构预测方法。
技术介绍
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，要了解蛋白质的功能，就必须获得其三维空间结构。蛋白质结构从头预测方法需要解决两个基本问题：(1)构建适当的能量模型来计算蛋白质内不同原子之间的相互作用；(2)发展有效算法来寻找构象空间能量的全局极小值。早期的研究重点关注发展有效算法搜索构象空间，来确定体系势能曲面的全局极小点，而随着氨基酸序列的增长，蛋白质分子体系自由度增大，在全原子力场模型上的构象空间优化成为一个极具挑战的问题。蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。基于物理和知识的能量模型存在一个重要问题，其捕获相邻残基间微小相互作用的能力有限。而这些微小的相互作用，主宰者蛋白质局部结构的扭转倾向。通过基于物理和知识的能量模型计算局部相互作用，可能会导致误差的积累，因而很大程度上降低获得近天然态构象的可能性。通过对PDB数据库中已知局部构象的采样，利用片段进行替换，相当于将模建的蛋白质结构从一个局部能量极小转换成另一个局部能量极小，而不用克服局部能量壁垒，一方面见笑了搜索空间，另一方面提高了计算速度。当前有以下几种比较成功的从头预测方法：张阳与JeffreySkolnick合作的TASSER(Threading/...

【技术保护点】
一种基于深度学习Residue2vec的蛋白质结构预测方法，其特征在于：所述优化方法包括以下步骤：1)给定输入序列信息；2)构建模板库中的残基向量：2.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；去除相似度大于预设阈值的冗余多肽链，得到非冗余蛋白质模板库；2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n的残基；2.3)通过CBOW模型结合Huffman编码，在神经网络中对残基模型进行建模，同时也获得残基在向量空间中的表示；2.4)针对查询序列中每个位置上的残基，通过残基向量计算距离来判断残基间的相似性；2.5)选取与查询序列每个残基位置上距离最近的前N个残基，构建了查询序列的片段库；3)初始化：最大迭代次数iteration，能量函数选用Rosetta Score3，温度为T，玻尔兹曼常数为k；4)开始迭代，设置i＝1：4.1)通过Rosetta Score3能量函数计算构象能量为E1，随机选取构象中某一位置上长度为n的残基，随机从片段库中选一个残基片段将其替换；4.2)计算片段替换后的残基能量E2，比较E1和E2，若E2<E1，则接收组装后的新...

【技术特征摘要】
1.一种基于深度学习Residue2vec的蛋白质结构预测方法，其特征在于：所述优化方法包括以下步骤：1)给定输入序列信息；2)构建模板库中的残基向量：2.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；去除相似度大于预设阈值的冗余多肽链，得到非冗余蛋白质模板库；2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n的残基；2.3)通过CBOW模型结合Huffman编码，在神经网络中对残基模型进行建模，同时也获得残基在向量空间中的表示；2.4)针对查询序列中每个位置上的残基，通过残基向量计算距离来判断残基间的相似性；2.5)选取与查询序列每个残基位置上距离最近的前N个残基，构建了查询序列的片段库；3)初始化：最大迭代次数iteration...

【专利技术属性】
技术研发人员：张贵军，俞旭锋，周晓根，郝小虎，王柳静，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人