本发明专利技术提出了一种药效团模型的批量生成方法,通过计算机脚本自动下载PDB库中所述的蛋白质复合体结构的PDB文件,自动识别并且保留文件中所需蛋白质复合体;再从虚拟文件库中调取所需蛋白质复合体结合所需的链,并且将获取的蛋白质序列转换为FASTA格式;接着根据从PDB文件中调取的不同蛋白质链间相邻氨基酸信息以及可结合信息进行自动分段和重组的信息,从而形成新的SD文件和PDB文件;最后通过脚本的自身的分析,批量生成所需的药效团模型,实现蛋白质间以及蛋白质间的药效团模型的构建,整个操作全自动完成,并且建立于生物学的PDB文件资料的基础之上,模型建立精准且高效。
【技术实现步骤摘要】
药效团模型的批量生成方法
本专利技术涉及计算机生物领域,尤其涉及一种药效团模型的批量生成方法。
技术介绍
药效团的原始概念由PaulEhrlich在19世纪末期提出,指具有活性必需特征原子的分子框架,自1997年以来,国际纯粹和应用化学联合会定义了药效团:药物分子与受体靶点发生作用时,要与靶点产生几何匹配和能量匹配的活性构象。药效团模型由特定3D模式的几个特征组成,每个特征通常表示为球体(尽管存在变体)、半径确定与精确位置偏差的公差。这些特征可以被标记为单个特征或由“AND”,“OR”和“NOT”组成的任何逻辑组合。药效团特征通常用作筛选小分子库的查询。这些库中所有的化合物存在生物相关的低能量构象,如果一个分子可以放置在代表查询特征的球体内,则它被认为是命中分子。通常,药效团查询可能太复杂,无法从给定的库中发现命中分子。在这种情况下,只有某些被认为是活性必不可少的特征才能匹配。这种模型的其他用途是调整分子或促进分子对接模拟,根据情况和实验类型,可以使用多种策略来手动构建药效团模型,也可以使用自动算法。利用计算机对药效团基于受体的虚拟筛选方法对百万级别的化合物库而言筛选速度缓慢,除了速度这一因素,基于受体的虚拟筛选方法很少考虑蛋白柔性、水分子的影响、溶剂化效应、以及配体的构象限制,尽管基于受体的虚拟筛选方法可以提供配体与蛋白的相互作用信息,但是精确地预测蛋白与小分子的结合力仍然是一个无法解决的问题,并且现有的计算机脚本也无法实现蛋白质与蛋白质之间的药效团模型的构建。
技术实现思路
本专利技术的目的在于提供一种药效团模型的批量生成方法,通过计算机脚本实现高效且精确的药效团模型的构建,实现蛋白质间以及蛋白质间的药效团模型的构建。为了实现上述目的,本专利技术提出了一种药效团模型的批量生成方法,包括以下步骤:步骤一、自动下载PDB库中所需蛋白质复合体结构的PDB文件;步骤二、自动识别并保留存在于需求物种中的蛋白质复合体;步骤三、自动获取蛋白质中需求的链,并将获取的蛋白质序列转换为FASTA格式;步骤四、自动通过PDB文件中的空间信息获取不同蛋白质链间相邻氨基酸信息以及可结合性信息;步骤五、自动分段、重组氨基酸序列,并重新根据接触面重新整合成一系列新的SD文件和PDB文件;步骤六、运用软件和脚本根据新的SD文件和PDB文件自动批量生成对应的药效团模型。优选的,在所述自动下载PDB库中所需蛋白质复合体结构PDB文件的步骤如下:自动获取PDB文件程序通过循环调取制定文件夹中的PDB库中的PDB文件,判断所述PDB文件是否存在于需求列表中,若在需求列表中则复制所述PDB文件至指定文件夹,否则重新检查文件夹中是否有没处理过的PDB文件。优选的,所述自动下载PDB库中所需蛋白质复合体结构PDB文件还包括步骤自动更新PDB库,所述自动更新PDB库为先从PDB文件列表中提取PDBID列表,如果有新的记录出现找到并记录,之后在更新后的PDB文件列表中去除重复的PDBID并给出需要重新下载的PDB文件列表,最后自动连接至指定的网站获取相应的PDB文件。优选的,所述自动识别并保留存在于需求物种中的蛋白质复合体包括筛选抗原抗体复合体步骤:首先加载储存有蛋白质复合体抗原抗体信息的XML文件,通过解析所述XML文件获取所述抗原抗体复合体信息,然后筛选符合特定条件的抗原抗体复合体,最后记录并保存符合特定条件的抗原抗体复合体的PDBID并输出。优选的,所述自动识别并保留存在于需求物种中的蛋白质复合体还包括筛查并去除只包含单链的PDB文件的步骤:首先找到并读取新的PDB文件中的信息,提取蛋白链信息并计算PDB文件中蛋白链的数量,如果有且只有两条蛋白链,则复制相关PDB文件至指定文件夹。优选的,所述自动识别并保留存在于需求物种中的蛋白质复合体还包括去除包含多个抗体分子结构的PDB文件的步骤:首先找到没有处理过的新PDB文件,提取PDB文件中的信息,查看所述PDB文件中是否包含两个或者以上的抗体分子结构,记录下PDB文件的相关信息,并将所述PDB文件复制到指定文件夹。优选的,所述自动获取蛋白质中需求的链并将获取的蛋白质序列转换为FASTA格式步骤为:首先加载所述PDB文件,加载成功时记录和复制存储PDBID,并判断PDB文件是否阅读结束,如果没有结束则判断是否发现新的蛋白质链,直至遍历所有蛋白质链后记录并输出所需的PDB文件;加载并解析所需的PDB文件,搜索PDB文件中与重链相关的关键词,定位重链的蛋白质序列,解析所述蛋白质序列并存为FASTA文件。优选的,在步骤四中,所述空间信息为空间距离信息,针对一条蛋白质链上的每一个氨基酸对应另一条蛋白质链采用近邻算法,找出两个相邻的氨基酸结合的可能性,从而获得可结合性信息。优选的,每段氨基酸序列自动分段小于等于2000个原子。与现有技术相比,本专利技术的优势之处在于:本专利技术通过计算机脚本自动下载PDB库中所述的蛋白质复合体结构的PDB文件,自动识别并且保留文件中所需蛋白质复合体;再从虚拟文件库中调取所需蛋白质复合体结合所需的链,并且将获取的蛋白质序列转换为FASTA格式;接着根据从PDB文件中调取的不同蛋白质链间相邻氨基酸信息以及可结合信息进行自动分段和重组的信息,从而形成新的SD文件和PDB文件;最后通过脚本的自身的分析,批量生成所需的药效团模型,实现蛋白质间以及蛋白质间的药效团模型的构建,整个操作全自动完成且建立于生物学的PDB文件资料的基础之上,模型建立精准且高效。附图说明图1为本专利技术一实施例中流程示意图。具体实施方式下面将结合示意图对本专利技术的
技术实现思路
进行更详细的描述,其中表示了本专利技术的优选实施例,应该理解本领域技术人员可以修改在此描述的本专利技术,而仍然实现本专利技术的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本专利技术的限制。如图1所示,本专利技术提出了一种药效团模型的批量生成方法,包括以下步骤:步骤一、自动下载PDB库中所需蛋白质复合体结构的PDB文件;如抗原抗体复合体;自动下载的步骤如下:自动获取PDB文件程序通过循环调取制定文件夹中的PDB库中的PDB文件,判断所述PDB文件是否存在于需求列表中,若在需求列表中则复制所述PDB文件至指定文件夹,否则重新检查文件夹中是否有没处理过的PDB文件。步骤二、自动识别并保留存在于需求物种中的蛋白质复合体;具体包括筛选抗原抗体复合体、筛查并去除只包含单链的PDB文件和去除包含多个抗体分子结构的PDB文件;其中,筛选抗原抗体复合体步骤为:首先加载储存有蛋白质复合体抗原抗体信息的XML文件,通过解析所述XML文件获取所述抗原抗体复合体信息,然后筛选符合特定条件的抗原抗体复合体,最后记录并保存符合特定条件的抗原抗体复合体的PDBID并输出。筛查并去除只包含单链的PDB文件步骤为:首先找到并读取新的PDB文件中的信息,提取蛋白链信息并计算PDB文件中蛋白链的数量,如果有且只有两条蛋白链,则复制相关PDB文件至指定文件夹。去除包含多个抗体分子结构的PDB文件步骤为:首先找到没有处理过的新PDB文件,提取PDB文件中的信息,查看所述PDB文件中是否包含两个或者以上的抗体分子结构,记录下PDB文件的相关信息,并将所述PDB文件复制到指定文件夹。步骤三、自本文档来自技高网...
【技术保护点】
1.一种药效团模型的批量生成方法,其特征在于,包括步骤:步骤一、自动下载PDB库中所需蛋白质复合体结构的PDB文件;步骤二、自动识别并保留存在于需求物种中的蛋白质复合体;步骤三、自动获取蛋白质中需求的链,并将获取的蛋白质序列转换为FASTA格式;步骤四、自动通过PDB文件中的空间信息获取不同蛋白质链间相邻氨基酸信息以及可结合性信息;步骤五、自动分段、重组氨基酸序列,并重新根据接触面重新整合成一系列新的SD文件和PDB文件;步骤六、运用软件和脚本根据新的SD文件和PDB文件自动批量生成对应的药效团模型。
【技术特征摘要】
1.一种药效团模型的批量生成方法,其特征在于,包括步骤:步骤一、自动下载PDB库中所需蛋白质复合体结构的PDB文件;步骤二、自动识别并保留存在于需求物种中的蛋白质复合体;步骤三、自动获取蛋白质中需求的链,并将获取的蛋白质序列转换为FASTA格式;步骤四、自动通过PDB文件中的空间信息获取不同蛋白质链间相邻氨基酸信息以及可结合性信息;步骤五、自动分段、重组氨基酸序列,并重新根据接触面重新整合成一系列新的SD文件和PDB文件;步骤六、运用软件和脚本根据新的SD文件和PDB文件自动批量生成对应的药效团模型。2.如权利要求1所述的药效团模型的批量生成方法,其特征在于,在所述自动下载PDB库中所需蛋白质复合体结构PDB文件的步骤如下:自动获取PDB文件程序通过循环调取制定文件夹中的PDB库中的PDB文件,判断所述PDB文件是否存在于需求列表中,若在需求列表中则复制所述PDB文件至指定文件夹,否则重新检查文件夹中是否有没处理过的PDB文件。3.如权利要求1所述的药效团模型的批量生成方法,其特征在于,所述自动下载PDB库中所需蛋白质复合体结构PDB文件还包括步骤自动更新PDB库,所述自动更新PDB库为先从PDB文件列表中提取PDBID列表,如果有新的记录出现找到并记录,之后在更新后的PDB文件列表中去除重复的PDBID并给出需要重新下载的PDB文件列表,最后自动连接至指定的网站获取相应的PDB文件。4.如权利要求1所述的药效团模型的批量生成方法,其特征在于,所述自动识别并保留存在于需求物种中的蛋白质复合体包括筛选抗原抗体复合体步骤:首先加载储存有蛋白质复合体抗原抗体信息的XML文件,通过解析所述XML文件获取所述抗原抗体复合体信息,然后筛选符合特定条件的抗原抗...
【专利技术属性】
技术研发人员:周凌霄,王曼,
申请(专利权)人:周凌霄,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。