System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种蛋白质复合物结构类似模板搜索方法技术_技高网

一种蛋白质复合物结构类似模板搜索方法技术

技术编号:44772958 阅读:1 留言:0更新日期:2025-03-26 12:51
一种蛋白质复合物结构类似模板搜索方法,首先,构建蛋白质复合物模板数据库和融合模板数据库;然后输入目标蛋白的单链结构,将此结构在复合物模板数据库中搜索全局模板和局部模板,如果搜索出的模板质量较差,则在融合模板库中再次搜索全局模板和局部模板;最后,选择两个数据库中搜索得到的最佳模板作为目标蛋白质的结构类似模板。本发明专利技术提供了一种精度较高的蛋白质复合物结构类似模板搜索方法。

【技术实现步骤摘要】

本专利技术属于生物学信息学、智能优化、计算机应用领域,尤其涉及一种蛋白质复合物结构类似模板搜索方法


技术介绍

1、对于大多数目标蛋白来说,基于序列同源性或结构相似性,通过序列比对或穿得到的更为可靠,过程也更为便捷。尤其是目标蛋白与模板具有显著同源性时,预测结果一般具有极高的可信度。这使得基于模板的结构预测方法在实际应用中更受欢迎。然而目前pdb中已知蛋白质复合物结构的数量要远少于单体蛋白,导致预测所需要的模板结构数目相对较少甚至缺失。marsh等发表在《cell》和pasek等发表在《bioinformatics》上的论文中均指出,具有多个结构域(即多域)蛋白质主要来源于一系列的基因融合和裂变事件,即大多数多域蛋白质是由基因组中的蛋白质复合物的单链融合和分裂形成的,这可以可靠地从多域蛋白中推断蛋白质复合物的链间信息,因此可以利用多域蛋白质模板库作为复合物模板库的补充从而构建结构类似模板库,提高数据库的完整性。

2、目前,世面上已经有多种搜索模板的方法。这些方法包括schwede实验室开发的swiss-model、sali实验室开发的modeller等同源建模方法,另外还有zhang实验室开发的i-tasser基于穿线法的预测方法。尽管这些方法已经取得了许多的成功,但仍有一些问题(如模板数据库不全面且赘余和蛋白质复合物模板搜索精度低)限制了现有的算法的精度和效率;其次,大多数算法需要人为处理一些中间过程,这影响了非结构生物学领域的用户使用。

3、因此,现有的搜索蛋白质复合物模板方法在精度和自动化程度方面存在着缺陷,需要改进。


技术实现思路

1、为了克服现有的搜索蛋白质复合物模板方法存在的精度较低、执行过程中需要人工干预的不足,本专利技术提供一种精度较高的蛋白质复合物结构类似模板搜索方法。

2、为了解决上述技术问题本专利技术提供如下的技术方案:

3、一种蛋白质复合物结构类似模板搜索方法,所述方法包括以下步骤:

4、1)输入待搜索的蛋白质复合物各单链结构;

5、2)设置参数:最小单链残基数nmin,序列相似性系数阈值sthresholds,结构相似性系数阈值tthresholds,模板匹配百分比cpercentage,模板结构相似性阈值gthresholds;

6、3)构建复合物模板数据库;

7、4)构建融合模板数据库;

8、5)从复合物模板数据库中搜索类似模板;若搜索出来的最好的模板得分gscore小于gthresholds,则执行步骤6)否则此模板就是最终模板;

9、6)从融合模板数据库中搜索类似模板,并与步骤5)中搜索出来的最好模板进行比较,取评分最高的模板作为最终模板。

10、进一步,所述3)的过程如下:

11、3.1)从pdb数据库中挑出所有蛋白质复合物;

12、3.2)去除每个复合物中残基数小于nmin的单链;

13、3.3)去除每个复合物中与其它链没有接触的单链;

14、3.4)根据序列相似性sthresholds采用cd-hit去除冗余蛋白;

15、3.5)使用usalign去除结构相似性tm-score大于tthresholds的蛋白质复合物;

16、3.6)再次去除数据库中所有单链结构。

17、再进一步,所述4)的过程如下:

18、4.1)从pdb数据库中挑出所有多域蛋白;

19、4.2)根据序列相似性sthresholds采用cd-hit去除冗余蛋白;

20、4.3)使用cd-hit将cath和scope中与4.2)中剩余的蛋白质序列相似性小于sthresholds的多域蛋白加入数据库;

21、4.4)使用tmalign将pdb、cath和scope中序列相似性大于sthresholds但tm-score小于tthresholds的多域蛋白加入数据库。

22、更进一步,所述5)的过程如下:

23、5.1)查找全局模板:将每条链依次在复合物模板数据库中使用tm-align进行比对,每条链比对完成后,在模板中去除已匹配的残基随后进行下一条链匹配,记录每条链匹配残基数占该链残基数的百分比,若匹配百分比大于cpercentage,则认为该链已被该模板匹配,筛选出所有链均匹配上的模板,并选择gscore最高的模板作为全局模板,其中gscore的计算公式如下:

24、

25、nchain为输入复合物结构所有单链的数量,tm-scored为第d个链的tm-score;

26、5.2)查找局部模板:若模板不能覆盖住所有链,则根据滑动窗口的过程,将每两条相邻链依次在复合物模板数据库中寻找这两条链的全局模板,接着将每组不同链号所对应的全局模板以相同链号为基准连接两个模板,从而得到复合物的局部模板;

27、5.3)判断最好的局部模板和全局模板对应的gscore与gthresholds比较,若大于gthresholds,则得分高的模板为复合物最终模板,否则执行步骤6)。

28、本专利技术的技术构思为:首先,构建蛋白质复合物模板数据库和融合模板数据库;然后输入目标蛋白的单链结构,将此结构在复合物模板数据库中搜索全局模板和局部模板,如果搜索出的模板质量较差,则在融合模板库中再次搜索全局模板和局部模板;最后,选择两个数据库中搜索得到的最佳模板作为目标蛋白质的结构类似模板。

29、本专利技术的有益效果表现在:利用多域蛋白质数据作为补充构建结构类似模板库,提高数据库的完整性;采用搜索全局模板和局部模板两种方式,提高搜索模板的精度。

本文档来自技高网...

【技术保护点】

1.一种蛋白质复合物结构类似模板搜索方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种蛋白质复合物结构类似模板搜索方法,其特征在于,所述3)的过程如下:

3.如权利要求1或2所述的一种蛋白质复合物结构类似模板搜索方法,其特征在于,所述4)的过程如下:

4.如权利要求1或2所述的一种蛋白质复合物结构类似模板搜索方法,其特征在于,所述5)的过程如下:

【技术特征摘要】

1.一种蛋白质复合物结构类似模板搜索方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种蛋白质复合物结构类似模板搜索方法,其特征在于,所述3)的过程如下:

3.如...

【专利技术属性】
技术研发人员:周晓根张子莹蔡亚贤张帅林杰周淑妤
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1