System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 预测突变对蛋白酶活性的影响制造技术_技高网

预测突变对蛋白酶活性的影响制造技术

技术编号:44013381 阅读:3 留言:0更新日期:2025-01-15 01:00
本公开涉及预测突变对蛋白酶活性的影响。在一种用于预测突变对蛋白酶活性影响的方法中,基于待预测蛋白酶样本序列信息,使用预训练模型进行特征提取,获得待预测蛋白酶样本的序列特征(S110);基于待预测蛋白酶样本的三维结构信息,获得待预测蛋白酶样本的结构特征(S120);基于序列特征和结构特征,使用基于图神经网络的预测模型进行预测,确定待预测蛋白酶样本突变后的活性变化预测结果(S130)。还公开了一种用于预测突变对蛋白酶活性影响的预测模型的构建方法。本公开的方法基于先进的自然语言处理模型和图神经网络,结合序列和三维结构,通过人工智能模型进行预测,表现出优于其他现有方法的性能,证明了其在蛋白酶工程中的广阔的应用前景。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及蛋白酶优化,更具体涉及预测蛋白酶上的氨基酸突变对蛋白酶活性的影响。


技术介绍

1、酶是一种重要的生物催化剂,由于具有高选择性、生物相容性和反应的温和性,在工业生物催化尤其是医药中间体的生产中有广泛的应用前景。绝大多数的酶是蛋白质,而蛋白质的分子结构和功能会受到温度、ph、激活剂等因素影响,因此蛋白酶的催化活性也只有在一定条件下才能表现出来,通常需要对蛋白酶的催化活性进行工程改造才能适应不同的生产环境和功能需求。

2、定向进化和理性设计是两种常见的蛋白酶优化策略。定向进化策略已经被成功应用于活性、稳定性、底物特异性、立体选择性等蛋白酶性质的改造,美国科学家弗朗西丝·阿诺德(francesh.arnold)因此拿下2018年诺贝尔化学奖。然而,定向进化需要构建大规模的突变体文库,建立高通量筛选手段,会耗费大量的人力,物力以及财力。定向进化方法也难以完成对序列空间的全面搜索,存在根本缺陷。理性设计策略依靠对蛋白酶结构与功能关系的认识预测可能的突变型,而后通过定点突变的手段在目的基因中构建突变型。从本质上说,与定向进化相比,理性设计改造蛋白酶的效率更高。另外,理性设计方法具有普适性,一种有效的理性设计策略可以普遍应用于多种蛋白酶的改造。然而,目前理性设计方法的准确率普遍较低,应用范围远没有定向进化广泛。近年来,人工智能辅助的蛋白质工程逐渐发展成为一种高效的蛋白设计新策略,在蛋白质的结构预测、功能预测、稳定性预测和抗体亲和力预测等多个方面显现出独特的优势,成为继理性设计和定向进化之后的又一次技术浪潮。

3、近年来,随着计算机技术的飞速发展,各种神经网络模型正在向更准确、更高效的方向快速更新迭代,人工智能(ai)辅助的酶工程逐渐发展成为一种高效的蛋白酶设计新策略。为了应对大规模基因测序带来的蛋白质序列数据库的爆炸式增长,目前最大的蛋白质语言模型的参数量已经达到了150亿(参见lin,zeming等.2023.“evolutionary-scalepredictionofatomic-levelproteinstructurewithalanguagemodel”.science379(6637):1123–30。在此通过援引,将上述文献的全部内容合并到本公开中,使之成为本公开的内容的一部分)。不断发展的高性能计算和自然语言处理(nlp)的进步使研究人员能够使用大型蛋白质数据库来增强对相对较小的实验数据集的序列属性或注释的预测。

4、经过数十年的发展,蛋白质的稳定性预测已经有数十种基于ai的方法,并且性能已经超越了传统的理性设计方法。与蛋白酶的稳定性预测不同,目前仅有scaneer(sequenceco-evolutionaryanalysistocontrolefficiencyofenzymereactions)方法基于序列协同进化分析寻找进化上存在的可替代氨基酸用以提高蛋白酶活性(参见kim,donghyo等.2022.“enzymeactivityengineeringbasedonsequenceco-evolutionanalysis”.metabolicengineering74:49–60。在此通过援引,将上述文献的全部内容合并到本公开中,使之成为本公开的内容的一部分)。scaneer评估了多序列比对(msa)中氨基酸对的共同进化关系,在msa中未观察到或很少观察到的氨基酸对即氨基酸替换则不能预测,最终导致每个蛋白酶可预测的突变数目仅占所有可能突变的47%,这将极大地限制了该方法的应用范围。如何将现在先进的ai方法应用到蛋白酶活性的预测方法还存在空白。

5、目前将自然语言处理应用到蛋白酶活性预测遇到诸多问题。首先由于人工智能算法严重依赖数据,初始数据的数量和质量决定了训练得到的模型的泛化性能(参见usmanova,dinarar等.2018.“self-consistencytestrevealssystematicbiasinprogramsfor predictionchangeofstabilityuponmutation”.bioinformatics34(21):3653–58。在此通过援引,将上述文献的全部内容合并到本公开中,使之成为本公开的内容的一部分)。数据集的样本数量不足或者质量过低会导致模型出现过拟合或者欠拟合的问题,这可能是限制基于ai预测蛋白酶活性的其中一个重要因素。同时由于蛋白酶进化和实验的偏好性导致数据集不平衡,进而影响预测模型的性能。其次,针对不同的底物在不同的温度、ph等实验条件下,同一个突变对蛋白酶会产生不同的活性影响,这种多标签数据也给预测工作带来了极大的困难。


技术实现思路

1、稳定性和催化活性是蛋白酶的两个最重要的属性,其中稳定性研究较多,已经发展出数十种基于ai的方法预测突变对蛋白酶稳定性的影响方法并且性能优秀,而催化活性一直受限于数据集和方法的问题至今停滞不前,仅有scaneer方法(如上已引用)能够预测单点突变对蛋白酶活性的影响,但是该方法由于基于协同进化信息仅能够预测进化中出现过的突变,限制较多,无法广泛应用。基于以上提到的现阶段预测突变对蛋白酶活性影响方法存在的缺陷,本公开提出了一种用于预测突变对蛋白酶活性的影响的方法。它是一种基于新的自然语言处理方法和图结构数据的深度学习方法,采用t5(即,transfertext-to-texttransformer)预训练模型提取序列特征、图神经网络模型(如图注意力网络,graphattentionnetwork(gat))提取结构特征,成功地将蛋白质语言模型和图注意力网络模型用于预测由单点错义突变引起的蛋白酶活性变化。

2、根据本公开的第一方面,提供了一种用于预测突变对蛋白酶活性影响的方法。所述方法可以包括如下步骤:基于待预测蛋白酶样本序列信息,使用预训练模型进行特征提取,获得所述待预测蛋白酶样本的序列特征;基于待预测蛋白酶样本的三维结构信息,获得所述待预测蛋白酶样本的结构特征;基于所述序列特征和所述结构特征,使用基于图神经网络的预测模型进行预测,确定所述待预测蛋白酶样本突变后的活性变化预测结果。

3、在根据本公开第一方面的方法中,所述待预测蛋白酶样本序列信息可以包括所述待预测蛋白酶样本在突变前的氨基酸序列信息和在突变后的氨基酸序列信息。

4、另一方面,所述待预测蛋白酶样本序列信息可以包括所述待预测蛋白酶样本在突变前的氨基酸序列信息和指定突变信息。由此,根据所述待预测蛋白酶样本在突变前的氨基酸序列信息和指定突变信息,可以获得所述待预测蛋白酶样本在突变后的氨基酸序列信息。

5、优选地,所述指定突变信息包括指定突变位点和/或指定突变后氨基酸类型。

6、在根据本公开第一方面的方法中,所述的基于待预测蛋白酶样本序列信息,使用预训练模型进行特征提取,获得所述待预测蛋白酶样本的序列特征可以进一步包括:将所述待预测蛋白酶样本在突变前的氨基酸序列信息和在突变后的氨基酸序列信息分别使用所述预训练模型进行特征提取,获得突本文档来自技高网...

【技术保护点】

1.一种用于预测突变对蛋白酶活性影响的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本序列信息包括所述待预测蛋白酶样本在突变前的氨基酸序列信息和在突变后的氨基酸序列信息。

3.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本序列信息包括所述待预测蛋白酶样本在突变前的氨基酸序列信息和指定突变信息。

4.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:根据所述待预测蛋白酶样本在突变前的氨基酸序列信息和指定突变信息获得所述待预测蛋白酶样本在突变后的氨基酸序列信息。

5.根据权利要求3或4所述的方法,其特征在于,所述指定突变信息包括指定突变位点和/或指定突变后氨基酸类型。

6.根据权利要求2或4所述的方法,其特征在于,所述的基于待预测蛋白酶样本序列信息,使用预训练模型进行特征提取,获得所述待预测蛋白酶样本的序列特征进一步包括:

7.根据权利要求1所述的方法,其特征在于,所述预训练模型采用以下模型中的一种或多种的组合来实现:ESM-1b、UniRef、ProteinBert、TAPE、ProtGPT2、ProtTXL、ProtBert、ProtXLNet、ProtAlbert、ProtElectra、ProtT5-XL和ProtT5-XXL;较优选地,所述预训练模型为ProtT5-XL或ProtT5-XXL;更优选地,所述预训练模型为ProtT5-XL。

8.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本的三维结构信息包括通过以下数据库或预测软件中的至少一种获取的待预测蛋白酶样本的三维结构信息:PDB数据库、AlphaFold2、I-TASSER、RoseTTAFold、Modeller和Swiss-model。

9.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本的三维结构信息包括相互作用网络、二级结构、氨基酸残基距离或物理环境;优选地,所述待预测蛋白酶样本的三维结构信息包括相互作用网络。

10.根据权利要求8或9所述的方法,其特征在于,所述待预测蛋白酶样本的三维结构信息进一步通过以下方式获取:

11.根据权利要求10所述的方法,其特征在于,所述的基于待预测蛋白酶样本的三维结构信息,获得所述待预测蛋白酶样本的结构特征包括:

12.根据权利要求1所述的方法,其特征在于,所述的基于所述序列特征和所述结构特征,使用基于图神经网络的预测模型进行预测,确定所述待预测蛋白酶样本突变后的活性变化预测结果进一步包括:

13.根据权利要求12所述的方法,其特征在于,所述的将所述序列特征和所述结构特征输入到图神经网络,得到关于活性变化的概率特征包括:

14.根据权利要求1所述的方法,其特征在于,所述的基于图神经网络的预测模型是通过以下步骤构建出来的:

15.根据权利要求14所述的方法,其特征在于,所述基于图神经网络的预测模型是分类器。

16.根据权利要求14所述的方法,其特征在于,所述图神经网络是图卷积网络或图注意力网络。

17.根据权利要求14所述的方法,其特征在于,所述的基于所述序列特征、所述结构特征以及所述突变活性变化标签,对图神经网络进行训练,获得所述的基于图神经网络的预测模型进一步包括:

18.根据权利要求12或17所述的方法,其特征在于,所述决策树模型是梯度提升决策树(GBDT)模型。

19.根据权利要求18所述的方法,其特征在于,使用LightGBM框架来实现GBDT模型。

20.根据权利要求14所述的方法,其特征在于,所述的获取训练集的步骤包括:

21.一种用于预测突变对蛋白酶活性影响的预测模型的构建方法,其特征在于,所述方法包括:

22.根据权利要求21所述的方法,其特征在于,所述的基于样本蛋白酶突变前和突变后的氨基酸序列信息,通过预训练模型进行特征提取,获得所述多个训练样本的序列特征包括:

23.根据权利要求21或22所述的方法,其特征在于,所述预训练模型采用以下模型中的一种或多种的组合来实现:ESM-1b、UniRef、ProteinBert、TAPE、ProtGPT2、ProtTXL、ProtBert、ProtXLNet、ProtAlbert、ProtElectra、ProtT5-XL和ProtT5-XXL;较优选地,所述预训练模型为ProtT5-XL或ProtT5-XXL;更优选地,所述预训练模型为ProtT5-XL。

24.根据权利要求21所述的方法,其特征在于...

【技术特征摘要】
【国外来华专利技术】

1.一种用于预测突变对蛋白酶活性影响的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本序列信息包括所述待预测蛋白酶样本在突变前的氨基酸序列信息和在突变后的氨基酸序列信息。

3.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本序列信息包括所述待预测蛋白酶样本在突变前的氨基酸序列信息和指定突变信息。

4.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:根据所述待预测蛋白酶样本在突变前的氨基酸序列信息和指定突变信息获得所述待预测蛋白酶样本在突变后的氨基酸序列信息。

5.根据权利要求3或4所述的方法,其特征在于,所述指定突变信息包括指定突变位点和/或指定突变后氨基酸类型。

6.根据权利要求2或4所述的方法,其特征在于,所述的基于待预测蛋白酶样本序列信息,使用预训练模型进行特征提取,获得所述待预测蛋白酶样本的序列特征进一步包括:

7.根据权利要求1所述的方法,其特征在于,所述预训练模型采用以下模型中的一种或多种的组合来实现:esm-1b、uniref、proteinbert、tape、protgpt2、prottxl、protbert、protxlnet、protalbert、protelectra、prott5-xl和prott5-xxl;较优选地,所述预训练模型为prott5-xl或prott5-xxl;更优选地,所述预训练模型为prott5-xl。

8.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本的三维结构信息包括通过以下数据库或预测软件中的至少一种获取的待预测蛋白酶样本的三维结构信息:pdb数据库、alphafold2、i-tasser、rosettafold、modeller和swiss-model。

9.根据权利要求1所述的方法,其特征在于,所述待预测蛋白酶样本的三维结构信息包括相互作用网络、二级结构、氨基酸残基距离或物理环境;优选地,所述待预测蛋白酶样本的三维结构信息包括相互作用网络。

10.根据权利要求8或9所述的方法,其特征在于,所述待预测蛋白酶样本的三维结构信息进一步通过以下方式获取:

11.根据权利要求10所述的方法,其特征在于,所述的基于待预测蛋白酶样本的三维结构信息,获得所述待预测蛋白酶样本的结构特征包括:

12.根据权利要求1所述的方法,其特征在于,所述的基于所述序列特征和所述结构特征,使用基于图神经网络的预测模型进行预测,确定所述待预测蛋白酶样本突变后的活性变化预测结果进一步包括:

13.根据权利要求12所述的方法,其特征在于,所述的将所述序列特征和所述结构特征输入到图神经网络,得到关于活性变化的概率特征包括:

14.根据权利要求1所述的方法,其特征在于,所述的基于图神经网络的预测模型是通过以下步骤构建出来的:

15.根据权利要求14所述的方法,其特征在于,所述基于图神经网络的预测模型是分类器。

16.根据权利要求14所述的方法,其特征在于,所述图神经网络是图卷积网络或图注意力网络。

17.根据权利要求14所述的方法,其特征在于,所述的基于所述序列特征、所述结构特征以及所述突变活性变化标签,对图神经网络进行训练,获得所述的基于图神经网络的预测模型进一步包括:

18.根据权利要求12或17所述的方法,其特征在于,所述决策树模型是梯度提升决策树(gbdt)模型。

...

【专利技术属性】
技术研发人员:李根樊隆张宁
申请(专利权)人:上海金斯康生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1