System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本方法属于生物,涉及一种基于蛋白质大语言模型的用于多肽设计的系统。
技术介绍
1、多肽为由少于40个氨基酸组成的一类化合物,相对分子量通常为500-10000da,介于小分子化合物与蛋白质大分子药物之间,因而兼具两者的优点。相比于小分子药物,多肽具有生物活性高、特异性强的优点;相比于蛋白质大分子药物,多肽则具备较强的稳定性以及更简单的空间结构。且由于其制备简单、毒性小,以及吸收速度快等优点,被认为是极具潜力的新兴药物疗法之一,具有极大的市场规模与商业价值。
2、多肽链可以突变的可能性几乎是无限的,因此传统的合成多肽方法(通过人工经验设计并通过湿实验合成)往往需要耗费巨大的财力与人力,并常常需要数月甚至数年的时间。举例来说:一个仅仅长20的短链,每个位置上有20种可能性,则一共有20^20=104857600000000000000000000种可能的组合多肽。即便通过计算机来进行筛选,该数量级在现有的算力条件下也不可能完成。这对于多肽药物研发无疑是个很大的阻碍。因此,需要一个能快速生成潜在的多肽序列并验证的方法,在有限的算力下,经过有限的计算选出尽可能好的多肽链,这将大大提升多肽药物研发的速率并节省成本。
3、中国专利申请cn115873118a使用人工多肽序列设计法设计了一种基于人d114抗体的多肽,并使用alphafold2进行模型预测,从而辅助专家判断设计的优劣。由于该设计方法基于专家人工设计,搜索空间小,无法发现所有具有潜在可能性的多肽序列,成功率高度依赖专家知识,迭代慢。中国专利申请cn1149
技术实现思路
1、为了解决目前缺乏一种相对快速且合成效率较高的基于大语言模型和算法来设计和筛选多肽的方法。相比于之前依赖专家经验的人工多肽序列设计方法,亦或是使用传统算法对多肽序列的搜索空间进行穷举,本专利技术通过微调后的蛋白质大语言模型与先验知识,在不过多改变野生型多肽配体序列的基础上,使用蛋白质大语言模型对潜在价值较高的多肽序列进行列举。有针对性的对蛋白质大语言模型进行微调后,其能够更好地针对特定领域或特定蛋白质家族的多肽序列做出预测,提升蛋白质大语言模型在该特定领域中的序列预测准确度。野生型序列经过漫长的自然选择,本身已经具备较好的结构,因此基于海量多肽数据训练得到的大语言模型能够学习到较好的多肽链所应该具备的基本特征,同时,通过在野生型附近进行搜寻,去除大量低价值探索空间,避免了因搜索空间过大而导致的盲目选择以及搜索效率低下等技术缺点,从而能够更快地找到更好的多肽序列。
2、本专利技术第一方面提供了一种基于蛋白质大语言模型的用于多肽设计的系统,所述系统包括以下模块:
3、(1)模型微调模块:该模块用于使用目标领域蛋白质的野生型多肽对蛋白质大语言模型进行微调;
4、(2)多肽设计模块:该模块中,依次改变野生型多肽各个位点上的氨基酸残基,并利用微调后的蛋白质大语言模型得出各个位点上野生型氨基酸残基自身及其他19种氨基酸残基的概率得分,筛选出具有一个概率得分≥0的氨基酸残基的备选单位点突变序列;其中,所述野生型氨基酸残基的概率得分为0;
5、(3)3d结构建模模块:该模块用于将多肽设计模块(2)得到的备选单位点突变序列进行3d结构建模,选择得分最高的结构文件为最终的3d结构文件;
6、(4)分子对接评估模块:该模块中,在分子对接软件中输入备选单位点突变序列及该突变序列所对应野生型序列的受体的3d结构文件,进行分子对接评估,选出备选单位点突变序列中每个位点上结合能分数最低的序列;该序列的该突变位点上的氨基酸即为该位点的最优氨基酸;
7、(5)结果筛选模块:该模块用于根据用户设定的突变位置个数参数及用户所需的突变多肽数量,选出结合能分数最低的该数量的多肽序列。
8、在一些实施方案中,(1)中,所述蛋白质大语言模型为esm-2模型;优选所述目标领域蛋白质属于同一家族的蛋白质;
9、所述微调使用随机遮住法,通过随机遮住输入多肽序列中的氨基酸并让ems-2模型预测该被遮住位置的野生型氨基酸;优选随机遮住10%-20%例如15%的氨基酸,使用交叉熵作为损失函数。
10、在一些实施方案中,(2)中,所述微调后的蛋白质大语言模型为ems-3模型;和/或,所述概率得分通过以下公式打分得到:
11、
12、其中,x指氨基酸,t为多肽序列上的某一个位点所在位置,t指多肽序列中存在的突变个数,mt为突变型,wt为野生型。
13、在一些实施方案中,(3)中,使用蛋白结构预测软件进行3d结构建模。
14、在一些较佳实施方案中,所述蛋白结构预测软件为alphafold2或esmfold。
15、在一些实施方案中,所述蛋白结构预测软件对同一多肽序列随机进行y次3d结构建模并生成结构文件,选取得分最高的结构作为该多肽序列最终的3d结构;其中y≥5;所述分子对接通过向分子对接软件输入多肽及其受体的结构文件进行对接。
16、在一些实施方案中,(4)中,所述分子对接软件为hpepdock 2.0;和/或,所述3d结构文件包括pdb结构文件。
17、在一些实施方案中,(5)中,用户设定的突变位置个数参数为n,用户设定的最终优化后多肽序列数量为m;和/或,(2)中,共筛选出z个发生突变的最优氨基酸,n≤z;
18、a.当n=1时,将(4)中得到的结合能分数从高到低排列,最终输出结合能分数最低的前m条单位点突变序列;
19、b.当n>1时,将(4)中得到的发生突变的最优氨基酸进行czn排列组合,得到一组备选n位点突变序列,对其进行3d结构建模及分子对接评估,将结合能评分从高到低排列,最终输出结合能分数最低的前m条n位点突变序列。
20、在一些具体实施方案中,所述野生型多肽为人促生长激素释放激素野生型多肽。
21、本专利技术第二方面提供了一种包括机器学习模型的装置,其包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,可实现如本专利技术第一方面所述的系统的功能。
22、本专利技术第三方面提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,可实现如本专利技术第一方面所述系统的功能。
23、本专利技术第四方面提供了一种基于蛋白质大语言模型的用于多肽设计的方法,其使用如本专利技术第一方面所述的系统进行多肽设计。
24、在一些实施方案中,所述方法包括以下步骤:
本文档来自技高网...【技术保护点】
1.一种基于蛋白质大语言模型的用于多肽设计的系统,其特征在于,所述系统包括以下模块:
2.如权利要求1所述的系统,其特征在于,(1)中,所述蛋白质大语言模型为ESM-2模型;优选所述目标领域蛋白质属于同一家族的蛋白质;
3.如权利要求1所述的系统,其特征在于,(2)中,所述微调后的蛋白质大语言模型为EMS-3模型;和/或,所述概率得分通过以下公式打分得到:
4.如权利要求1所述的系统,其特征在于,(3)中,使用蛋白结构预测软件进行3D结构建模;
5.如权利要求4所述的系统,其特征在于,所述蛋白结构预测软件对同一多肽序列随机进行y次3D结构建模并生成结构文件,选取得分最高的结构作为该多肽序列最终的3D结构;其中y≥5;所述分子对接通过向分子对接软件输入多肽及其受体的结构文件进行对接。
6.如权利要求1所述的系统,其特征在于,(4)中,所述分子对接软件为Hpepdock 2.0;和/或,所述3D结构文件包括pdb结构文件。
7.如权利要求1所述的系统,其特征在于,(5)中,用户设定的突变位置个数参数为n,用户设定
8.如权利要求1-7任一项所述的系统,其特征在于,所述野生型多肽为人促生长激素释放激素野生型多肽。
9.一种包括机器学习模型的装置,其包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,可实现如权利要求1-8任一项所述的系统的功能。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,可实现如权利要求1-7任一项所述的系统的功能。
11.一种基于蛋白质大语言模型的用于多肽设计的方法,其特征在于,其使用如权利要求1-7任一项所述的系统进行多肽设计。
...【技术特征摘要】
1.一种基于蛋白质大语言模型的用于多肽设计的系统,其特征在于,所述系统包括以下模块:
2.如权利要求1所述的系统,其特征在于,(1)中,所述蛋白质大语言模型为esm-2模型;优选所述目标领域蛋白质属于同一家族的蛋白质;
3.如权利要求1所述的系统,其特征在于,(2)中,所述微调后的蛋白质大语言模型为ems-3模型;和/或,所述概率得分通过以下公式打分得到:
4.如权利要求1所述的系统,其特征在于,(3)中,使用蛋白结构预测软件进行3d结构建模;
5.如权利要求4所述的系统,其特征在于,所述蛋白结构预测软件对同一多肽序列随机进行y次3d结构建模并生成结构文件,选取得分最高的结构作为该多肽序列最终的3d结构;其中y≥5;所述分子对接通过向分子对接软件输入多肽及其受体的结构文件进行对接。
6.如权利要求1所述的系统,其特征在于,(4)中,所述分子对接软件为hpepdoc...
【专利技术属性】
技术研发人员:李欣颐,张哲,王鹤,唐伟,杨晶晶,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。