本发明专利技术的一种联合掩码语言建模和酵母表面展示的多肽设计方法及序列,包括对蛋白质序列数据库进行清洗,选择符合要求的蛋白质序列作为语言模型的训练集,并在训练集所包含的蛋白质序列上进行掩码语言建模;在预训练模型的基础上设计设定的下游任务,并进行下游任务微调;对一条选定的参考序列进行随机的残基掩盖,并预测被遮盖的残基;对模型生成的多肽候选物进行虚拟筛选;通过酵母展示技术对筛选后的多肽进行蛋白表达水平和亲和力的测定
【技术实现步骤摘要】
联合掩码语言建模和酵母表面展示的多肽设计方法及序列
[0001]本专利技术涉及多肽设计
,具体涉及一种联合掩码语言建模和酵母表面展示的多肽设计方法及序列
。
技术介绍
[0002]病毒对世界范围内的公共卫生体系造成了巨大影响,进化变异所致的新变异株不断出现,极大地挑战着传统制药行业,对药物设计的时效性提出了更高的要求
。
[0003]多肽药物相比于小分子药物有着诸多优点,药用价值的评估时间周期相对更短,在应对肺炎这类大流行传染病面前有着独特优势
。
因此,发展高效
、
高成功率的多肽设计流程具有重要意义
。
[0004]随着人工智能技术与自然科学的交叉融合,自然语言处理技术已经被证明可以应用于蛋白质序列的处理,近两年来语言模型被迁移至蛋白质领域,可以有效地进行蛋白质序列的表征学习,在二级结构预测等重要下游任务上表现优异
。
因此,本专利技术设计了一套基于蛋白质语言模型的多肽设计流程,可以实现高效
、
低成本的多肽设计与湿实验表征
。
[0005]但是,新药研发一直以来都面临周期漫长
、
成本高昂和成功率低的问题,传统的药物研发速度难以应对肺炎这类大流行的突然爆发,因此发展一套高效的药物设计流程是十分必要的
。
鉴于多肽药物的优点,将自然语言处理技术迁移应用于蛋白质领域,构建完整的基于人工智能的多肽设计流程,并结合湿实验表征,以期加快多肽药物研发流程,为大流行的快速响应提供思路
。
技术实现思路
[0006]本专利技术提出的一种联合掩码语言建模和酵母表面展示的多肽设计方法及序列,可至少解决
技术介绍
中的技术问题之一
。
[0007]为实现上述目的,本专利技术采用了以下技术方案:
[0008]一种联合掩码语言建模和酵母表面展示的多肽设计方法,通过以下步骤实现:
[0009]对可公开获取的蛋白质序列数据库进行清洗,选择符合要求的蛋白质序列作为语言模型的训练集,并在训练集所包含的蛋白质序列上进行掩码语言建模即建立预训练模型进行掩码重建预训练;
[0010]在预训练模型的基础上设计设定的下游任务,通过所述下游任务的训练更新预训练模型的参数,将设定性质信息存储到模型参数中,即进行下游任务微调;
[0011]对一条选定的参考序列进行随机的残基掩盖,并预测被遮盖的残基,从而得到新的多肽序列;
[0012]通过人工设定的规则和分子动力学模拟对模型生成的多肽候选物进行虚拟筛选;
[0013]通过酵母展示技术对筛选后的多肽进行蛋白表达水平和亲和力的测定
。
[0014]进一步地,所述掩码重建预训练步骤具体包括:
[0015]首先根据目标多肽的长度对可公开获取的蛋白质序列数据库进行清洗;
[0016]接下来在选定的训练集上进行自监督掩码重建任务,具体来说,每一条蛋白质序列将被切分为一个个残基,这些残基有几率被掩盖掉,而模型的任务就是通过的剩余的上下文预测被掩盖的残基
。
[0017]进一步地,所述下游任务微调的具体步骤包括,
[0018]通过下游任务的目标将设定的性质或者功能信息提示给预训练模型,从而使得预训练模型在训练的过程更新参数,存储设定的性质或者功能信息
。
[0019]进一步地,预测被遮盖的残基具体包括,
[0020]首先选定一条参考多肽序列,然后对该序列中的残基进行随机的掩盖,这样就获得了一条不完整的残缺的多肽序列,使用微调后的掩码重建模型对残缺序列进行补全,预测被掩码的残基,从而获得大量的多肽序列
。
[0021]进一步地,所述虚拟筛选的步骤如下,
[0022]首先是基于人工设定的规则进行筛选,其次是基于分子动力学模拟进行计算,进一步缩小进行湿实验的多肽数量
。
[0023]进一步地,所述通过酵母展示技术对筛选后的多肽进行蛋白表达水平和亲和力的测定,具体包括,
[0024]首先,通过展示体系融合了高效率的荧光蛋白,通过激光共聚焦显微镜和流式细胞术对多肽表达水平进行直接定性和定量研究;
[0025]其次,通过流式荧光细胞激活分选方法,直接测定设计多肽和靶标蛋白的亲和力
。
[0026]另一方面,本专利技术还公开一种多肽序列,采用上述的联合掩码语言建模和酵母表面展示的多肽设计方法生成
。
[0027]又一方面,本专利技术还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤
。
[0028]再一方面,本专利技术还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上方法的步骤
。
[0029]由上述技术方案可知,本专利技术的联合掩码语言建模和酵母表面展示的多肽设计方法,通过将自然语言处理技术迁移至多肽生成领域,可大量生成有可能具有特定性质或功能的多肽候选物,结合人工智能生成
、
虚拟筛选和湿实验表征,搭建了较为完整的“干湿结合”的设计流程
。
[0030]具体来说,本专利技术的优点和优势主要体现在以下几个方面:
[0031]1.
创新性的多肽设计方法:创新性地通过利用蛋白质语言模型来准确预测和生成定向性质的多肽序列
。
这一方法有望在药物研发和其他生物科技领域带来重大突破
。
[0032]2.
大规模生成多肽候选物:传统的多肽设计方法可能受限于计算资源和时间,无法高效生成大量多样性的候选物
。
而本专利技术的方法可以快速生成大规模的多肽序列,为后续的筛选和优化提供更多选择
。
[0033]3.
干湿结合设计流程:本专利技术的另一个特点是将人工智能生成与湿实验表征相结合的设计流程
。
这种干湿结合的方法可以在计算模拟和实验验证之间形成良好的反馈循环
。
通过结合虚拟筛选和湿实验表征,可以高效地评估多肽候选物的性质和功能,从而更快地找到潜在的优秀多肽
。
[0034]4.
提高多肽设计成功率,大幅缩短研究周期:多肽设计是一项复杂的任务,涉及到大量的变量和可能的组合
。
利用本专利技术的方法,可以更快地找到具有特定功能的多肽序列,从而大大提高设计效率
。
通过更准确的预测和筛选,可以减少无效的实验,提高多肽设计的成功率
。
[0035]5.
应用广泛:本专利技术的技术点有望在多个领域得到应用,包括药物研发
、
生物材料设计等
。
通过生成具有特定性质的多肽序列,可以创造出更高效
、
更精确的药物,开发出更优秀的生物材料,这将在医药和生物
产生重大的应用价值
。<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于,通过以下步骤,对可公开获取的蛋白质序列数据库进行清洗,选择符合要求的蛋白质序列作为语言模型的训练集,并在训练集所包含的蛋白质序列上进行掩码语言建模即建立预训练模型进行掩码重建预训练;在预训练模型的基础上设计设定的下游任务,通过所述下游任务的训练更新预训练模型的参数,将设定性质信息存储到模型参数中,即进行下游任务微调;对一条选定的参考序列进行随机的残基掩盖,并预测被遮盖的残基,从而得到新的多肽序列;通过人工设定的规则和分子动力学模拟对模型生成的多肽候选物进行虚拟筛选;通过酵母展示技术对筛选后的多肽进行蛋白表达水平和亲和力的测定
。2.
根据权利要求1所述的联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于:所述掩码重建预训练步骤具体包括:首先根据目标多肽的长度对可公开获取的蛋白质序列数据库进行清洗;接下来在选定的训练集上进行自监督掩码重建任务,具体来说,每一条蛋白质序列将被切分为一个个残基,这些残基有几率被掩盖掉,而模型的任务就是通过的剩余的上下文预测被掩盖的残基
。3.
根据权利要求2所述的联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于:所述下游任务微调的具体步骤包括,通过下游任务的目标将设定的性质或者功能信息提示给预训练模型,从而使得预训练模型在训练的过程更新参数,存储设定的性质或者功能信息
。4.
根据权利要求3所述的联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于:预测被遮盖的残基具体包括,首先选定...
【专利技术属性】
技术研发人员:李子刚,刘志宏,尹丰,叶宇鑫,窦俊,李聪,陈杰,聂志伟,刘雨田,
申请(专利权)人:深圳湾实验室坪山生物医药研发转化中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。