System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及生物分子,具体而言,涉及一种配体生成模型及其训练方法、配体生成方法。
技术介绍
1、在小分子设计领域内,基于深度学习的生成模型被广泛使用。其中,基于蛋白环境(即蛋白质的结构以及结合口袋的范围)为条件的生成模型能够直接产生结合于蛋白口袋的三维分子,因此吸引了大量研究者的注意。在模型架构方面,常见的基于深度学习的三维分子生成模型包括变分自编码器(vae),流模型,对抗生成网络(gan)和扩散生成模型。在生成阶段,给定蛋白环境后,通常基于正态分布进行采样产生随机向量,并通过预先定义的扩散步骤对该随机向量进行去噪,在达到指定步数后得到去噪后的结果(原子特征向量和三维坐标),即口袋中的配体分子。再经过神经网络对分子的三维坐标以及原子类型进行预测,得到三维点云数据(原子类型以及三维坐标)。接下来,大多采用分子重建算法对获得的点云进行分子重建,对原子间化学键进行推断。该步骤大多采用开源的软件,例如openbabel等。可以看到,在分子生成阶段,随机采样决定了生成分子的多样性,产生的分子在蛋白环境中呈现多样的结合模式。然而,针对任何的蛋白环境,存在一些重要的残基被称为hotspot,配体通常倾向于与这些hotspot残基产生相互作用以得到更稳定的构象并降低体系的自由能。此外,针对一些存在天然配体的蛋白靶点,天然配体的结合模式以及天然配体与残基的相互作用类型是设计药物的重要参考。当前的分子生成算法产生的配体是随机的,无法针对重要的残基进行设计,使得产生的分子与重要残基形成相互作用。
2、针对相关技术中,无法针对重要的残基进行
技术实现思路
1、本申请实施例提供了一种配体生成模型及其训练方法、配体生成方法,以至少解决相关技术中无法针对重要的残基进行设计,使得产生的分子与重要残基形成相互作用的问题。
2、在本申请的一个实施例中,提供了一种配体生成模型,包括预处理模块和至少六个相同的等变模块,其中,所述预处理模块配置为:
3、根据预设的蛋白环境,从指定数据库中获取训练数据,其中,所述训练数据包括蛋白原子坐标、蛋白原子类型、配体原子坐标和配体原子类型;
4、将所述蛋白原子类型的向量与离散相互作用提示向量进行拼接得到第一蛋白拼接向量,使用不同的线性层分别对所述第一蛋白拼接向量和配体原子类型的向量进行线性映射,得到蛋白映射向量和配体映射向量,其中,所述离散相互作用提示向量用于指示蛋白原子和配体原子之间的相互作用类型,同属于一个残基的蛋白原子拼接相同的离散相互作用提示向量;
5、根据预设的距离阈值,确定每个蛋白原子和每个配体原子的邻居原子,一对所述邻居原子以及二者之间的欧式距离构成一个边,其中,所述蛋白原子或所述配体原子与各自邻居原子的距离小于所述预设距离阈值;
6、所述等变模块包括:
7、节点更新单元,配置为接收所述蛋白映射向量和所述配体映射向量,根据每个蛋白原子的邻居原子构成的边更新所述蛋白映射向量得到第一更新蛋白类型向量,根据每个配体原子的邻居原子构成的边更新所述配体映射向量得到第一更新配体类型向量,将连续相互作用提示向量与所述第一更新蛋白类型向量进行相加得到第二蛋白拼接向量,其中所述连续相互作用提示向量用于指示所述蛋白原子和所述配体原子之间的相互作用类型,连续相互作用提示向量经过初始化后,参与反向传播进行学习更新,具体的,可以使用pytorch中的nn.embedding进行初始化,参与反向传播进行更新,为可学习的变量;
8、坐标更新单元,配置为接收所述节点更新单元输出的向量后,对所述配体原子坐标的向量进行更新,得到第一更新配体坐标向量;
9、交叉注意力单元,配置为接收所述坐标更新单元输出的向量后,对所述第一更新配体类型向量和所述第一更新配体坐标向量进行更新;
10、经过所述至少六个相同的等变模块的处理后,得到目标配体原子类型的向量和目标配体原子坐标的向量。
11、在一实施例中,所述离散相互作用提示向量用于指示以下之一的蛋白原子和配体原子之间的相互作用类型:cation-pi相互作用,卤素相互作用,氢键相互作用,pi-pi相互作用,无任何相互作用;
12、所述连续相互作用提示向量用于指示以下之一的蛋白原子和配体原子之间的相互作用类型:cation-pi相互作用,卤素相互作用,氢键相互作用,pi-pi相互作用,无任何相互作用。
13、在一实施例中,所述节点更新单元还配置为:
14、通过以下公式更新所述蛋白原子类型的向量和所述配体原子类型的向量:
15、
16、hk=mlp(mi,j),hv=mlp(mi,j),
17、hq=mlp(hl-1),hl=h1-1+attention(hk,hq,hv),
18、其中,h0,(l)=linear(h(l)),h(p)为蛋白原子类型的向量,h(l)为配体原子类型的向量,为离散相互作用提示向量,h0,(p)为第0层的蛋白映射向量,h0,(l)为第0层的配体映射向量,,为连续相互作用提示向量,hl-1,(p)表示第l-1层的第一更新蛋白类型向量,dij表示原子i和j之间的欧式距离,cat(·)表示向量拼接操作,mi,j表示原子i和原子j之间的边信息,原子i包括蛋白原子i和配体原子i,原子j包括蛋白原子j和配体原子j,attention(·)表示标准注意力操作,mlp(·)表示多层感知机,hk表示注意力机制中的键向量,hq表示注意力机制中的查询向量,hv表示注意力机制中的值向量,hk,hq,hv均由多层感知机映射得到,hl表示第l层的原子类型的向量,表示第l-1层的原子i的类型的向量,表示第l-1层的原子j的类型的向量,第l层的原子类型的向量是根据第l-1层的原子i的类型的向量通过交叉注意力操作更新的,第0层为预处理层,总层数与等变模块的数目相同。
19、在一实施例中,所述坐标更新单元还配置为:
20、通过以下公式更新所述配体原子坐标的向量:
21、
22、hk=mlp(mi,j),hv=mlp(mi,j),hq=mlp(hl-1),
23、
24、xl,(l)=xl-1,(l)+attention(hk,hq,hv),
25、其中,x(l)表示配体原子坐标的向量,hv表示注意力机制的值向量,表示第l-1层原子i的坐标向量,表示第l-1层原子j的坐标向量,且原子j属于原子i的邻居原子,xl,(l)表示第l层配体原子坐标的向量,是根据第l-1层配体原子坐标的向量经过交叉注意力操作后得到的。
26、在一实施例中,所述交叉注意力单元还配置为:
27、通过以下公式更新所述第一更新配体类型向量和所述第一更新配体坐标向量:
28、
29、
30、其中,dis_enc本文档来自技高网...
【技术保护点】
1.一种配体生成模型,其特征在于,包括预处理模块和至少六个相同的等变模块,其中,
2.如权利要求1所述的配体生成模型,其特征在于,
3.如权利要求1所述的配体生成模型,其特征在于,所述节点更新单元还配置为:
4.如权利要求3所述的配体生成模型,其特征在于,所述坐标更新单元还配置为:
5.如权利要求4所述的配体生成模型,其特征在于,所述交叉注意力单元还配置为:
6.如权利要求1所述的配体生成模型,其特征在于,在所述配体生成模型的训练过程中,使用以下三种损失函数进行模型参数的优化:原子类型预测损失函数,坐标预测损失函数,以及相互作用预测损失函数。
7.如权利要求1所述的配体生成模型,其特征在于,所述配体生成模型还包括:
8.一种针对权利要求1至7任一项所述配体生成模型的训练方法,其特征在于,包括:
9.一种针对权利要求1至7任一项所述配体生成模型的配体生成方法,其特征在于,包括:
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求8或9中所述的方法。
...【技术特征摘要】
1.一种配体生成模型,其特征在于,包括预处理模块和至少六个相同的等变模块,其中,
2.如权利要求1所述的配体生成模型,其特征在于,
3.如权利要求1所述的配体生成模型,其特征在于,所述节点更新单元还配置为:
4.如权利要求3所述的配体生成模型,其特征在于,所述坐标更新单元还配置为:
5.如权利要求4所述的配体生成模型,其特征在于,所述交叉注意力单元还配置为:
6.如权利要求1所述的配体生成模型,其特征在于,在所述配体生成模型的训练过程中,使用以下三种损失函数进行模型参数的优化:原子类型预测损失函数,坐标预测损失函数,以及相互作用预测损失...
【专利技术属性】
技术研发人员:白晨,吴朋,杜华斌,
申请(专利权)人:晨伫杭州生物科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。