基于蛋白质结构的可控属性全新活性小分子设计方法技术

技术编号:38835619 阅读:8 留言:0更新日期:2023-09-17 09:52
本发明专利技术公开了一种基于蛋白质结构的可控属性全新活性小分子设计方法,提出了一个基于Transformer的小分子生成模型,即CproMG。基于融合蛋白质的层次视图,它通过将氨基酸残基与其组成原子关联,显著增强了蛋白质结合袋的表达。通过联合嵌入分子序列、其类药物性质和与蛋白质的结合亲和力,它通过测量分子标记与蛋白质残基和原子的接近度,以可控的方式自动回归生成具有所需财产的新分子。归生成具有所需财产的新分子。归生成具有所需财产的新分子。

【技术实现步骤摘要】
基于蛋白质结构的可控属性全新活性小分子设计方法


[0001]本专利技术属于计算机辅助药物研发
,具体涉及一种基于蛋白质结构的可控属性全新活性小分子设计方法。

技术介绍

[0002]在药物设计过程中,筛选或设计与蛋白质靶点结合的候选化合物至关重要。然而,小分子的化学空间很大,据估计包括10
23

10
60
种化合物。因此,在这样的空间中找到合适的小分子是极其困难的。
[0003]在计算机辅助药物设计的发展过程中,最先被提出的是高通量筛选和虚拟筛选技术,通过对大型化合物库中的分子进行过滤得到目标分子。高通量筛选以计算机为辅助,通过一次实验可以检测数以千万的样品。分子对接技术和基于机器学习的定量构效方法(QSAR)被应用于虚拟筛选,分别是基于小分子结构筛选和基于药物作用机理筛选的两种虚拟筛选方法。随着人工智能的发展,基于深度学习的分子生化性质预测模型也被应用于虚拟筛选,为先导化合物的发现带来了希望。但是,以上方法都是基于已知数据库进行筛选,在很大程度上限制了在化学空间上的搜索范围,并且筛选得到的分子缺乏原创性。
[0004]从头设计药物小分子本质上也是在化学空间中搜寻小分子,但是其不受已有数据库限制,可以更充分的探索整个化学空间。随着人工智能的发展,产生了许多深度生成模型,已经成功应用于自然语言处理和图像领域。受此启发,目前将生成模型应用于小分子生成,学习小分子数据的理化性质和结构特征,最终生成出满足特定条件的理想小分子。
[0005]当前基于深度学习的分子生成方法大致可分为基于配体结构的生成方法和基于受体结构的生成方法。基于配体结构的生成方法未考虑靶标信息或者受到靶标特异性配体数据集的限制,难以满足与新靶标具有高结合力的需求。基于受体结构的生成方法虽然可以解决上述问题,但是其生成的分子的生化和理化性质难以得到控制。
[0006]鉴于此,有必要设计一种新的生成方法,使生成的分子在具有高结合力的基础上可以控制属性。

技术实现思路

[0007]本专利技术的目的在于解决基于深度学习的分子生成方法在设计分子时无法在满足高结合力的基础上还可以控制其生化和理化性质这一技术问题,而提供了一种基于蛋白质结构的可控属性全新活性小分子设计方法
[0008]为实现上述目的,本专利技术所提供的技术解决方案是:
[0009]基于蛋白质结构的可控属性全新活性小分子设计方法,其特殊之处在于,包括以下步骤:
[0010]1)构建小分子生成模型CProMG:
[0011]所述小分子生成模型CProMG包括蛋白质嵌入模块、双视图编码器模块、小分子嵌入模块以及解码器模块,使用束搜索算法逐步生成完整的SMILES序列;
[0012]所述蛋白质嵌入模块用于获得蛋白质的氨基酸图特征和原子图特征(即其输入的是蛋白质3D结构,输出的是氨基酸图特征和原子图特征),包括氨基酸图嵌入单元以及原子图嵌入单元;
[0013]所述双视图编码器模块用于融合蛋白质的氨基酸图特征和原子图特征,获得融合的蛋白质特征(即输入的是氨基酸图和原子图的特征表示,输出的是融合的蛋白质特征),包括多头注意力网络、前馈神经网络和信息交叉融合单元;
[0014]所述小分子嵌入模块用于获得小分子初始特征(即输入的是小分子序列,输出的是小分子嵌入特征),包括小分子SMILES和属性的嵌入单元、段编码单元和位置编码单元;其中,段编码单元用于将分子序列和分子属性区分开,位置编码单元则用来获取位置信息;
[0015]所述解码器模块用于生成小分子序列(即输入的是小分子嵌入特征和蛋白质特征,输出的是生成的小分子序列),包括mask多头注意力网络、交互多头注意力网络和前馈神经网络;
[0016]2)获取样本数据,对步骤1)构建的小分子生成模型CProMG进行训练,获得训练好的小分子生成模型;具体训练过程如下:
[0017]2.1)采集样本数据,构建训练数据集和测试数据集
[0018]所述样本数据为结合姿势均方根偏差小于的蛋白质

小分子对(在已有数据集中进行筛选,基于蛋白质结构去生成小分子,从而是生成的小分子具有靶向亲和力),其包括蛋白质的三维结构信息以及小分子的SMILES序列信息;
[0019]2.2)获得蛋白质特征以及小分子初始特征
[0020]蛋白质特征通过以下方式获得:
[0021]A1.对步骤2.1)中蛋白质的三维结构进行表征,使用K

近邻算法(KNN)构建蛋白质氨基酸图和蛋白质原子图通过one

hot编码节点信息,再加上拉普拉斯位置编码得到节点的初始特征,利用高斯核函数将边长转换为边特征;
[0022]A2.利用双视图编码器模块对A1获得的蛋白质氨基酸图和蛋白质原子图的初始特征进行融合训练,获得蛋白质特征;
[0023]双视图编码器模块包含并行的氨基酸视图编码器En
r
和原子视图编码器En
a
,每一个编码器分别包含t个编码层,每个编码层都首先使用边特征来增强每个节点的信息,然后利用多头注意力机制计算每个节点与其邻接节点的注意力分数,并将其作为权重来聚合邻接节点,更新节点信息,最后传入前馈神经网络;信息交叉融合单元将两个视图的信息融合(即通过注意力计算将原子视图的信息聚合到氨基酸视图中,更新氨基酸视图节点特征);最后将En
r
和En
a
的输出拼接,得到最终的蛋白质特征表示;
[0024]小分子初始特征通过以下方式获得:
[0025]对步骤2.1)中的小分子SMILES序列信息进行表征,使用RDKit获得小分子的理化性质,并且将其拼接在小分子SMILES序列的前面作为生成条件,通过one

hot编码整个序列获得小分子初始特征;
[0026]2.3)利用解码器模块对步骤2.2)获得的小分子初始特征进行训练,解码器与原Transformer的解码器相似,包含t个解码层,每个解码层都首先经过mask多头注意力网络学习分子自身特征,然后利用交互多头注意力网络计算分子token与步骤2.2)得到的蛋白
质特征的接近度来更新分子特征,最后传入前馈神经网络,预测完整的分子输出;
[0027]2.4)使用步骤2.3)预测得到的分子,利用交叉熵损失函数对模型损失进行计算,并根据损失通过负反馈调节模型参数,训练完成之后得到小分子生成模型CProMG;
[0028]3)利用步骤2)训练好的CProMG模型结合束搜索算法逐步生成完整的小分子SMILES序列。束搜索算法是在模型训练好后,生成分子时用到的一种搜索空间的策略,模型运行一次只能根据已知的序列预测出下一个字符,因此,一个完整的SMILES序列需要循环运行多次逐步生成。
[0029]进一步地,步骤2.2)中,蛋白质三维结构被表示为氨基酸图原子图其中,是节点集合,v
i
表示节点i的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于蛋白质结构的可控属性全新活性小分子设计方法,其特征在于,包括以下步骤:1)构建小分子生成模型CProMG:所述小分子生成模型CProMG包括蛋白质嵌入模块、双视图编码器模块、小分子嵌入模块以及解码器模块,使用束搜索算法逐步生成完整的SMILES序列;所述蛋白质嵌入模块用于获得蛋白质的氨基酸图特征和原子图特征,包括氨基酸图嵌入单元以及原子图嵌入单元;所述双视图编码器模块用于融合蛋白质的氨基酸图特征和原子图特征,获得融合的蛋白质特征,包括多头注意力网络、前馈神经网络和信息交叉融合单元;所述小分子嵌入模块用于获得小分子初始特征,包括小分子SMILES和属性的嵌入单元、段编码单元和位置编码单元;所述解码器模块用于生成小分子序列,包括mask多头注意力网络、交互多头注意力网络和前馈神经网络;2)获取样本数据,对步骤1)构建的小分子生成模型CProMG进行训练,获得训练好的小分子生成模型;具体训练过程如下:2.1)采集样本数据,构建训练数据集和测试数据集所述样本数据为结合姿势均方根偏差小于的蛋白质

小分子对,其包括蛋白质的三维结构信息以及小分子的SMILES序列信息;2.2)获得蛋白质特征以及小分子初始特征蛋白质特征通过以下方式获得:A1.对步骤2.1)中蛋白质的三维结构进行表征,使用K

近邻算法构建蛋白质氨基酸图和蛋白质原子图通过one

hot编码节点信息,再加上拉普拉斯位置编码得到节点的初始特征,利用高斯核函数将边长转换为边特征;A2.利用双视图编码器模块对A1获得的蛋白质氨基酸图和蛋白质原子图的初始特征进行融合训练,获得蛋白质特征;双视图编码器模块包含并行的氨基酸视图编码器En
r
和原子视图编码器En
a
,每一个编码器分别包含t个编码层,每个编码层都首先使用边特征来增强每个节点的信息,然后利用多头注意力机制计算每个节点与其邻接节点的注意力分数,并将其作为权重来聚合邻接节点,更新节点信息,最后传入前馈神经网络;信息交叉融合单元将两个视图的信息融合;最后将En
r
和En
a
的输出拼接,得到最终的蛋白质特征表示;小分子初始特征通过以下方式获得:对步骤2.1)中的小分子SMILES序列信息进行表征,使用RDKit获得小分子的理化性质,并且将其拼接在小分子SMILES序列的前面作为生成条件,通过one

hot编码整个序列获得小分子初始特征;2.3)利用解码器模块对步骤2.2)得到的小分子初始特征进行训练,解码器与原Transformer的解码器相似,包含t个解码层,每个解码层都首先经过mask多头注意力网络学习分子自身特征,然后利用交互多头注意力网络计算分子token与步骤2.2)得到的蛋白质特征的接近度来更新分子特征,最后传入前馈神经网络,预测完整的分子输出;2.4)使用步骤2.3)预测得到的分子,利用交叉熵损失函数对模型损失进行计算,并根
据损失通过负反馈调节模型参数,训练完成之后得到小分子生成模型CProMG;3)利用步骤2)训练好的CProMG模型结合束搜索算法逐步生成完整的小分子SMILES序列。2.根据权利要求1所述基于蛋白质结构的可控属性全新活性小分子设计方法,其特征在于:步骤2.2)中,蛋白质三维结构被表示为氨基酸图原子图其中,是节点集合,v
i
表示节点i的特征,表示节点的三维坐标,ε={e
ij
,i,j=1,2,...,n&i≠j}表示边特征;对于氨基酸图,节点特征v
i
为第i个残基的残基类型的one

hot编码;基于氨基酸的三维坐标,使用K

近邻算法,构建蛋白质氨基酸图;使用多个高斯核函数将边长表示为一个n维向量作为边特征ε;对于原子图,节点特征v
i
为包括原子类型、所属氨基酸、是否是骨架这些信息的one

hot编码;基于原子的三维坐标,使用K

近邻算法,构建蛋白质原子图;使用多个高斯核函数将边长表示为一个n维向量作为边特征ε。3.根据权利要求1所述基于蛋白质结构的可控属性全新活性小分子设计方法,其特征在于,所述步骤2.2)中使用拉普拉斯特征向量作为CProMG中的位置编码,其中,通过图的拉普拉斯矩阵的因式分解定义特征向量,公式如下:其中,是单位矩阵,n
×
n对角矩阵D为图的度矩阵,A表示的邻接矩阵;包含一组特征向量其对应于一组特征值{λ
k
};将位置编码与蛋白质图节点的嵌入特征相加,得到具有全局空间特征的蛋白质图节点初始特征:其中,和是权重矩阵。4.根据权利要求1所述基于蛋白质结构的可控属性全新活性小分子设计方法,其特征在于,所述步骤2.2)中双视图编码...

【专利技术属性】
技术研发人员:施建宇李嘉宁杨光赵鹏程韦学鑫
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1