一种基于深度学习的化学分子相关水溶性预测方法技术

技术编号:32454460 阅读:16 留言:0更新日期:2022-02-26 08:29
本发明专利技术公开了一种基于深度学习的化学分子相关水溶性预测方法。该方法包括:构建深度学习模型,其中所述深度学习模型基于双向时间序列预测模型和注意力机制构建,用于学习化学分子结构序列与水溶性属性之间的对应关系;以设定的损失函数最小化为目标训练所述深度学习模型,训练过程以表征化学分子结构的字符序列编码作为输入,以化学分子相关水溶性属性信息作为输出。利用本发明专利技术训练的深度学习模型,能够准确预测水溶性以及其他相关属性。能够准确预测水溶性以及其他相关属性。能够准确预测水溶性以及其他相关属性。

【技术实现步骤摘要】
一种基于深度学习的化学分子相关水溶性预测方法


[0001]本专利技术涉及分子水溶性分析
,更具体地,涉及一种基于深度学习的化学分子相关水溶性预测方法。

技术介绍

[0002]近年来,深度学习已成功应用于目标检测和图像分割,它为处理大量数据和在科学领域做出有用的预测提供了有用的工具。然而,将深度学习相关框架应用在分子属性预测上仍然是一个具有挑战性的研究问题。由于新实验技术的出现以及可用化合物活性和生物医学数据的显着增加,深度学习在药物发现中的应用也得到了进一步推动,例如包括制药公司药物设计过程中分子相互作用的预测,药物

靶标相互作用预测的探索,化学合成和逆合成途径的探索,以及化学性质的预测等。
[0003]可以预见的是,深度学习将在未来更多地参与药物发现领域。在药物发现的历史上,水溶性预测这一重要的物理化学分子性质多年来一直受到深入研究。化学信息的各种表示和深度学习架构模型也已应用于溶解度预测问题。根据表示方法的选择取决于不同的模型,最常用的组合包括分子指纹和全连接神经网络、SMILES表征和循环神经网络、分子图和图神经网络等。在现有的水溶性预测模型架构中,训练数据集的大小范围从100到10000不等。由于使用的数据集不同,报告的性能差异很大,并且存在许多挑战,例如数据集噪声、分子的复杂空间结构等。
[0004]综上,搭建一个稳定且健壮的深度学习模型,使得在分子水溶性预测上实现较好的效果,以节省药物研发的时间和经济成本仍然是一个非常值得研究的问题。

技术实现思路

>[0005]本专利技术的目的是克服上述现有技术的缺陷,提供一种基于深度学习的化学分子相关水溶性预测方法。
[0006]根据本专利技术的第一方面,提供一种基于深度学习的化学分子相关水溶性预测方法。该方法包括以下步骤:
[0007]构建深度学习模型,其中所述深度学习模型基于双向时间序列预测模型和注意力机制构建,用于学习化学分子结构序列与水溶性属性之间的对应关系;
[0008]以设定的损失函数最小化为目标训练所述深度学习模型,训练过程以表征化学分子结构的字符序列编码作为输入,以化学分子相关水溶性属性信息作为输出。
[0009]根据本专利技术的第二方面,提供一种化学分子相关水溶性预测方法。该方法包括以下步骤:
[0010]获取表征待测化学分子结构的字符序列编码;
[0011]将所述字符序列编码输入到根据本专利技术上述第一方面获得的经训练深度学习模型,获得该化学分子相关水溶性属性信息。
[0012]与现有技术相比,本专利技术的优点在于,提供一种基于数据驱动的端到端的深度学
习模型(BCSA),并将其应用到分子水溶性的预测过程中。本专利技术提供的模型简单且不依赖于额外的辅助知识,也可用于预测其他物理化学和ADMET特性。
[0013]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0014]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0015]图1是根据本专利技术一个实施例的端到端深度学习模型的架构示意图;
[0016]图2是根据本专利技术一个实施例的验证集和测试集的训练过程中R2的变化示意图;
[0017]图3是根据本专利技术一个实施例的四种不同模型的预测效果散点图;
[0018]图4是根据本专利技术一个实施例的测试集上的预测结果散点图。
具体实施方式
[0019]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0020]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0021]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0022]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0023]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0024]简言之,本专利技术提供的基于深度学习的化学分子相关水溶性预测方法整体上包括深度学习模型的预训练过程和实际预测过程。预训练过程包括以下步骤:构建深度学习模型,所述深度学习模型基于双向时间序列预测模型和注意力机制构建,用于学习化学分子结构序列与水溶性属性之间的对应关系;以设定的损失函数最小化为目标训练所述深度学习模型,训练过程以表征化学分子结构的字符序列编码作为输入,以化学分子相关水溶性属性信息作为输出。其中双向时间序列预测模型可采用双向长短期记忆网络(BILSTM)或双向门控循环单元(BIGRU)等。表征化学分子结构的字符序列可采用SMILES格式或其他格式的字符序列,SMILES是用ASCII字符串明确描述分子结构的规范。为清楚起见,下文以BILSTM模型和SMILES为例进行说明。
[0025]在本专利技术中,利用SMILES{Weininger,1988#86}分子表征在BILSTM和channel attention(通道注意力)和spatial attention(空间注意力)工作的基础上构建了一个BCSA模型架构,并且针对SMILES分子表征的不唯一性,又利用SMIELS增强技术对数据进行扩增,以获得更多有效的标记数据集作为该模型的输入,利用每个扩增分子的平均值作为最终预测结果使得模型具有更强大的泛化能力。然后,又针对同一数据集利用不同的常用
的图神经网络模型与本专利技术进行比较研究,探索不同的分子表征下本专利技术所提供模型的性能优势。
[0026]在下文中,将具体描述数据预处理过程、模型架构以及评估结果。
[0027]一、分子数据集的表示和预处理
[0028]在一个实施例中,使用的数据集源自Cui{Cui,2020#69}等人2020的工作,包含9943种非冗余化合物。分子以SMILES(Simplified Molecular

Input Line

Entry System)的格式呈现。这种符号格式的特点是单行文本和一系列原子和共价键。从形式语言理论的角度来看,将原子和共价键都视为符号标记,而SMILES字符串只是一个符号序列。这种表示已被用于预测生化特性,为了编码SMILES,本专利技术使用{Schwaller,2018#64}中的正则表达式来标记它们,并且标记用空格分隔。处理结果例如:“c1 c(C)c ccc 1”。接下来,采用类似于word2vec的方法来进行嵌入输入。此外,数据集通过SMILES枚举增强扩展数据集,并且SMILES字符串用“填充”填充到150个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的化学分子相关水溶性预测方法,包括以下步骤:构建深度学习模型,其中所述深度学习模型基于双向时间序列预测模型和注意力机制构建,用于学习化学分子结构序列与水溶性属性之间的对应关系;以设定的损失函数最小化为目标训练所述深度学习模型,训练过程以表征化学分子结构的字符序列编码作为输入,以化学分子相关水溶性属性信息作为输出。2.根据权利要求1所述的方法,其特征在于,所述深度学习模型是双向长短期记忆网络,并且在向前传播中嵌入通道注意力模块和空间注意力模块,分别用于获取不同通道和空间轴上的信息。3.根据权利要求2所述的方法,其特征在于,表征化学分子结构的字符序列编码是SMILES序列编码,对于所述双向长短期记忆网络,利用SMILES序列编码作为输入,标记为每个时间步t输出向前的隐藏层状态和向后的隐藏层状态所述双向长短期记忆网络在t时刻隐藏层的输出是两个状态的连接,表示为所述双向长短期记忆网络的处理过程表示为:C=f(W
e
x
i
,h
t
‑1)其中f表示一个多层的双向长短期记忆网络,W
e
是嵌入向量的学习权重。4.根据权利要求3所述的方法,其特征在于,所述通道注意力模块用于表征SMILES字符内容,执行以下步骤:通过平均池化操作和最大池化操作聚合所述双向长短期记忆网络输出矩阵的空间信息,获得两个不同的空间上下文描述符C
avg
和C
max
;将两个描述符C
avg
和C
max
分别输入多层共享感知器,利用求和方式获得通道注意力的输出向量;其中C
avg
和C
max
分别表...

【专利技术属性】
技术研发人员:袁曙光侯园园王世玉陈显翀
申请(专利权)人:深圳阿尔法分子科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1