药物分子筛选方法及系统技术方案

技术编号:26691860 阅读:19 留言:0更新日期:2020-12-12 02:44
一种药物分子筛选方法及系统,包括:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及药物理化性质;构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子;上述药物分子筛选方法及系统将化合物分子的药物理化性质数据也利用起来,药物理化性质与该化合物是否最终能够成药有着较大相关性,提高其成药性。

【技术实现步骤摘要】
药物分子筛选方法及系统
本专利技术涉及筛选方法,特别涉及一种药物分子筛选方法及系统。
技术介绍
在药物研发领域,传统的方法是计算机模拟筛选再合成药物,随着AI医药的快速发展,人们开始尝试将各种AI算法模型应用在医药研发领域,以解决新药研发流程周期长的问题,目前很多疾病的靶点信息是未知的,导致从众多化合物库中寻找有效的药物分子的难度和成本都是极高的,而AI快速的计算能力和创新性的理论基础给药物分子的筛选过程带来了新的研究方式。譬如对抗生成网络,卷积神经网络,循环神经网络,强化学习等在药物分子生成上的尝试应用,这些AI模型可以快速从大批量的化学库分子中找到与目标分子相似的药物分子,从而极大的减少分子的搜索空间,同时生成一定程度上有效的药物分子用于后续的药物筛选和实验过程。目前利用AI模型生成药物分子的技术中,研究学者应用最多的方法基于自编码器的模型,譬如VAE和AAE模型等,这种基于对抗网络思想的模型能够探索出与现有药物分子相似的潜在药物分子,其缺陷在于生成的药物分子的有效性和准确度确并不高,同时存在所生成的潜在药物分子与训练集分子存在同一化问题,多样性被削弱。这就使得生成的可能药物分子在现有领域上突破性不大,或者因为其药物性质的有效性低从而在成药性上难以进入到真正的药物试验阶段。此外,现有AI模型中较少考虑到药物分子性质,模型的输入层数据较为单一,降低了模型所生成药物分子的有效性。
技术实现思路
基于此,有必要提供一种可提高成药性的药物分子筛选方法。同时,提供一种可优化生成可提高成药性的药物分子筛选系统。一种药物分子筛选方法,包括:预处理:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及相关的药物理化性质,形成结构数据并存入数据库;构建训练模型:构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;生成潜在药物分子:根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子。在优选的实施例中,所述编码向量为SMILES式编码向量,所述预处理包括:统计出SMILES式中所有字符,将SMILES式中每个字符都转换为one-hot向量,将每个药物分子的SMILES式数据处理为设定维度的编码向量。在优选的实施例中,所述计算药物分子的药物理化性质包括:计算分子质量、计算脂水分配系数、计算分子H键供体数、计算分子H键受体数、计算分子拓扑极性表面积中的一种或多种。在优选的实施例中,将计算分子质量、计算脂水分配系数、计算分子拓扑极性表面积三个指标的数据进行归一化处理,将数据统一映射到-1.0-1.0范围内,将每个药物分子的5个药物理化性质形成5维向量。在优选的实施例中,将SMILES式数据和药物理化性质数据共同组成药物分子总数据集并按照4:1的比例将总数据集随机划分为训练数据集和测试数据集,将每个SMILES式数据处理为一个120维编码向量,和5个代表不同药物理化性质的向量拼接组合形成一个125维向量数据,并作为模型的输入层。在优选的实施例中,所述AI模型结构包括:输入层、编码层、隐层、解码层、输出层,所述编码层输入输入层输出数据,输出到隐层,所述编码层为RNN网络结构,包含3层循环神经网络层,采用LSTM单元,每一层设置512个隐藏节点,所述解码层输入隐层的输出数据,输出到输出层,所述解码层为RNN网络结构,包含3层循环神经网络层,采用LSTM单元,每一层设置512个隐藏节点,在解码层后还存在softmax层,其代价函数采用交叉熵函数其中,K为种类数量,y是标签,p是网络的输出,指类别是i的概率;通过softmax层,估计出SMILES式编码向量中每一位具体某个字符类别的概率分布,最终通过数据预处理中one-hot值与具体编码字符直接的对应关系,重构出输出样本,输出SMILES式。在优选的实施例中,所述输入层经过编码层生成隐层形成编码器,隐层经过解码层生成输出层形成解码器,所述编码器将高维输入转化为低位的隐向量,所述损失函数该损失函数包括两部分,第一部分表示使用概率分布P(X’|z,c)下P(X)的对数似然,表征编码层的输出与输入训练样本X的距离;第二部分为KL散度,表示Q(z|X,c)与其参考概率分布N(0,1)之间的距离。在优选的实施例中,根据模型结构,基于tensorflow进行模型的构建与训练,训练过程中使用训练数据集进行模型训练,同时使用测试数据集计算测试集误差即损失函数,防止模型过拟合,在一定的训练轮次epoch之后,对比训练数据集误差和测试数据集误差,当测试数据集误差基本不变,训练数据集误差下降变化减弱,模型的编码层和解码层参数被优化到最佳数值,停止训练并保存模型。一种药物分子筛选系统,包括:预处理模块:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及相关的药物理化性质,形成结构数据并存入数据库;构建训练模型模块:构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数,使得模型训练更好;生成潜在药物分子模块:根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子。在优选的实施例中,所述计算药物分子的药物理化性质包括:计算分子质量、计算脂水分配系数、计算分子H键供体数、计算分子H键受体数、计算分子拓扑极性表面积中的一种或多种。上述药物分子筛选方法及系统通过将化合物分子的药物理化性质数据也利用起来,因为化合物分子的药物理化性质与该化合物是否最终能够成药有着较大相关性,一般理化性质差的或者不符合范围要求的化合物在成药性上概率也极低,因此将分子的药物理化性质纳入到模型输入层数据的考虑范围,并控制最终通过模型训练后得到的分子的理化性质在合理范围内,提高其成药性,这样就可以有效提高模型所产生的药物分子的有效性和准确性,通过调控具体的药物理化性质指标数值范围,也可以使得产生的分子更具有多样性。另将SMILES式编码向量和分子药物理化性质组合作为模型的输入层,其中分子的药物理化性质是期待模型所生成药物分子在上述性质指标中能表现出较好的性质,将所挑选的药物理化性质数据抽象作为输入层的条件向量,在编码层和解码层均会被直接引入计算中。输入层数据通过编码器后转换为隐层编码向量,再经过解码层后生成可能的药物分子结构。其中编码层和解码层采用LSTM的循环神经网络结构,在模型训练的过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数,使得模型训练更本文档来自技高网...

【技术保护点】
1.一种药物分子筛选方法,其特征在于,包括:/n预处理:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及相关的药物理化性质,形成结构数据并存入数据库;/n构建训练模型:构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;/n生成潜在药物分子:根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子。/n

【技术特征摘要】
1.一种药物分子筛选方法,其特征在于,包括:
预处理:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及相关的药物理化性质,形成结构数据并存入数据库;
构建训练模型:构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;
生成潜在药物分子:根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子。


2.根据权利要求1所述的药物分子筛选方法,其特征在于,所述编码向量为SMILES式编码向量,所述预处理包括:统计出SMILES式中所有字符,将SMILES式中每个字符都转换为one-hot向量,将每个药物分子的SMILES式数据处理为设定维度的编码向量。


3.根据权利要求1所述的药物分子筛选方法,其特征在于,所述计算药物分子的药物理化性质包括:计算分子质量、计算脂水分配系数、计算分子H键供体数、计算分子H键受体数、计算分子拓扑极性表面积中的一种或多种。


4.根据权利要求3所述的药物分子筛选方法,其特征在于,将计算分子质量、计算脂水分配系数、计算分子拓扑极性表面积三个指标的数据进行归一化处理,将数据统一映射到-1.0-1.0范围内,将每个药物分子的5个药物理化性质形成5维向量。


5.根据权利要求2所述的药物分子筛选方法,其特征在于,将SMILES式数据和药物理化性质数据共同组成药物分子总数据集并按照4:1的比例将总数据集随机划分为训练数据集和测试数据集,将每个SMILES式数据处理为一个120维编码向量,和5个代表不同药物理化性质的向量拼接组合形成一个125维向量数据,并作为模型的输入层。


6.根据权利要求1至5任意一项所述的药物分子筛选方法,其特征在于,所述AI模型结构包括:输入层、编码层、隐层、解码层、输出层,所述编码层输入输入层输出数据,输出到隐层,所述编码层为RNN网络结构,包含3层循环神经网络层,采用LSTM单元,每一层设置512个隐藏节点,所述解码层输入隐层的输出数据,输出到输出层,所述解码层为RNN网络结构,包含3层循环神经网络层,采用LSTM单...

【专利技术属性】
技术研发人员:汪念吴楚楠徐旻温书豪马健赖力鹏
申请(专利权)人:深圳晶泰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1