一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台技术

技术编号:32781919 阅读:24 留言:0更新日期:2022-03-23 19:40
本发明专利技术涉及一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台。该方法包括以下步骤:首先,从公开数据库和文献中搜集有机分子和离子液体对病菌的最低抑菌浓度,分别作为预训练和最终训练的数据集;采用有机分子的数据对单图输入模型进行预训练;通过迁移学习的方法将预训练模型参数移植到多图输入模型中;采用离子液体的数据对多图输入模型进行训练,得到离子液体抗菌性能预测模块;构建了离子液体的理论结构库;通过预测模块对理论结构库中的离子液体进行抗菌性预测,并最终筛选出具有优异抗菌性能的离子液体结构。本发明专利技术解决了数据量少及深度学习预测复杂的离子结构

【技术实现步骤摘要】
一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台


[0001]本专利技术涉及基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台,属于人工智能的生物医药应用领域,尤其针对计算新药发现方法。

技术介绍

[0002]离子液体(ILs)由于其独特的结构和物化性质,已被广泛用于溶剂、催化和医药等领域研究和应用。但离子液体数量巨大,无法合成所有可能的阳离子和阴离子。因此基于结构来预测ILs的物化和药学性质具有重大意义。目前,通过计算化学(分子动力学,量化等)方法预测ILs的性质取得了快速的发展。但是,这些方法的计算耗时巨大,无法满足工业需求。机器学习算法可以通过学习部分现有数据来预测ILs的性质,大幅降低耗时,效率更高,准确性可靠。目前相关研究基本采用分子描述符和随机森林、梯度提升机等传统机器学习算法来预测ILs的性质。这些方法虽然可以获得良好的预测结果,但是存在泛化性能弱、可扩展性差、无法实现端到端学习的缺点。而ILs作为新一代广谱抗生素的热门候选者,亟需高效准确的设计与开发。
[0003]随着深度学习的兴起和发展,科研人员可以构造更深层次,性能更好的学习模型,其能够更好的处理复杂问题并实现端到端学习。为了进一步处理复杂图数据,研究人员借鉴了深度学习在图像方面的思想来设计图神经网络的架构。化合物中的原子和化学键可以合理地被视为图数据中的节点和边。这使得分子的化学信息可以很好得以图数据的形式表达,为通过图神经网络预测分子性质奠定了基础。然而,神经网络一般需要大量数据的训练才能达到可观的精度。离子液体的抗菌性数据稀少,很难通过单次训练模型达到较高精度。迁移学习是指利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。该方法有望解决深度学习中面临的数据量缺少的问题并提高模型的预测可靠性。

技术实现思路

[0004]本专利技术所要解决的问题是:针对离子液体抗菌性数据量少及结构

药性关系复杂的难点,提供一种端到端学习且可扩展性好的深度学习预测方法和高通量筛选平台。
[0005]本专利技术所采用的技术方案如下:一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台,其特征在于包括如下步骤:(1)从公开数据库和文献中搜集有机分子和离子液体对病菌的最低抑菌浓度,经数据清洗后分别作为预训练和最终训练的数据集,每个数据集又分为训练集、验证集和测试集;(2)分别构建单个图输入和多个图输入的图神经网络;(3)采用预训练数据集对单图输入模型进行预训练;(4)通过迁移学习的方法将预训练模型参数移植到多图输入模型中;(5)采用离子液体的数据对多图输入模型进行训练,进行模型性能的验证,得到离子液体抗菌性能预测模块;(6)构建离子液体的理论结构库;(7)通过预测模块对理论结构库中的离子液体进行抗菌性预测,并最终
筛选出具有优异抗菌性能的离子液体结构。
[0006]优选地,所述步骤(1)中数据集的建立包括:对应的有机分子和离子液体数据集是针对同一病菌的最低抑菌浓度数据;设置区分活性的阈值为16μg/mL;化合物用化学分子规范表达式SMILES描述,由SMILES生成化合物的原子特征(节点属性)和化学键特征(边属性),从而形成模型输入所需的图数据;其中,原子特征包括元素类型、形式电荷、自由度、手性、键连氢原子数、杂化方式、芳香性、是否环内原子和原子质量,化学键特征包括键级、是否共轭、是否环内和立体异构性;基于化合物的亚结构(scaffold)将数据集切分为训练集、验证集和测试集。
[0007]优选地,所述步骤(2)中,单个图或多个图输入的图神经网络都采用消息传递机制,包括传递模块和读出模块,其中传递模块对每个节点或者有向边的特征进行多次邻域聚合和更新迭代,该模块由卷积层、门控循环单元和非线性变换构成;其中读出模块由Set2Set池化层、多层神经网络和Sigmoid激活函数构成。
[0008]所述的单图输入网络以每个有机分子SMILES生成的图数据为输入,多图输入网络以离子液体、离子液体的阳离子和阴离子的SMILES生成的3个图数据为输入。
[0009]优选地,所述步骤(3)和(5)中,模型训练采用ADAM优化器,二元交叉熵损失函数和线性学习率衰减方案。
[0010]所述步骤(6)中离子液体理论结构库的构建步骤为:随机组合搜集的离子液体阳离子和阴离子的SMILES,由SMILES生成理论离子液体的原子坐标文件;采用PM7半经验分子轨道法优化上步中生成的离子液体结构,并剔除不稳定或不符合化学概念的结构;将合理的离子液体及其阴阳离子的SMILES、优化后的原子坐标和PM7计算生成的量化性质汇集并构建数据库。
[0011]与现有技术相比,本专利技术的优点是:
[0012](1)基于离子液体由阴离子和阳离子构成的特性,设计了多个图输入的图神经网络,从而可以更高效合理地提取离子液体的化学信息,实现更高的预测准确性。
[0013](2)采用迁移学习的方法,弥补了数据量少的情况下图神经网络不能可靠预测离子液体抗菌性的缺陷。
[0014](3)建立了庞大的离子液体理论结构库,可以实现离子液体的大规模筛选,大幅扩宽了离子液体型新药的设计范围。
[0015](4)与图的节点为中心相比,以有向边为中心的消息传递机制的图神经网络可以实现更高的预测精度。
附图说明
[0016]图1是本专利技术的流程示意图;
[0017]图2是本专利技术的图神经网络架构及迁移学习方法的示意图。
具体实施方式
[0018]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。凡采取等同替换或者等效变换而形成的技术方案,均落在本
专利技术要求保护的范围之内。
[0019]本专利技术揭示了一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台,如图1所示,该方法包括以下具体步骤:
[0020]1.数据集建立
[0021]1.1数据搜集与清洗:从公开数据库和文献中搜集有机分子和离子液体对金黄色葡萄球菌的最低抑菌浓度,经数据清洗后分别作为预训练和最终训练的数据集。其中,化合物用化学分子规范表达式SMILES描述,目标值为化合物对金黄色葡萄球菌的活性。设置区分活性的阈值为16μg/mL,最低抑菌浓度大于阈值定义为非活性(0),最低抑菌浓度小于阈值定义为活性(1)。
[0022]1.2图数据的生成:通过开源软件RDKit由SMILES生成化合物的原子特征(节点属性)和化学键特征(边属性),从而形成模型输入所需的图数据;其中,原子特征包括元素类型、形式电荷、自由度、手性、键连氢原子数、杂化方式、芳香性、是否环内原子和原子质量,化学键特征包括键级、是否共轭、是否环内和立体异构性。
[0023]1.3数据集的切分:基于化合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台,其特征在于,包括如下步骤:(1)从公开数据库和文献中搜集有机分子和离子液体对病菌的最低抑菌浓度,经数据清洗后分别作为预训练和最终训练的数据集,每个数据集又分为训练集、验证集和测试集;(2)分别构建单个图输入和多个图输入的图神经网络;(3)采用预训练数据集对单图输入模型进行预训练;(4)通过迁移学习的方法将预训练模型参数移植到多图输入模型中;(5)采用离子液体的数据对多图输入模型进行训练,进行模型性能的验证,得到离子液体抗菌性能预测模块;(6)构建离子液体的理论结构库;(7)通过预测模块对理论结构库中的离子液体进行抗菌性预测,并最终筛选出具有优异抗菌性能的离子液体结构。2.根据权利要求1所述的方法,其特征在于,步骤(1)包括:(1.1)对应的有机分子和离子液体数据集是针对同一病菌的最低抑菌浓度数据;(1.2)设置区分活性的阈值为16μg/mL,最低抑菌浓度大于阈值定义为非活性,最低抑菌浓度小于阈值定义为活性,模型预测任务为二分类问题;(1.3)建立的数据集中化合物用化学分子规范表达式SMILES描述,由SMILES生成化合物的原子特征(节点属性)和化学键特征(边属性),从而形成模型输入所需的图数据;其中,原子特征包括元素类型、形式电荷、自由度、手性、键连氢原子数、杂化方式、芳香性、是否环内原子和原子...

【专利技术属性】
技术研发人员:董坤陈俊武李垚张锁江
申请(专利权)人:中国科学院过程工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1