当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于图贝叶斯优化的分子发现方法技术

技术编号:23935915 阅读:47 留言:0更新日期:2020-04-25 03:09
本发明专利技术涉及一种基于图贝叶斯优化的分子发现方法。所述方法包括:获取候选分子集合;从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子‑性质对集合;根据所述分子‑性质对集合对代理模型进行训练,得到训练后的代理模型;根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,从所述候选集合中选择希望分子进行性质评估,得到希望分子性质;根据所述希望分子性质找到具有期望性质的分子。本发明专利技术基于图贝叶斯优化的分子发现方法通过对候选集中的分子进行预测,再根据预测结果选择分子进行评估得到分子的实际性质,有根据的选择分子进行评估,减少分子的评估次数,从而减小分析评估的代价。

A molecular discovery method based on Bayesian graph optimization

【技术实现步骤摘要】
一种基于图贝叶斯优化的分子发现方法
本专利技术涉及分子发现领域,特别是涉及一种基于图贝叶斯优化的分子发现方法。
技术介绍
分子发现一直是计算化学、材料设计等领域中的重要问题。其主要目的是从大量的分子空间中发现具有某一期望性质的分子。在进行分子发现过程中,具有如下特点:(1)分子空间通常十分巨大。例如:潜在的类药物分子个数约1023-1060。(2)分子空间是离散的。(3)评价一个分子的某项性质(如:类药物性质、有效性等)通常需要花费高昂代价。例如:应用密度泛函理论(Densityfunctionaltheory)估计分子性质,高精度的估计是在基于高昂的计算量得到的,或者通过临床试验来评价一个分子的有效性,这可能导致一些致命的危害。目前分子发现方法主要有进化算法、模拟退火、进化策略、混合方法等。然而这些方法需要大量的评估来维护种群多样性,是直接在评估代价高昂的空间搜索的,从而导致分子发现的代价较高。另一种最新的分子发现技术是首先把所有分子编码到向量空间中,然后在向量空间进行优化(如使用贝叶斯优化),最后通过把得到的向量解码回分子。然而这一做法即使在向量空间搜索时考虑代价,其在训练编码-解码工具(如变分自编码器)时,为保证编码-解码的准确性,仍然需要花费大量额外的预训练时间,最终还是无法降低分子发现的代价。
技术实现思路
本专利技术的目的是提供一种基于图贝叶斯优化的分子发现方法,降低分子发现的代价。为实现上述目的,本专利技术提供了如下方案:一种基于图贝叶斯优化的分子发现方法,所述方法包括:r>获取候选分子集合;所述候选分子集合包括若干个分子;从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子-性质对集合;根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型;所述代理模型用于对分子的性质进行预测;根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质;根据所述候选分子集合中的各分子的预测性质从所述候选集合中选择希望分子进行性质评估,得到希望分子性质;根据所述希望分子性质找到具有期望性质的分子。可选的,所述候选分子集合采用随机图生成方法、进化方法、深度图生成模型方法或人工给定方法生成。可选的,对随机选取的若干个分子进行性质评估的过程为并行评估。可选的,所述根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型具体包括:根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重;根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数;根据所述训练后的神经网络权重和所述训练后的贝叶斯线性回归中的超参数得到训练后的代理模型。可选的,所述根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重具体包括:将所述分子-性质对集合中的分子均以属性图表示,得到所述分子-性质对集合中各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;分别对各分子图均执行以下操作:将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;将所述全局表示进行映射得到第一特征;根据所述第一特征,采用单层线性回归方法得到分子图对应分子的性质;根据所述分子的性质通过最小化误差训练所述神经网络权重,得到所述训练后的神经网络权重。可选的,所述根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数具体包括:根据所述分子-性质对集合对,采用最大化边际似然方法估计贝叶斯线性回归中的超参数。可选的,所述根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质具体包括:将所述候选集合中的分子均以属性图表示,得到所述候选集合中的各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;分别对各分子图均执行以下操作:将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;将所述全局表示进行映射得到第二特征;根据所述第二特征,采用贝叶斯线性回归方法对分子图对应的分子的性质进行预测。可选的,根据各分子的预测性质从所述候选集合中选择希望分子为并行选择;对所述希望分子进行性质评估的过程为并行评估。可选的,所述根据所述希望分子性质找到具有期望性质的分子具体包括:根据所述希望分子性质判断是否找到期望的分子,得到判断结果;若所述判断结果为否,则将所述希望分子和所述希望分子性质添加到所述分子-性质对集合,更新所述分子-性质对集合,重新对代理模型进行训练;若所述判断结果为是,则将所述希望分子性质对应的分子作为结果输出。可选的,根据所述训练后的代理模型指导生成候选集。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术基于图贝叶斯优化的分子发现方法通过对候选集中的分子进行预测,再根据预测结果选择分子进行评估得到分子的实际性质。即有根据的选择分子进行评估,减少分子的评估次数,从而减小分析评估的代价。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附本文档来自技高网...

【技术保护点】
1.一种基于图贝叶斯优化的分子发现方法,其特征在于,所述方法包括:/n获取候选分子集合;所述候选分子集合包括若干个分子;/n从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子-性质对集合;/n根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型;所述代理模型用于对分子的性质进行预测;/n根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质;/n根据所述候选分子集合中的各分子的预测性质从所述候选集合中选择希望分子进行性质评估,得到希望分子性质;/n根据所述希望分子性质找到具有期望性质的分子。/n

【技术特征摘要】
1.一种基于图贝叶斯优化的分子发现方法,其特征在于,所述方法包括:
获取候选分子集合;所述候选分子集合包括若干个分子;
从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子-性质对集合;
根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型;所述代理模型用于对分子的性质进行预测;
根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质;
根据所述候选分子集合中的各分子的预测性质从所述候选集合中选择希望分子进行性质评估,得到希望分子性质;
根据所述希望分子性质找到具有期望性质的分子。


2.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,
所述候选分子集合采用随机图生成方法、进化方法、深度图生成模型方法或人工给定方法生成。


3.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,对随机选取的若干个分子进行性质评估的过程为并行评估。


4.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,
所述根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型具体包括:
根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重;
根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数;
根据所述训练后的神经网络权重和所述训练后的贝叶斯线性回归中的超参数得到训练后的代理模型。


5.根据权利要求4所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,所述根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重具体包括:
将所述分子-性质对集合中的分子均以属性图表示,得到所述分子-性质对集合中各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;
分别对各分子图均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局...

【专利技术属性】
技术研发人员:杨博崔佳旭张春旭孙冰怡
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1