本申请针对现有化学反应路径预测技术中存在的设计效率慢、预测精度低等问题,提出一种基于机器学习的化学通路分析预测方法。通过四层架构:数据支撑层、数据计算层、规则网络层和路径预测层,实现对未知反应路径的快速、高精度预测。本申请基于图表征的方式构建大规模底层化学数据库,能够很好的体现化学反应中分子的结构变化;通过图卷积神经网络模型和快速子图匹配检测技术,准确地提取出化学分子特征、反应模式等信息,有效提高了通路预测的精准度。本申请借助通路预测技术,实现从反应物到目标产物在反应规则网络的快速搜索,极大提高了生物反应路径的预测效率,降低了路径预测的成本。的成本。的成本。
【技术实现步骤摘要】
基于机器学习的化学通路分析预测方法及终端设备
[0001]本专利技术属于数据挖掘和机器学习
,尤其涉及一种对化学分子的未知反应路径智能化设计与预测方法及终端设备。
技术介绍
[0002]反应路径,指反应物在酶的催化下发生一系列化学反应生成相应产物的过程。通过生物反应路径预测能帮助人们合成一些需要的目标产物,为化学医疗领域的创新研究提供有效的牵引。
[0003]现有的路径预测技术借助于大量化学实验和研究经验推算,使用的传统化学数据库无法表征出化学分子在参与反应的过程中自身结构的变化关系,在此数据库的基础上进行的路径预测研究存在分析挖掘速度慢、路径预测误差大等问题,而且容易受实验设备、实验环境等诸多因素的限制,极大制约了生物反应的设计效率和预测精度。
技术实现思路
[0004]为了解决上述传统路径预测技术中存在的问题,本专利技术提出了一种基于机器学习的化学通路分析预测方法及终端设备,可以实现对未知反应路径的快速、高精度预测。如图3所示,整体分为:
[0005](1)数据支撑层,以图表征的方式构建化学数据库,为数据计算提供底层数据支撑;
[0006](2)数据计算层,结合反应方程数据和化学分子自身结构,通过快速子图匹配检测技术,进行反应模式挖掘和反应规则提取工作;
[0007](3)规则网络层,借助计算所得反应规则构建出完整的反应规则网络;
[0008](4)路径预测层,使用通路预测技术,实现对未知反应路径的快速预测。
[0009]本专利技术的实施流程参见图4,其实施步骤如下:
[0010](1)基于SMILES(Simplified molecular input line entry specifjcation,简化分子线性输入规范)分子结构和化学反应方程数据,使用图表征的方法构建出一个本地化的化学通路数据库;
[0011](2)将化学分子属性图输入到图卷积神经网络中,将图由拓扑结构转换为一个d维向量,并通过PCA(Principal Component Analysis,主成分分析)实现对整个化学物质结构的特征向量的提取和聚合;
[0012](3)在化学反应中分离出反应物集合和生成物集合,将反应物集合与生成物集合中的化合物两两配对形成化合物反应对;
[0013](4)针对每一个反应对,利用子图匹配技术找到两个化合物在反应过程中保持不变的子结构,从而进一步抽象出该反应对所对应的具体的反应模式;
[0014](5)将反应模式、反应物到生成物所添加和删除的子图等信息,经阈值判定后作为反应规则存储,并构建出反应规则网络图;
[0015](6)利用子图匹配技术,将反应物A、目标产物B逐一与数据库中的反应规则进行匹配,得到反应物A、目标产物B相关的规则集合;
[0016](7)借助通路预测技术,对反应规则网络图进行路径分析搜索,得到反应物A相关集合到目标产物B相关集合的可能通路,同时给出每条通路的概率值作为该反应通路可行性的分析结果。
[0017]本专利技术具有以下优点:
[0018](1)基于图表征的方式构建大规模底层化学数据库,能够很好的体现化学反应中化学分子的结构变化;
[0019](2)通过本专利技术中的图卷积神经网络模型和快速子图匹配检测技术,准确地提取出化学分子特征、反应模式等信息,有效提高通路预测的精准度;
[0020](3)借助通路预测技术实现从反应物到目标产物在反应规则网络的快速搜索,极大提高生物反应路径的预测效率,降低预测成本。
附图说明
[0021]图1是对所有类型的化学反应图表征方法的示意图;
[0022]图2是对化学分子进行分析计算的图卷积神经网络模型示意图;
[0023]图3是实现本专利技术提出的路预测方法的总体架构示意图;
[0024]图4是本专利技术提出的通路预测方法的实现流程示意图;
[0025]图5是本申请实施例中所述的终端设备的结构示意图。
具体实施方式
[0026]下面结合附图和实施例对本专利技术作进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。
[0027]本实施例基于一个运行Linux操作系统的终端设备及其相应的开发环境。
[0028](1)化学通路数据库的构建方法,包括以下步骤:
[0029]1.首先获得所有化学分子的V2000格式的mol结构文件。在该格式中,分子结构的原子以及化学键将以一种统一的方式进行定义:针对分子结构中的原子来说,mol文件中将定义原子在整个分子结构绘制时的三维位置,原子类型等等信息。针对每一个化学键,mol文件将定义化学键连接的原子编号,化学键的键值以及化学键的空间结构类型等。
[0030]2.根据化学分子的mol文件,使用属性图表征化学分子结构。图中的点表征化学原子的种类,图的边表征原子之间的连接键。按照此表征方法,提取分子mol文件中的Vertex、Edge等有效结构信息,转换为属性图的形式保存在数据库中。
[0031]3.在通用化学反应中,根据反应物与生成物的类型可分为:异构化反应,简记为A
→
B;化合反应,简记为A+B
→
C;分解反应,简记为A
→
B+C;置换反应,简记为A+BC
→
B+AC;复分解反应,简记为AB+CD
→
AD+CB;复杂化学反应,可以逐步简化而视为上述反应类别的连续反应。化学反应数据的解析存储按照以下步骤进行:
[0032]1)对化学反应进行分解,分离出所有的反应物和生成物形成集合;
[0033]2)对于反应中的每一种化学分子,我们通过其名称与化学分子数据集进行比对。
当无法对应时,则认为该化学分子是反应中无关紧要的附带物(例如H2O,H+等等),可以忽略;
[0034]3)在反应输入端和输出端各设置一个虚拟节点,从而完成对反应方程的表征,参见图1,并以有向图的形式保存在数据库中。
[0035](2)将分子属性图G和一个表示该分子特性的向量W,输入到一个图卷积神经网络中,参见图2,通过多个组合层(卷积层、池化层、激活层)的计算实现对图的嵌入,最终实现对化学物质分析结果的输出和预测。图卷积神经网络的工作方式如下:
[0036]1.为分子属性图G的每个节点关联一个初始维度的特征向量,该向量将分子局部子图的编码成向量形式,并为每个局部子图分配一个随机单位范数矢量;
[0037]2.模型每一层通过对所有相邻向量上的平均值替换每个向量,来实现更新所有节点嵌入向量;
[0038]3.利用经过训练的模型参数对其进行线性变换,将结果每个坐标传递给ReLU激活函数;
[0039]4.在由另一个超参数给出若干层后,对所有最终节点的嵌入向量进行平均值计算,得到一个d维的图嵌入向量;
[0040]5本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种化学分子结构的图表征方法,其特征在于,每个化学分子表征为一个无向图,使用图的节点表征一个个化学原子,使用图的无向边表征原子之间的连接。2.一种化学反应的图表征方法,其特征在于,使用有向图表征每个化学反应,图的节点表征一个化学分子,使用图的有向边表征化学分子参与反应的方向,并在反应输入端和输出端各设置一个虚拟节点,以完成对所有类型的化学反应的图表征。3.一种化学通路数据库的构建方法,其特征在于,按照权利要求1所述的分子结构图表征方法保存化学分子,按照权利要求2所述的化学反应通路图表征方法保存化学反应。4.一种针对化学分子的分析计算方法,其特征在于,使用图卷积神经网络模型开展分析计算工作,包括以下步骤:步骤1)首先针对化学物质的SMILES分子结构构建其对应的属性图;步骤2)将属性图输入到一个图卷积神经网络中,通过多个组合层(卷积层、池化层、激活层)的计算实现对图的嵌入,即完成将图由拓扑结构转换为一个d维向量的工作;步骤3)将SMILES结构中有关化学物质的其他特征向量与图神经网络嵌入后的d维向量相结合输入到特征聚合层,通过PCA实现对整个化学分子结构的特征向量的提取和聚合;步骤4)通过一个Softmax层实现对化学分...
【专利技术属性】
技术研发人员:张毅,周龙飞,吴振东,
申请(专利权)人:中芯未来北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。