System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于机器学习的生物合成路径预测方法及用户平台技术_技高网

基于机器学习的生物合成路径预测方法及用户平台技术

技术编号:40107473 阅读:13 留言:0更新日期:2024-01-23 18:39
本申请针对现有生物合成路径预测技术中存在的分析挖掘速度慢、路径预测误差大等问题,提出一种基于机器学习的生物合成路径预测方法。通过四层架构:数据支撑层、数据计算层、规则网络层和路径预测层,实现对未知反应路径的快速、高精度预测。本申请基于图表征的方式构建大规模底层化学数据库,能够很好的体现化学反应中分子的结构变化;通过图卷积神经网络模型和快速子图匹配检测技术,准确地提取出化学分子特征、反应模式等信息,有效提高了通路预测的精准度。本申请借助路径逆向挖掘技术,实现底物到目标产物合成路径在反应规则网络上的快速逆向构建,极大提高生物合成路径的预测效率,降低预测成本。

【技术实现步骤摘要】

本专利技术属于数据挖掘和机器学习,尤其涉及一种对生物合成路径的预测方法及用户平台。


技术介绍

1、生物合成路径,指反应物在一系列相关的催化酶连续作用下逐步进行生化反应生成相应产物的过程。近年来,得益于快速发展的数据驱动模型以及大型反应数据库,计算机在辅助生物合成方面取得了显著的进步。通过生物合成路径研究,能帮助人们合成一些需要的目标产物,为化学医疗领域的创新研究提供有效的牵引。

2、现有的生物合成路径预测技术借助于大量化学实验和研究经验推算,使用的传统化学数据库无法表征出化合物在参与反应的过程中自身结构的变化关系,在此数据库的基础上进行的路径预测研究存在分析挖掘速度慢、路径预测误差大等问题,而且容易受实验设备、实验环境等诸多因素的限制,极大制约了生物反应的设计效率和预测精度。


技术实现思路

1、为了解决上述传统生物合成路径预测技术中存在的问题,本专利技术提出了一种基于机器学习的生物合成路径预测方法及用户平台,可以实现对生物合成路径的快速、高精度预测,并为相关从业研究者提供用户使用平台。如图3所示,整体分为:

2、(1)数据支撑层,以图表征的方式构建化学数据库,为数据计算提供底层数据支撑;

3、(2)数据计算层,结合反应方程数据和化合物自身结构,通过快速子图匹配检测技术,进行反应模式挖掘和反应规则提取工作;

4、(3)规则网络层,借助计算所得反应规则,构建出完整的反应规则网络;

5、(4)路径预测层,借助路径逆向挖掘技术,通过预加载反应规则网络等大规模数据,结合生物合成路径预测方法,实现对生物合成路径的快速预测。

6、本专利技术的实施流程参见图4和图5,其实施步骤如下:

7、s1、基于smiles分子结构和化学反应方程数据,使用图表征的方法构建出一个本地化的化学通路数据库;

8、s2、将化合物属性图输入到图卷积神经网络中,将图由拓扑结构转换为一个d维向量,并通过pca实现对整个化学物质结构的特征向量的提取和聚合;

9、s3、在化学反应中分离出反应物集合和生成物集合,将反应物集合与生成物集合中的化合物两两配对形成化合物反应对;

10、s4、针对每一个反应对,利用子图匹配技术找到两个化合物在反应过程中保持不变的子结构,从而进一步抽象出该反应对所对应的具体的反应模式;

11、s5、将反应模式、反应物到生成物所添加和删除的子图等信息,经阈值判定后作为反应规则存储,并构建出反应规则网络图;

12、s6、利用子图匹配技术,将目标产物逐一与数据库中的反应规则进行匹配,得到目标产物相关的规则集合;

13、s7、借助路径逆向挖掘技术,根据规定的底物和预测选项作为路径逆向挖掘的终止条件,逐步挖掘出从底物a到目标产物b的可能路径集合;

14、s8、借助反应规则网络对路径进行可行性排序,得到满足条件的前k条合成路径,同时给出每条路径的概率值作为该合成路径可行性的分析结果。

本文档来自技高网...

【技术保护点】

1.一种基于机器学习的生物合成路径预测方法,其特征在于,用图表征的方法构建化学通路数据库,具体包括使用化合物分子结构图表征方法保存化合物,使用化学反应通路图表征方法保存化学反应。

2.根据权利要求1所述的基于机器学习的生物合成路径预测方法,其特征在于,所述化合物分子结构的图表征方法,将每个化合物表征为一个无向图,使用图的节点表征一个个原子或官能团,使用图的无向边表征原子或官能团之间的连接。

3.根据权利要求1所述的基于机器学习的生物合成路径预测方法,其特征在于,所述化学反应的图表征方法,使用有向图表征每个化学反应,图的节点表征一个化合物,使用图的有向边表征化合物参与反应的方向,并在反应输入端和输出端各设置一个虚拟节点,以完成对所有类型的化学反应的图表征,如图1所示。

4.一种基于机器学习的生物合成路径预测方法,其特征在于,使用图2所示图卷积神经网络模型,针对化合物开展分析计算,包括以下步骤:

5.一种基于机器学习的生物合成路径预测方法,其特征在于,通过规定底物、目标产物、预测选项三个参数,借助路径逆向挖掘技术,实现从底物到目标产物的合成途径预测。

6.根据权利要求5所述的基于机器学习的生物合成路径预测方法,其特征在于,所述路径逆向挖掘技术,借助快速子图匹配检测技术对规定目标产物进行分析,获取适用于该化合物的反应规则,借助反应规则网络,逆向获取该目标产物的前k条合成路径。

7.根据权利要求6所述的基于机器学习的生物合成路径预测方法,其特征在于,所述快速子图匹配检测技术,通过k-hop和基于区域遍历的子图同构算法,借助异构硬件实现快速子图匹配。

8.根据权利要求6所述的基于机器学习的生物合成路径预测方法,其特征在于,所述反应规则网络通过反应规则构建,网络中的每个节点都是一个反应规则,每条边表示两个规则间能够形成一条反应路径。

9.根据权利要求8所述的基于机器学习的生物合成路径预测方法,其特征在于,所述反应规则通过如下方式提取:给定反应R的数据库,对于每个反应R,我们识别其所有“反应物-产物”配对。从每个配对中,提取并存储以下信息:(1)反应模式;(2)反应物到产物所添加和删除的子图;(3)反应R中除该配对中的反应物之外的所有反应物。我们把从单个配对中提取的上述信息称为反应规则。

10.根据权利要求9所述的基于机器学习的生物合成路径预测方法,其特征在于,所述反应模式借助快速子图匹配检测技术挖掘提取,具体包含确定反应中心和挖掘反应特征两个过程。

11.一种用户平台,其特征在于,能够正确执行权利要求1到10中任一项步骤,用户通过平台输入底物、目标产物、预测选项,平台借助权利要求5所述的生物合成路径预测方法,为用户提供路径预测功能。

...

【技术特征摘要】

1.一种基于机器学习的生物合成路径预测方法,其特征在于,用图表征的方法构建化学通路数据库,具体包括使用化合物分子结构图表征方法保存化合物,使用化学反应通路图表征方法保存化学反应。

2.根据权利要求1所述的基于机器学习的生物合成路径预测方法,其特征在于,所述化合物分子结构的图表征方法,将每个化合物表征为一个无向图,使用图的节点表征一个个原子或官能团,使用图的无向边表征原子或官能团之间的连接。

3.根据权利要求1所述的基于机器学习的生物合成路径预测方法,其特征在于,所述化学反应的图表征方法,使用有向图表征每个化学反应,图的节点表征一个化合物,使用图的有向边表征化合物参与反应的方向,并在反应输入端和输出端各设置一个虚拟节点,以完成对所有类型的化学反应的图表征,如图1所示。

4.一种基于机器学习的生物合成路径预测方法,其特征在于,使用图2所示图卷积神经网络模型,针对化合物开展分析计算,包括以下步骤:

5.一种基于机器学习的生物合成路径预测方法,其特征在于,通过规定底物、目标产物、预测选项三个参数,借助路径逆向挖掘技术,实现从底物到目标产物的合成途径预测。

6.根据权利要求5所述的基于机器学习的生物合成路径预测方法,其特征在于,所述路径逆向挖掘技术,借助快速子图匹配检测技术对规定目标产物进行分析,获取适用于该化合物的反应规...

【专利技术属性】
技术研发人员:张毅周龙飞吴振东
申请(专利权)人:中芯未来北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1