System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度迁移学习的植物次生代谢途径预测方法技术_技高网

一种基于深度迁移学习的植物次生代谢途径预测方法技术

技术编号:43481470 阅读:15 留言:0更新日期:2024-11-29 16:54
本申请公开了一种基于深度迁移学习的植物次生代谢途径预测方法,基于深度学习和迁移学习,建立了植物次生代谢途径预测方法,实现对于已知结构信息的化合物所在植物次生代谢途径的预测。首先在信息更丰富的代谢途径数据集(源数据集)上进行深度学习模型预训练;然后通过迁移学习,在目标数据集上以预训练参数进行微调,构建植物次生代谢途径的预测模型;最后,将待预测化合物的简化分子线性输入规范字符串输入模型,获取其预测的植物次生代谢途径信息。本发明专利技术有效克服了目前植物次生代谢途径数据信息不足的问题,具有预测准确率高,模型训练效率高等优点。

【技术实现步骤摘要】

本申请涉及一种基于深度迁移学习的植物次生代谢途径预测方法,属于植物次生代谢途径预测。


技术介绍

1、植物次生代谢物是由次生代谢产生的中间体和产物,主要包括含氮有机物、萜类化合物和酚类化合物三大类。不同于初生代谢物,次生代谢物对生物体的生长和生存来说不是必需的。然而,植物次生代谢物不仅参与抗逆性和抗病性,也是许多草药的活性成分。对植物次生代谢的研究不仅可以指导培育出具有理想性状的优良作物,还有助于发现治疗人类疾病的新药。

2、代谢组学(nicholson,jk et al.,metabonomics:a platform for studyingdrug toxicity and gene function.nature reviews drug discovery 2002,1,153-161.)是研究次级代谢产物的产生和功能的有力工具。代谢组学的目标是分析生物系统中代谢物(分子量<1500da)的整体变化。基于代谢组学研究的差异代谢物分析可以有效地发现潜在的生物标志物。相关代谢途径的变化反映了生物学机制,对疾病诊断、药物研发和作物选育等具有指导意义。

3、然而,目前对植物次生代谢途径的了解有限,并且由于数据库信息存在过时和需要不断维护的问题,某些途径尚未包含在现有数据库中。因此,基于代谢组学数据的途径富集分析可能存在偏差,需要进一步研究以充分探索植物次生代谢途径的多样性。然而,进行生物实验来研究这些途径的成本较高。因此,开发新的方法和技术以增强我们对植物次生代谢及其潜在应用的理解至关重要。

4、基于传统机器学习算法与深度学习算法,已有文献报道了一些代谢途径的预测方法。

5、文献1(一种代谢途径预测方法、系统、终端设备及可读存储介质,申请号cn202011509783.8,申请日期2020-12-18)基于深度学习,开发了一种预测代谢物的代谢生成反应的方法。通过不断重复生成产物分子的底物分子,从而预测整个代谢途径。但是此方法得到的代谢途径偏向于反应流程,难以进行代谢途径富集分析。

6、文献2(cai y d,qian z,lu l,et al.prediction of compounds’biologicalfunction(metabolic pathways)based on functional group composition[j].molecular diversity,2008,12:131-137.)报道了一种基于传统机器学习中的最近邻算法,对京都基因与基因组百科全书数据库中的11个代谢途径类别进行预测。但是,此方法只能对所在一个代谢途径类别中的已知化合物进行预测,忽略了同一个化合物可以参与许多代谢途径的情况。

7、文献3(baranwal m,magner a,elvati p,et al.a deep learning architecturefor metabolic pathway prediction[j].bioinformatics,2020,36(8):2547-2553.)与文献4(du b x,zhao p c,zhu b,et al.mlgl-mp:a multi-label graph learningframework enhanced by pathway interdependence for metabolic pathwayprediction[j].

8、bioinformatics,2022,38(supplement_1):i325-i332.)构建了基于图变压器神经网络的代谢途径预测模型,可以实现多标签的预测任务。但是,和文献2相同,它们都是对京都基因与基因组百科全书数据库中的11个代谢途径类别进行预测,不够具体,难以对更细化的植物次生代谢途径的信息进行预测。

9、因此,目前的预测方法对于代谢途径的预测类别不够具体,不能预测植物次生代谢途径,不利于后续的植物代谢组学中的生物学功能阐释。为解决此问题,本专利技术收集了植物次生代谢物的结构信息与这些代谢物所在次生代谢的途径信息,基于深度学习与迁移学习方法,提供了一种植物次生代谢途径预测方法。


技术实现思路

1、根据本申请的一个方面,提供了一种基于深度迁移学习的植物次生代谢途径预测方法,能够有效克服目前植物次生代谢途径数据库信息不足的问题,具有预测可靠、准确率高,模型训练效率高等优点,可以实现植物次生代谢途径的有效预测。

2、为实现上述目的,本专利技术提供如下技术方案:一种基于深度迁移学习的植物次生代谢途径预测方法,包括如下步骤:

3、s1:构建源数据集,即代谢途径数据集,用于对模型进行预训练;

4、构建目标数据集,即植物次生代谢途径数据集,用于对训练后的模型进行微调;

5、s2:构建深度学习预训练模型并使用所述源数据集进行训练,用于代谢途径预测;

6、使用交叉验证,选取准确率最高的深度学习模型参数,作为迁移学习的初始参数;

7、s3:构建深度迁移学习模型,用于代谢途径预测;

8、使用所述目标数据集微调所述深度学习预训练模型得到预测模型;

9、使用交叉验证,选取准确率最高的深度迁移学习模型参数,作为最终预测模型参数;

10、s4:获取待预测化合物的smiles字符串,输入所述最终预测模型,获得预测的植物次生代谢途径信息。

11、可选地,所述源数据集,基于京都基因与基因组百科全书数据库(kegg)(https://www.genome.jp/kegg/),根据获取的代谢途径类别信息以及途径上所含有的化合物结构信息进行构建;

12、所述目标数据集,基于植物代谢网络数据库(pwn)

13、(https://plantcyc.org/),根据获取的植物次生代谢途径类别信息以及途径上所含有的化合物结构信息进行构建。

14、可选地,所述源数据集与所述目标数据集中的代谢途径类别标签采用独热编码;

15、独热编码中“1”代表化合物参与该途径,“0”代表化合物不参与该途径。

16、可选地,所述源数据集与所述目标数据集中的化合物结构使用smiles字符串表示。

17、可选地,所述深度学习预训练模型以所述源数据集中的smiles字符串输入,并输出为kegg数据库中的代谢途径类别标签。

18、可选地,使用所述目标数据集中的smiles字符串输入所述深度学习预训练模型,输出为植物次生代谢途径类别标签。

19、可选地,获取待预测化合物的smiles字符串方法包括但不限于查询pubchem等公开结构数据库,利用cdk、rdkit等开源化学信息学工具包进行查询或转换。

20、可选地,所述深度学习预训练模型为模块化的神经网络,包括第一模块和第二模块,每个模块分别学习,提取分子结构特征,分别得到1个特征向量,后再进行合并学习。本文档来自技高网...

【技术保护点】

1.一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:

3.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述源数据集与所述目标数据集中的代谢途径类别标签采用独热编码;

4.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述源数据集与所述目标数据集中的化合物结构使用SMILES字符串表示;

5.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:获取待预测化合物的SMILES字符串方法包括查询Pubchem公开结构数据库,利用CDK、RDKit等开源化学信息学工具包进行查询或转换。

6.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述深度学习预训练模型为模块化的神经网络,包括第一模块和第二模块,每个模块分别学习,提取分子结构特征,分别得到1个特征向量后,再进行合并学习。

7.根据权利要求6所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述第一模块为图变压器神经网络,所述第二模块为卷积神经网络。

8.根据权利要求7所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:降低学习率,以所述深度学习预训练模型参数作为初始化参数,冻结所述第二模块的卷积神经网络参数,使用所述目标数据集重新训练所述深度迁移学习模型的其他部分,构建预测模型。

9.根据权利要求6所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于,所述合并学习步骤包括:

10.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述深度学习预训练模型选用ASL函数作为损失函数。

...

【技术特征摘要】

1.一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:

3.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述源数据集与所述目标数据集中的代谢途径类别标签采用独热编码;

4.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:所述源数据集与所述目标数据集中的化合物结构使用smiles字符串表示;

5.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于:获取待预测化合物的smiles字符串方法包括查询pubchem公开结构数据库,利用cdk、rdkit等开源化学信息学工具包进行查询或转换。

6.根据权利要求1所述的一种基于深度迁移学习的植物次生代谢途径预测方法,其特征在于...

【专利技术属性】
技术研发人员:许国旺包涵赵金慧路鑫赵欣捷赵春霞陈维东姜鹏
申请(专利权)人:中国科学院大连化学物理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1