System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算毒理学领域,具体涉及一种基于分子特征与机器学习的线粒体毒性预测方法。
技术介绍
1、线粒体是细胞的动力室,负责产生 atp 和调节细胞凋亡,在维持细胞功能方面发挥着至关重要的作用。线粒体受到的毒性影响与人类的几种主要疾病有关。例如,线粒体损伤可能导致多巴胺能神经元死亡,进而引发运动症状,导致帕金森病。另外,线粒体损伤和功能障碍可能会促进癌细胞的代谢重编程,使它们能够更好地适应肿瘤微环境并存活下来。
2、评估线粒体毒性的传统方法主要涉及动物和细胞实验。然而,考虑到动物伦理和"替代、减少和改良(3r)"原则。以及细胞检测的局限性,包括成本高、过程耗时和可重复性有限,因此,有必要开发预测线粒体毒性的新方法。计算毒理学的出现引起了人们的关注,因为它可以利用数学和计算方法构建模型,以高通量、低成本的方式预测和筛选化学毒性,从而克服这些不足之处;在线粒体毒性评估中,定量结构-活性关系(qsar)方法利用化学结构信息来预测毒性,已被广泛应用于环境安全评估中。
3、然而,现有的线粒体毒性的机器学习预测模型非常稀少,通常具有正召回率和准确率低、数据集小、可解释性差以及缺乏适用领域特征等特点,因此有必要引入新的化合物表征和建模方法,并由此建立一个可以预测小分子化合物线粒体毒性的预测模型,为环境中潜在危险化学品的筛选和评估提供新的思路和手段。
技术实现思路
1、本专利技术意在提供一种基于分子特征与机器学习的线粒体毒性预测方法,
2、为达到上述目的,本专利技术采用如下技术方案:一种基于分子特征与机器学习的线粒体毒性预测方法,包括:
3、步骤1:获取对线粒体有毒或无毒的化合物数据,记录smiles号并分别标记为阳性和阴性;
4、步骤2:对采集数据集进行预处理;
5、步骤3:计算化合物的分子指纹和分子描述符,将二者耦合并降维得到特征数据集;
6、步骤4:将特征数据集分为训练集和测试集,构建基于树的机器学习模型和基于距离的机器学习模型,并使用训练集对模型进行训练寻找最佳的超参数,再基于权重的软投票将不同类型模型进行集成;
7、步骤5:测试集数据带入模型进行预测,选取评价指标对模型进行评估,选取表现最优的组合作为化合物线粒体毒性预测模型;
8、步骤6:通过线粒体毒性预测模型进行预测化合物对线粒体的毒性,并计算线粒体毒性预测模型的应用域。
9、优选的,所述步骤4中构建随机森林、决策树、轻梯度提升机三个基于树的模型及k-邻近、支持向量机、随机梯度下降、朴素贝叶斯和逻辑回归五个基于距离的模型。
10、优选的,所述步骤3中包括12种分子指纹和867个分子描述符,所述分子指纹包括:ap2dc指纹、ap2d指纹、est指纹、cdk指纹、extfp指纹、graphfp指纹、krcfp指纹、krfp指纹、maccs指纹、pubchem指纹、scfp指纹、subfp指纹;所述分子描述符包括由morderd库计算的725个以及由rdkit计算的142个,在具体实施上,分别使用相同的机器学习算法对同一分子的分子指纹和分子描述符进行计算和分类预测,并对结果进行综合,或从不同的方面对结果进行解释。
11、优选的,所述步骤5中选取轻梯度提升机机器学习模型和k-邻近机器学习模型的组合maccs_lk模型作为化合物线粒体毒性预测模型;设置maccs_lk模型的相似度阈值为0.87和相似分子的最小数量为20,应用阈的计算方法是使用两个分子的余弦相似度来表征其化学距离,在计算所有分子相互之间的化学距离后通过设置一定的阈值来框定在相应等距离之内的分子属于可被预测的范畴。
12、优选的,所述步骤2具体包括:删除重复数据和分类标签不明确数据;对剩余数据进行归一化处理;平衡数据集中不同类别数据量。本方法中在检查初始数据集时,发现负面数据明显多于正面数据,数据类别之间的这种不平衡可能会对分类模型的预测结果产生不利影响,在数据预处理过程中尽可能平衡数据集,有助于保持数据的多样性,降低对分类模型预测结果的影响。
13、优选的,对剩余数据进行归一化处理具体包括:去除smiles号中表示立体化学的信息;中和smiles号中表示的电荷信息;删除smiles号中除目标小分子单体外的无机物、金属混合物和配体。对数据归一化处理有助于提高模型性能、稳定性和训练效率。
14、优选的,所述步骤5中评价指标包括:准确率、召回率、特异性和接收者工作特征曲线下面积。
15、优选的,所述步骤1中对线粒体有毒的化合物是指引起线粒体膜电位下降的化合物。
16、优选的,所述步骤4中将特征数据集按照4:1的比例随机抽样分为训练集和测试集,所述测试集分为内部验证集和外部验证集,模型在训练集上进行十折交叉验证以寻找最佳的超参数。分内部验证集和外部验证集能够有效地提高模型评估的准确性、泛化能力和可靠性;十折交叉验证将数据集划分为10份,每次使用9份作为训练集,1份作为验证集,重复10次,每次验证集不同,可以有效减少模型对特定数据集的过拟合风险,提高模型泛化能力。
17、优选的,所述步骤6中使用基于欧式空间距离的余弦相似度来定义两个分子之间的相似度,通过设置不同的相似度阈值和相似分子的最小数量来控制应用域范围;使用夏普利加法原理来对模型机理进行解释。
18、优选的,所述步骤4中采用非均匀加权策略对两类机器学习算法使用软投票进行集成。采用非均匀加权策略,尽量缩小模型之间的性能差异。
19、本专利技术可以预测小分子化合物是否具有线粒体毒性及毒性机理,相较于现有的qsar预测方法,预测准确率和召回率更高,模型更为可靠;将分子指纹和分子描述符二者耦合并降维,确保训练集包含多种化学结构,模型可以更好地处理新的、未见过的数据,从而增强其稳健性和预测能力。这种方法增强了模型在实际应用中预测化合物线粒体毒性的可靠性;采用多种评价指标对模型拟合和预测能力进行评价,最终发现了性能较好的 maccs_lk 线粒体毒性预测模型;给出了该模型应用领域的阈值范围,可用于有毒化学品的高通量筛选,为化学品的合理管理提供技术支持;解释模型的机制可以增强决策者对模型的信任,并有助于纠正人为偏见,本方法具体使用夏普利加法原理计算每个特征对于结果的贡献程度来尝试解释不同分子结构和理化性质在线粒体毒性中的意义。
本文档来自技高网...【技术保护点】
1.一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤4中构建的机器学习模型包括有:随机森林、决策树、轻梯度提升机三个基于树的模型及k-邻近、支持向量机、随机梯度下降、朴素贝叶斯和逻辑回归五个基于距离的模型。
3.根据权利要求2所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤3中包括12种分子指纹和867个分子描述符,所述分子指纹包括:AP2DC指纹、AP2D指纹、Est指纹、CDK指纹、ExtFP指纹、GraphFP指纹、KRCFP指纹、KRFP指纹、MACCS指纹、PubChem指纹、SCFP指纹、SubFP指纹;所述分子描述符包括由Morderd库计算的725个以及由RDKit计算的142个。
4.根据权利要求3所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤5中选取轻梯度提升机机器学习模型和k-邻近机器学习模型的组合MACCS_LK模型作为化合物线粒体毒性预测模型;设置
5.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤2具体包括:删除重复数据和分类标签不明确数据;对剩余数据进行归一化处理;平衡数据集中不同类别数据量。
6.根据权利要求5所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,对剩余数据进行归一化处理具体包括:去除SMILES号中表示立体化学的信息;中和SMILES号中表示的电荷信息;删除SMILES号中除目标小分子单体外的无机物、金属混合物和配体。
7.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤5中评价指标包括:准确率、召回率、特异性和接收者工作特征曲线下面积。
8.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤4中将特征数据集按照4:1的比例随机抽样分为训练集和测试集,所述测试集分为内部验证集和外部验证集,模型在训练集上进行十折交叉验证以寻找最佳的超参数。
9.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤6中使用基于欧式空间距离的余弦相似度来定义两个分子之间的相似度,通过设置不同的最低相似度阈值和相似分子的最小数量来控制应用域范围。
10.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤4中采用非均匀加权策略对两类机器学习算法使用软投票进行集成。
...【技术特征摘要】
1.一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤4中构建的机器学习模型包括有:随机森林、决策树、轻梯度提升机三个基于树的模型及k-邻近、支持向量机、随机梯度下降、朴素贝叶斯和逻辑回归五个基于距离的模型。
3.根据权利要求2所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤3中包括12种分子指纹和867个分子描述符,所述分子指纹包括:ap2dc指纹、ap2d指纹、est指纹、cdk指纹、extfp指纹、graphfp指纹、krcfp指纹、krfp指纹、maccs指纹、pubchem指纹、scfp指纹、subfp指纹;所述分子描述符包括由morderd库计算的725个以及由rdkit计算的142个。
4.根据权利要求3所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤5中选取轻梯度提升机机器学习模型和k-邻近机器学习模型的组合maccs_lk模型作为化合物线粒体毒性预测模型;设置maccs_lk模型的相似度阈值为0.87和相似分子的最小数量为20。
5.根据权利要求1所述的一种基于分子特征与机器学习的线粒体毒性预测方法,其特征在于,所述步骤2具体包括:删除重...
【专利技术属性】
技术研发人员:闫婷婷,贾广胤,张睿基,
申请(专利权)人:哈尔滨工业大学威海,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。