本发明专利技术公开了一种基于机器学习的海藻固碳蛋白预测方法及系统,包括:获取海洋藻类蛋白质序列数据,对所述数据进行特征提取;对提取的特征进行筛选后,输入到训练好的机器学习分类器;输出海藻固碳蛋白的预测结果。本发明专利技术采用机器学习算法来预测蛋白质是否具有固碳功能,相比于基于传统的生物化学实验来对大量的生物序列进行分析的方式,能够有效节省人力物力,避免引入人为误差对结果或造成干扰,具有更高的预测效率和准确率。有更高的预测效率和准确率。有更高的预测效率和准确率。
【技术实现步骤摘要】
基于机器学习的海藻固碳蛋白预测方法及系统
[0001]本专利技术涉及海藻固碳蛋白预测
,尤其涉及一种基于机器学习的海藻固碳蛋白预测方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]固碳蛋白在藻类的固碳过程中起着关键作用。准确快速鉴定藻类固碳蛋白对研究藻类固碳机制、建立海洋生物碳泵具有重要意义。基于生物序列可很好地分析研究生物的结构和功能,目前在海藻固碳蛋白领域的相关研究多是由传统的生化实验方法进行的,该种方法耗时较长,需投入大量人力物力、时间成本,且易引入人为误差。
技术实现思路
[0004]为了解决上述问题,本专利技术提出了一种基于机器学习的海藻固碳蛋白预测方法及系统,将机器学习算法用于藻类固碳蛋白的分类预测,能够预测蛋白质是否具有固碳功能,可以提高预测效率和准确率。
[0005]在一些实施方式中,采用如下技术方案:
[0006]一种基于机器学习的海藻固碳蛋白预测方法,包括:
[0007]获取海洋藻类蛋白质序列数据,对所述数据进行特征提取;
[0008]对提取的特征进行筛选后,输入到训练好的机器学习分类器;
[0009]输出海藻固碳蛋白的预测结果。
[0010]进一步地,对于预处理后的数据进行特征提取,具体包括:
[0011]分别使用从官能团、香农熵、基于自相关方法的理化性质和基于序列组成中提取的特征来对蛋白质序列数据进行数值描述,将蛋白质序列数据被转换成数字特征向量。
[0012]进一步地,对提取的特征进行筛选,具体包括:
[0013]计算特征的重要程度,按照特征的重要性进行排序,选择排名前N的特征作为最优特征。
[0014]进一步地,分别对不同的机器学习分类器进行训练,包括:朴素贝叶斯、支持向量机、神经网络、K近邻和随机森林;选取分类效果的最好的分类器作为最终的分类器。
[0015]进一步地,对于机器学习分类器进行训练的过程包括:
[0016]选取不同种类海洋藻类蛋白质序列数据构建数据集;
[0017]对所述数据集进行预处理,将处理后的数据集分为训练集和测试集;
[0018]对训练集中的数据进行特征提取,根据特征的重要程度筛选出N个特征作为最优特征;
[0019]将最优特征在不同的机器学习分类器上进行交叉验证,得到每种机器学习分类器的评价指标;
[0020]选取评价指标最优的分类器作为最终的分类器。
[0021]进一步地,对所述数据集进行预处理,包括:
[0022]清洗蛋白质fasta序列数据,去除质量不高、含有未知氨基酸的序列,使用cd-hit软件去除冗余避免同源偏置;
[0023]进行不平衡数据处理,使用ClusterCentroids函数实现欠采样,使用k-means算法的中心点来进行合成新样本。
[0024]进一步地,用K折交叉验证来检查预测变量的预期准确性,使用灵敏度,特异性,准确性和Mathew相关系数以及均衡准确率评估预测系统的性能。
[0025]在另一些实施方式中,采用如下技术方案:
[0026]一种基于机器学习的海藻固碳蛋白预测系统,包括:
[0027]用于获取海洋藻类蛋白质序列数据,对所述数据进行特征提取的装置;
[0028]用于对提取的特征进行筛选后,输入到训练好的机器学习分类器的装置;
[0029]用于输出海藻固碳蛋白的预测结果的装置。
[0030]在另一些实施方式中,采用如下技术方案:
[0031]一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于机器学习的海藻固碳蛋白预测方法。
[0032]在另一些实施方式中,采用如下技术方案:
[0033]一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于机器学习的海藻固碳蛋白预测方法。
[0034]与现有技术相比,本专利技术的有益效果是:
[0035](1)本专利技术采用机器学习算法来预测蛋白质是否具有固碳功能,相比于基于传统的生物化学实验来对大量的生物序列进行分析的方式,能够有效节省人力物力,避免引入人为误差对结果或造成干扰,具有更高的预测效率和准确率。
[0036](2)本专利技术对不平衡数据集进行处理,避免出现样本倾斜,在保证结果科学合理、具备一定准确率的基础上,操作也更为方便快捷,经该方法处理后,模型的灵敏性和特异性均在90%以上,使得分类器更加准确、性能更优。
[0037](3)本专利技术分别对多种机器学习分类器进行预测,筛选出预测效果最好的分类器,能够针对不同的数据和特征建立有针对性的分类模型,进一步提高分类结果的准确性。
[0038]本专利技术的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
[0039]图1为本专利技术实施例中基于机器学习的海藻固碳蛋白预测方法流程图;
[0040]图2为本专利技术实施例中对机器学习分类器进行训练的过程示意图;
[0041]图3为本专利技术实施例中特征重要程度折线图;
[0042]图4为本专利技术实施例中特征筛选前后各类特征的数量对比;
[0043]图5为本专利技术实施例中五种分类器的准确率(Acc)条形图;
[0044]图6为本专利技术实施例中五种分类器的均衡准确率条形图。
具体实施方式
[0045]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本专利技术使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0046]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0047]实施例一
[0048]在一个或多个实施方式中,公开了一种基于机器学习的海藻固碳蛋白预测方法,参照图1,包括以下步骤:
[0049]步骤(1):获取海洋藻类蛋白质序列数据,对所述数据进行特征提取;
[0050]具体地,单个特征提取策略只能获得片面的信息,不同种类的特征提取方法可以相互补充,以获取蛋白质样本有价值的信息。
[0051]本实施例中,使用从官能团,香农熵,理化性质和序列组成中提取的各种特征来对蛋白质样本进行数值描述,将所有蛋白质序列都被转换成数字特征向量;特征的提取策略包含以下几个方面:
[0052]1)官能团。官能团决定有机化合物的化学性质。蛋白质的20种氨基酸可分为10组官能团,分别为苯基(本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的海藻固碳蛋白预测方法,其特征在于,包括:获取海洋藻类蛋白质序列数据,对所述数据进行特征提取;对提取的特征进行筛选后,输入到训练好的机器学习分类器;输出海藻固碳蛋白的预测结果。2.如权利要求1所述的一种基于机器学习的海藻固碳蛋白预测方法,其特征在于,对于预处理后的数据进行特征提取,具体包括:分别使用从官能团、香农熵、基于自相关方法的理化性质和基于序列组成中提取的特征来对蛋白质序列数据进行数值描述,将蛋白质序列数据被转换成数字特征向量。3.如权利要求1所述的一种基于机器学习的海藻固碳蛋白预测方法,其特征在于,对提取的特征进行筛选,具体包括:计算特征的重要程度,按照特征的重要性进行排序,选择排名前N的特征作为最优特征。4.如权利要求1所述的一种基于机器学习的海藻固碳蛋白预测方法,其特征在于,分别对不同的机器学习分类器进行训练,包括:朴素贝叶斯、支持向量机、神经网络、K近邻和随机森林;选取分类效果的最好的分类器作为最终的分类器。5.如权利要求1所述的一种基于机器学习的海藻固碳蛋白预测方法,其特征在于,对于机器学习分类器进行训练的过程包括:选取不同种类海洋藻类蛋白质序列数据构建数据集;对所述数据集进行预处理,将处理后的数据集分为训练集和测试集;对训练集中的数据进行特征提取,根据特征的重要程度筛选出N个特征作为最优特征;将最优特征在不同的机器学习分类器上进行交叉验证,得到每种机器学习分类...
【专利技术属性】
技术研发人员:高瑞,张甘,刘治平,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。