一种预测蛋白质二级结构的方法、装置及相关设备制造方法及图纸

技术编号:34043016 阅读:12 留言:0更新日期:2022-07-06 13:56
本申请公开了一种预测蛋白质二级结构的方法、装置及相关设备,包括:获取待预测的蛋白质对应的氨基酸序列;将所述氨基酸序列输入至预先完成训练的预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述蛋白质的二级结构,所述预测模型包括多个强分类器,所述多个强分类器中的每个强分类器包括多个子网络模型。如此,不仅可以利用预测模型根据氨基酸序列预测出蛋白质二级结构,而且,通过实验证明,包括多个强分类器(每个强分类器包括多个子网络模型)的预测模型预测蛋白质二级结构的准确性也较高。级结构的准确性也较高。级结构的准确性也较高。

A method, device and related equipment for predicting protein secondary structure

【技术实现步骤摘要】
一种预测蛋白质二级结构的方法、装置及相关设备


[0001]本申请涉及资源调度
,特别是涉及一种预测蛋白质二级结构的方法、装置及相关设备。

技术介绍

[0002]蛋白质是地球上所有生物进行生命活动不可或缺的化合物之一,研究蛋白质的序列结构、空间折叠方式对了解其生物功能有着非同寻常的意义。因此,蛋白质结构和功能的研究,是现代生物信息学和计算生物学中重要主题之一。其中,蛋白质由氨基酸构成,并且,氨基酸通过脱水缩合反应形成肽键,脱水缩合后的氨基酸失去一个水分子成为氨基酸残基,残基通过肽键连接起来构成线性的多肽链,这些线性的多肽链即蛋白质一级结构。蛋白质二级结构由一级结构经过三维空间结构变换得到,并且,依据氢键模式可以将蛋白质二级结构分为三大类,分别是α螺旋、β折叠和卷曲。进一步,蛋白质二级结构还可以细分为八小类:α螺旋(H)、α螺旋

3(G)、α螺旋

5(I)、β桥(B)、β折叠(E)、转角(T)、无规则卷曲(S)和其他(C)。并且,蛋白质具有三级结构,并且只有具有三级结构的蛋白质才具有生物活性。
[0003]随着测序技术的发展和相关研究的进行,指数级别增长的蛋白质一级结构序列(即组成蛋白质的氨基酸序列)已被测定,并存储在数据库中。但在缺少蛋白质同源结构信息的情况下,很难用这些已知的一级结构序列来预测蛋白质三级结构。蛋白质二级结构(可用于描述蛋白质的局部空间结构)作为连接一级结构和三级结构的中介,有助于蛋白质三级结构的预测。因此,如何预测蛋白质二级结构具有重要意义。/>
技术实现思路

[0004]本申请实施例提供了一种预测蛋白质二级结构的方法、装置、计算设备及存储介质,以实现对于蛋白质二级结构的预测。
[0005]第一方面,本申请实施例提供了一种预测蛋白质二级结构的方法,所述方法包括:
[0006]获取待预测的蛋白质对应的氨基酸序列;
[0007]将所述氨基酸序列输入至预先完成训练的预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述蛋白质的二级结构,所述预测模型包括多个强分类器,所述多个强分类器中的每个强分类器包括多个子网络模型。
[0008]在一种可能的实施方式中,所述子网络模型包括卷积神经网络模型。
[0009]在一种可能的实施方式中,所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。
[0010]在一种可能的实施方式中,每个强分类器包括多个相同的子网络模型。
[0011]在一种可能的实施方式中,所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵PSSM或隐马尔可夫模型HMM。
[0012]在一种可能的实施方式中,每个强分类器是利用Adaboost算法对所述多个子网络模型进行训练得到的。
[0013]在一种可能的实施方式中,每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式基于SAMME算法完成调整。
[0014]第二方面,本申请实施例还提供了一种预测蛋白质二级结构的装置,所述装置包括:
[0015]序列获取模块,用于获取待预测的蛋白质对应的氨基酸序列;
[0016]预测模块,用于将所述氨基酸序列输入至预先完成训练的预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述蛋白质的二级结构,所述预测模型包括多个强分类器,所述多个强分类器中的每个强分类器包括多个子网络模型。
[0017]在一种可能的实施方式中,所述子网络模型包括卷积神经网络模型。
[0018]在一种可能的实施方式中,所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。
[0019]在一种可能的实施方式中,每个强分类器包括多个相同的子网络模型。
[0020]在一种可能的实施方式中,所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵PSSM或隐马尔可夫模型HMM。
[0021]在一种可能的实施方式中,每个强分类器是利用Adaboost算法对所述多个子网络模型进行训练得到的。
[0022]在一种可能的实施方式中,每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式基于SAMME算法完成调整。
[0023]第三方面,本申请实施例还提供了一种计算设备,该设备可以包括处理器以及存储器:
[0024]所述存储器用于存储计算机程序;
[0025]所述处理器用于根据所述计算机程序执行上述第一方面以及第一方面中任一种实施方式所述的方法。
[0026]第四方面,本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面以及第一方面中任一种实施方式所述的方法。
[0027]在本申请实施例的上述实现方式中,获取待预测的蛋白质对应的氨基酸序列;将所述氨基酸序列输入至预先完成训练的预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述蛋白质的二级结构,所述预测模型包括多个强分类器,所述多个强分类器中的每个强分类器包括多个子网络模型。如此,不仅可以利用预测模型根据氨基酸序列预测出蛋白质二级结构,而且,通过实验证明,包括多个强分类器(每个强分类器包括多个子网络模型)的预测模型预测蛋白质二级结构的准确性也较高,达到77%左右,在公共数据集CB513上可达到74.29%的预测准确率,超过了当前研究最高的70.3%。
[0028]另外,当子网络模型具体为CNN、LSTM和bi

LSTM时,可以保存氨基酸序列中较长或完整序列信息进行预测。其中,CNN的卷积层类似于滑动窗口机制,叠加卷积层和池化层可以放大输入向量中最显著的特征。如此,可以有效提取氨基酸序列的局部相互作用力全局特征,从而可以提高预测准确率。
附图说明
[0029]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0030]图1为本申请实施例中一种预测蛋白质二级结构的方法流程示意图;
[0031]图2为不同编码方式的准确率示意图;
[0032]图3为三种深度下bi

LSTM和LSTM的预测准确率示意图;
[0033]图4为单层CNN的预测准确率示意图;
[0034]图5为两层CNN的预测准确率示意图;
[0035]图6为三层CNN和四层CNN的预测准确率示意图;
[0036]图7为基于PSSM编码的不同神经元数量在不同卷积层下的预测准确率示意图;
[0037]图8为基于HMM编码的不同神经元数量在不同卷积层下的预测准确率示意图;
[0038]图9为同质Adaboost模型(强分类器)在不同条件下的预测准确率示意图;
[0039]图10为同/异质弱分类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种预测蛋白质二级结构的方法,其特征在于,所述方法包括:获取待预测的蛋白质对应的氨基酸序列;将所述氨基酸序列输入至预先完成训练的预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述蛋白质的二级结构,所述预测模型包括多个强分类器,所述多个强分类器中的每个强分类器包括多个子网络模型。2.根据权利要求1所述的方法,其特征在于,所述子网络模型包括卷积神经网络模型。3.根据权利要求1所述的方法,其特征在于,所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。4.根据权利要求1所述的方法,其特征在于,每个强分类器包括多个相同的子网络模型。5.根据权利要求1所述的方法,其特征在于,所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵PSSM或隐马尔可夫模型HMM。6.根据权利要求1所述的方法,其特征在于,每个强分类器是利用Adaboost算法对所述多个子网络模型进行训练得到的。7.根据权利要求1至6...

【专利技术属性】
技术研发人员:梁珩琳
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1