System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息,尤其涉及一种基于深度学习的抗性多肽识别方法。
技术介绍
1、抗性多肽是一类小分子肽,具有多种抗性功能,在动植物及食品中广泛存在。由于抗性多肽在调节身体各种功能中发挥重要作用,肽类药物也具有显著的疗效、短半衰期和低毒性的特点。近年来,越来越多具有不同功能的抗性多肽被发现。实验数据表明,许多生物抗性肽具有多种功能。例如,抗菌肽(amps)可以保护宿主免受病原体侵袭,同时一些amps还具有抗菌、抗真菌、抗病毒和抗癌等其他功能。抗血管生成肽(aaps)由于其减少或抑制血管生成的功能,在癌症治疗领域得到应用,同时在治疗其他依赖血管生成的疾病中也发挥重要作用。此外,从天然蛋白质中提取的抗氧化肽(aops)可能除了自身的抗氧化功能外,还具有降低胆固醇或抗菌等其他生物抗性特性。准确预测生物抗性肽的功能抗性具有多种意义。
2、鉴于抗性多肽的广泛应用前景,大规模识别其功能的方法尤为重要。传统实验方法难以满足需求,促使计算方法成为研究热点。近年来,以下方法被提出,amp-bert采用了bert的双向编码器架构。同时,结合transformer神经网络架构与自然语言处理知识的方法也被用于amps的识别与功能预测。iampcn框架通过整合四种序列特征,可以预测amps及其功能抗性。对于acps的预测,数据增强技术(如acp-da)被有效应用,解决样本量不足问题的同时提高模型的预测性能。随后,通过优化特征,进一步提升了acps的预测准确性。对于aaps的预测,研究人员从pseaac、原子光谱和理化光谱等不同方面提取有用的
3、具有多种功能的生物抗性肽的识别是一个多标签分类问题,因此过去几十年中来自文本、图像和生物信息学领域的多标签分类方法也可以用来识别生物抗性肽。如clr、cpnl、rbrl、mldf及rakel可借鉴。然而,在上述提到的多种方法中,可以应用于多个任务的多标签分类方法在单独用于生物抗性肽多功能识别任务时,预测能力有限,识别的准确性也受到肽序列零填充的影响,无法提供全面准确的功能识别。mlbp和mpmabp使用肽序列作为唯一的输入信息,当面临更多类别的肽功能识别时,它们的准确性显著下降。为此提出一种基于深度学习的抗性多肽识别方法。
技术实现思路
1、本专利技术的目的在于提供一种基于深度学习的抗性多肽识别方法,旨在解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种基于深度学习的抗性多肽识别方法,包括以下步骤:
4、步骤1、数据准备;具体步骤如下:
5、步骤11、数据收集:从数据库中搜集多肽序列数据,包括amp、acp、adp、ahp、aip、aap和aop七类,形成数据集;将数据集随机划分为训练集和测试集;
6、步骤12、数据平衡:在训练集上对数据量少的类别进行数据增强,测试集保持不变;
7、步骤2、序列编码:使用esm-2、prot-t5和aaindex1三种不同的编码方式对多肽序列进行转换;
8、步骤3、ap-fd模型构建;所述ap-fd模型是一个基于双通道的深度学习模型,使用训练集数据对ap-fd模型进行训练,使用测试集对ap-fd模型的性能进行评估;所述ap-fd模型的处理流程如下:
9、第一个通道、时间序列信息提取:合并esm-2、prot-t5和aaindex1编码后的多肽序列,使用双向长短期记忆网络(bilstm)学习合并后多肽序列的时间序列信息,记为s1;
10、第二个通道、相互作用信息提取:将esm-2、prot-t5和aaindex1得到的特征两两组合,生成联合矩阵,分别为(aaindex1,prot-t5)、(aaindex1,esm-2)和(prot-t5,esm-2);使用二维卷积神经网络学习联合矩阵信息,以获取特征之间的互补增强信息,记为s2;
11、特征分类与功能预测:将s1和s2的信息合并,采用全连接层对合并后的信息进行进一步的学习,通过全连接层的输出对抗性多肽的功能进行预测;
12、进一步的,所述步骤12中,在训练集上对数据量少的类别进行数据增强步骤的具体操作为:通过随机替换一个序列位置中氨基酸位点的方式生成新序列,新序列和原序列的类别一致。
13、进一步的,所述步骤2中,对于一个长度为l的多肽序列,aaindex1将一个多肽序列表示为 l×566维度的二维矩阵,prot-t5将一个多肽序列表示为 l×1024维度的二维矩阵,esm-2将多个序列表示为 l×1280维度的二维矩阵。
14、进一步的,所述ap-fd模型的输出为七个类别,分别为amp、acp、adp、ahp、aip、aap和aop,每个类别均为一个二分类,分别表示为抗性多肽和非抗性多肽。
15、进一步的,所述步骤11中,数据集中20%的样本作为测试集,80%的样本作为训练集。
16、与现有技术相比,本专利技术的有益效果是:
17、本专利技术提供了一种基于深度学习的抗性多肽识别方法,该方法专注于识别七种关键的生物抗性肽,包括amp、acp、adp、ahp、aip、aap和aop,旨在解决传统方法鉴定抗性多肽时存在的昂贵、费力和耗时等问题。该方法能够更全面的描述抗性多肽的特征,从而实现更高效、准确的识别。与5个最先进的方法在相同测试集上进行比较时,本专利技术的ap-fd模型展现出了显著的性能提升。具体而言,ap-fd模型将敏感度提高了11.2-23.9%,准确率提高了0.4-2.5%,f1值提高了6.1-16%,mcc提高了5.3-16%,auc提高了1.6-4.7%,ap值提高了8.7-19.5%。且auroc和aproc曲线进一步证实了ap-fd模型优于其他对比方法。
本文档来自技高网...【技术保护点】
1.一种基于深度学习的抗性多肽识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度学习的抗性多肽识别方法,其特征在于,所述步骤12中,在训练集上对数据量少的类别进行数据增强步骤的具体操作为:通过随机替换一个序列位置中氨基酸位点的方式生成新序列,新序列和原序列的类别一致。
3.根据权利要求1所述的基于深度学习的抗性多肽识别方法,其特征在于,所述步骤2中,对于一个长度为L的多肽序列,AAindex1将一个多肽序列表示为L×566维度的二维矩阵,Prot-T5将一个多肽序列表示为L×1024维度的二维矩阵,ESM-2将多个序列表示为L×1280维度的二维矩阵。
4.根据权利要求1所述的基于深度学习的抗性多肽识别方法,其特征在于,所述AP-FD模型的输出为七个类别,分别为AMP、ACP、ADP、AHP、AIP、AAP和AOP,每个类别均为一个二分类,分别表示为抗性多肽和非抗性多肽。
5.根据权利要求1所述的基于深度学习的抗性多肽识别方法,其特征在于,所述步骤11中,数据集中20%的样本作为测试集,80%的样本作为训练集。<
...【技术特征摘要】
1.一种基于深度学习的抗性多肽识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度学习的抗性多肽识别方法,其特征在于,所述步骤12中,在训练集上对数据量少的类别进行数据增强步骤的具体操作为:通过随机替换一个序列位置中氨基酸位点的方式生成新序列,新序列和原序列的类别一致。
3.根据权利要求1所述的基于深度学习的抗性多肽识别方法,其特征在于,所述步骤2中,对于一个长度为l的多肽序列,aaindex1将一个多肽序列表示为l×566维度的二维矩阵,prot-...
【专利技术属性】
技术研发人员:孙铭蔚,周柚,佘燕达,杨桂兰,宋金玲,王娜,王鏐璞,胡昊元,谢荟菊,王景宇,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。