一种模型训练方法、抗菌肽预测方法及系统技术方案

技术编号：40986428 阅读：20 留言：0更新日期：2024-04-18 21:30

本申请公开了一种模型训练方法、抗菌肽预测方法及系统，其通过获取抗菌肽样本训练集和抗菌肽测试集，构建基于多头注意力机制的深度学习模型，采用抗菌肽样本训练集对深度学习模型进行数据训练，采用反向传播的方式优化深度学习模型的模型参数，获得优化深度学习模型，根据预设的模型评估指标，采用抗菌肽测试集对优化深度学习模型进行模型评估，获得模型评估结果，根据模型评估结果确定是否调整优化深度学习模型的模型参数，获取待预测多肽序列，将待预测多肽序列输入至优化深度学习模型，输出多肽预测结果。本申请能够使用基于多头注意力机制的深度学习模型，提高抗菌肽预测的准确性，有效挖掘抗菌肽资源，广泛应用于抗菌肽预测领域。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及抗菌肽预测，特别涉及一种模型训练方法、抗菌肽预测方法及系统。

技术介绍

1、随着医疗科技的快速进步，人们的生活质量和健康状况已得到了显著改善。尤其是抗生素的发现，为我们治疗各种由微生物引起的疾病提供了强有力的手段。抗生素，作为一种小分子化合物，其主要作用方式是穿越细菌的细胞膜，与细菌内部的蛋白质靶标结合，从而抑制细菌的生长和繁殖。然而，由于抗生素的滥用，许多微生物已逐渐产生了对抗生素的耐药性。这使得原本可以有效治疗的抗生素对于某些耐药菌株无能为力，微生物耐药性的问题已经成为了全球性的挑战。因此，寻找可以替代抗生素的新型治疗方法变得越来越紧迫。

2、抗菌肽是一种有望替代抗生素的治疗手段，其主要作用方式是破坏细菌的细胞膜，使细胞内的物质泄漏出来，从而杀死病菌。例如，在革兰氏阴性菌中，抗菌肽主要是穿透细菌的外膜，破坏其内膜，形成跨膜的离子通道，破坏细胞膜的完整性，导致细胞内物质的泄漏，从而杀死细菌。由于这种作用方式，使得抗菌肽不易产生耐药性。

3、抗菌肽的研究在过去一直受限于各种因素。首先，抗菌肽的数据较少，这就限制了研究者在训练预测模型时能用到的数据量。抗菌肽的生物活性和效力很大程度上取决于其氨基酸序列和二级结构，这些信息在现有的数据集中可能并不总是完整或准确的。此外，由于抗菌肽的活性可能受到环境条件(如ph、温度、离子浓度等)的影响，而这些条件在实验数据中可能并未详细记录。

4、其次，以往的预测模型大多基于传统的分类机器学习模型，例如支持向量机(svm)、随机森林(rf)、决策树(dt

技术实现思路

1、为了解决至少一个上述相关技术中存在的技术问题，本申请实施例提出了一种模型训练方法、抗菌肽预测方法及系统，旨在实现使用基于多头注意力机制的深度学习模型，捕捉氨基酸序列和结构之间的复杂关系，提高抗菌肽预测的准确性。

2、本申请实施例的一方面提出了一种模型训练方法，所述方法包括以下步骤：

3、获取抗菌肽样本训练集和抗菌肽测试集；

4、构建基于多头注意力机制的深度学习模型，采用所述抗菌肽样本训练集对所述深度学习模型进行数据训练，采用反向传播的方式优化所述深度学习模型的模型参数，获得优化深度学习模型；

5、根据预设的模型评估指标，采用所述抗菌肽测试集对所述优化深度学习模型进行模型评估，获得模型评估结果，根据所述模型评估结果确定是否调整所述优化深度学习模型的模型参数。

6、在一些实施例中，所述获取抗菌肽样本训练集和抗菌肽测试集这一步骤，具体包括：

7、获取抗菌肽数据集；所述抗菌肽数据集包括多个抗菌肽序列和各所述抗菌肽序列对应的抗菌活性数据

8、获取给定的第一占比阈值，根据所述第一占比阈值，将所述抗菌肽数据集划分为抗菌肽正样本集和所述抗菌肽测试集；所述第一占比阈值为所述抗菌肽正样本集中抗菌肽序列数量在所述抗菌肽数据集中所占的比例；

9、获取抗菌肽负样本集；所述抗菌肽负样本集包括多个无抗菌性多肽序列；

10、对所述抗菌肽负样本集进行数据过滤处理，获得过滤后的抗菌肽负样本集；

11、根据所述抗菌肽正样本集和所述过滤后的抗菌肽负样本集，组合获得所述抗菌肽样本训练集。

12、在一些实施例中，所述深度学习模型包括嵌入层、编码器层和任务提取层，所述构建基于多头注意力机制的深度学习模型，采用所述抗菌肽样本训练集对所述深度学习模型进行数据训练，采用反向传播的方式优化所述深度学习模型的模型参数，获得优化深度学习模型这一步骤，具体包括：

13、输入所述抗菌肽样本训练集中的各个肽序列至所述嵌入层中，在所述嵌入层中对所述肽序列进行序列编码处理和嵌入处理，获得各所述肽序列对应的肽向量矩阵；所述肽序列包括抗菌肽序列和非抗菌肽序列；

14、将所述肽向量矩阵输入至所述编码器层，通过多组权重矩阵对所述肽向量矩阵进行线型变换，获得各组所述权重矩阵对应的肽序列注意力权重矩阵；

15、合并多组所述肽序列注意力权重矩阵，通过矩阵变换，映射到所述肽向量矩阵的矩阵空间中，获得肽序列输出矩阵；

16、对所述抗菌肽样本训练集进行抗菌肽特征提取，确定抗菌肽序列特征向量，将所述抗菌肽序列特征向量输入至所述任务提取层；

17、在所述任务提取层中将所述肽序列输出矩阵与所述抗菌肽序列特征向量进行特征融合，确定抗菌肽预测特征向量，将所述抗菌肽预测特征向量转换为概率分布，获得抗菌肽预测结果；

18、将所述肽序列输出矩阵作为模型标签，根据所述肽序列输出矩阵和所述抗菌肽预测特征向量，通过损失函数计算损失值，根据所述损失值确定是否优化所述模型参数；

19、当所述损失值大于给定阈值时，采用反向传播算法，计算所述损失函数对应的模型参数梯度信息，使用模型优化器根据所述模型参数梯度信息，优化所述模型参数，获得所述优化深度学习模型。

20、在一些实施例中，所述输入所述抗菌肽样本训练集中的各个肽序列至所述嵌入层中，在所述嵌入层中对所述肽序列进行序列编码处理和嵌入处理，获得各所述肽序列对应的肽向量矩阵这一步骤，具体包括：

21、针对所述抗菌肽样本训练集中的各所述肽序列，在所述嵌入层中对所述肽序列中包含的多个氨基酸进行数字编码，获得各所述肽序列对应的数字肽序列；

22、针对各所述数字肽序列，在所述嵌入层中将所述数字肽序列中的多个具有数字编码的氨基酸进行向量转化处理，获得各所述具有数字编码的氨基酸对应的氨基酸向量；

23、根据多个所述氨基酸向量，进行矩阵转化，确定所述肽序列对应的所述肽向量矩阵；所述肽向量矩阵中包括多个所述氨基酸向量。

24、在一些实施例中，所述编码器层包括多个子编码器层，所述权重矩阵包括第一权重矩阵、第二权重矩阵和第三权重矩阵，所述将所述肽向量矩阵输入至所述编码器层，通过多组权重矩阵对所述肽向量矩阵进行线型变换，获得各组所述权重矩阵对应的肽序列注意力权重矩阵这一步骤，具体包括：

25、将所述肽向量矩阵输入至各所述子编码器层中，利用各所述子编码器层中包含的各组所述权重矩阵，对所述肽向量矩阵进行线型变换，输出第一矩阵、第二矩阵和第三矩阵；所述第一矩阵为通过所述第一权重矩阵对所述肽向量矩阵进行线型变换后获得的矩阵；所述第二矩阵为通过所述第二权重矩阵对所述肽向量矩阵进行线型变换后获得的矩阵；所述第三矩阵为通过所述第三权重矩阵对所述肽向量矩阵进行线型变换后获得的矩阵；

26、根据各所述子编码器层输出的所述第一矩阵、所述第二矩阵和所述第三矩阵，确定各所述子编码器层对应的所述肽序列注意力权重矩阵。

27、在一些实施例中，所述对所述抗菌肽样本训本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的模型训练方法，其特征在于，所述获取抗菌肽样本训练集和抗菌肽测试集这一步骤，具体包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述深度学习模型包括嵌入层、编码器层和任务提取层，所述构建基于多头注意力机制的深度学习模型，采用所述抗菌肽样本训练集对所述深度学习模型进行数据训练，采用反向传播的方式优化所述深度学习模型的模型参数，获得优化深度学习模型这一步骤，具体包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述输入所述抗菌肽样本训练集中的各个肽序列至所述嵌入层中，在所述嵌入层中对所述肽序列进行序列编码处理和嵌入处理，获得各所述肽序列对应的肽向量矩阵这一步骤，具体包括：

5.根据权利要求3所述的模型训练方法，其特征在于，所述编码器层包括多个子编码器层，所述权重矩阵包括第一权重矩阵、第二权重矩阵和第三权重矩阵，所述将所述肽向量矩阵输入至所述编码器层，通过多组权重矩阵对所述肽向量矩阵进行线型变换，获得各组所述权重矩阵对应的肽序列注意力权重矩阵这一步骤，具体包括：

6.根据权利要求3所述的模型训练方法，其特征在于，所述对所述抗菌肽样本训练集进行抗菌肽特征提取，确定抗菌肽序列特征向量，将所述抗菌肽序列特征向量输入至所述任务提取层这一步骤，具体包括：

7.根据权利要求5所述的模型训练方法，其特征在于，所述方法还包括：

8.根据权利要求2所述的模型训练方法，其特征在于，所述根据预设的模型评估指标，采用所述抗菌肽测试集对所述优化深度学习模型进行模型评估，获得模型评估结果，根据所述模型评估结果确定是否调整所述优化深度学习模型的模型参数这一步骤，具体包括：

9.一种基于多头注意力机制的抗菌肽预测方法，其特征在于，所述方法包括以下步骤：

10.一种基于多头注意力机制的抗菌肽预测系统，其特征在于，所述系统包括：

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的模型训练方法，其特征在于，所述获取抗菌肽样本训练集和抗菌肽测试集这一步骤，具体包括：

5.根据权利要求3所述的模型训练方法，其特征在于，所述编码器层包括多个子编码器层，所述权重矩阵包括第一权重矩阵、第二权重矩阵和第三权重矩阵...

【专利技术属性】
技术研发人员：张豫，张志乾，江翱，吴奕瑞，刘丽花，陈西朋，雷伟，戈其珺，林厚良，何景涛，杨敏，
申请(专利权)人：态创生物科技广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人