一种噬菌体预测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：41710258 阅读：14 留言：0更新日期：2024-06-19 12:40

本申请提供了一种噬菌体预测方法、装置、电子设备及可读存储介质。所述方法包括：获取待预测噬菌体向量，待预测噬菌体向量包括至少两个第一氨基酸词元向量，词元向量包括表征内容的词嵌入向量和表征位置的位置嵌入向量；将待预测噬菌体向量输入至已训练的预测模型，获得已训练的预测模型根据第一语义向量确定并输出的第一蛋白质类别，第一语义向量是已训练的预测模型根据提取的待预测噬菌体向量中各词元向量之间的关联信息确定的。本申请能够提取待预测噬菌体向量中各氨基酸之间的关联信息，并根据关联信息确定更能表征噬菌体的蛋白质的语义向量，能够自动化且准确预测噬菌体的蛋白质的类别，无需借助人工干预，提高预测模型的预测能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于生物信息，尤其涉及一种噬菌体预测方法、装置、电子设备及可读存储介质。

技术介绍

1、噬菌体为侵染细菌的病毒，由核酸和蛋白质构成。其中，噬菌体的蛋白质包括噬菌体结构蛋白和非结构蛋白两类。因噬菌体的结构蛋白在维持噬菌体的结构完整性以及感染宿主细菌的过程中发挥着关键作用，预测噬菌体结构蛋白有助于揭示噬菌体与细菌之间的相互作用，并为新型治疗药物的设计和噬菌体疗法的发展提供推动力。

2、但现有的噬菌体的蛋白质预测通常依赖于提取蛋白质序列的统计特征，导致预测方法需要人工干预，预测方法的预测性能较低。

技术实现思路

1、本申请实施例提供了一种噬菌体预测方法、装置、电子设备、可读存储介质及计算机程序产品，可以解决预测方法的预测性能较低的问题。

2、第一方面，本申请实施例提供了一种噬菌体预测方法，包括：

3、获取待预测噬菌体向量，所述待预测噬菌体向量包括至少两个第一氨基酸词元向量，词元向量包括表征内容的词嵌入向量和表征位置的位置嵌入向量；

4、将所述待预测噬菌体向量输入至已训练的预测模型，获得所述已训练的预测模型根据第一语义向量确定并输出的第一蛋白质类别，所述第一语义向量是所述已训练的预测模型根据提取的所述待预测噬菌体向量中各词元向量之间的关联信息确定的。

5、在一个实施例中，所述获取待预测噬菌体向量，包括：

6、获取待预测噬菌体序列，所述待预测噬菌体序列包括至少两个氨基酸信息；

7、对所述待预测噬菌体序列

8、对所述待预测噬菌体词元序列进行转换处理，获得所述待预测噬菌体向量。

9、在一个实施例中，将所述待预测噬菌体向量输入至已训练的预测模型之前，还包括：

10、获取第一训练样本，所述第一训练样本包括多个遮蔽后训练向量，所述遮蔽后训练向量是通过遮蔽第一噬菌体训练向量中至少两个待遮蔽词元向量获得的，所述第一噬菌体训练向量包括第一类别词元向量和至少两个第二氨基酸词元向量；

11、将所述遮蔽后训练向量输入至预测模型后，通过所述预测模型根据所述遮蔽后训练向量中各词元向量之间的关联信息确定第二语义向量；以及根据各所述待遮蔽词元向量对应的第一目标语义向量确定并输出第一词元类别，所述第一目标语义向量为在所述第二语义向量中表征所述待遮蔽词元向量的向量；

12、利用第一预设损失函数，根据各所述待遮蔽词元向量的所述第一词元类别和第一真实类别确定第一损失值，并根据所述第一损失值更新所述预测模型的参数；

13、当所述预测模型的训练情况满足第一训练条件，获得所述已训练的预测模型。

14、在一个实施例中，所述利用第一预设损失函数，根据各所述待遮蔽词元向量的所述第一词元类别和第一真实类别确定第一损失值，并根据所述第一损失值更新所述预测模型的参数之后，还包括：

15、在所述预测模型的训练情况满足第一训练条件后，获取第二训练样本，所述第二训练样本包括多个第二噬菌体训练向量，所述第二噬菌体训练向量包括第二类别词元向量和至少两个第三氨基酸词元向量；

16、将所述第二噬菌体训练向量输入至所述预测模型后，通过所述预测模型根据所述第二噬菌体训练向量中各词元向量之间的关联信息确定第三语义向量；以及根据所述第二类别词元向量对应的第二目标语义向量确定并输出第二词元类别，所述第二目标语义向量为在所述第三语义向量中表征所述第二类别词元向量的向量；

17、利用第二预设损失函数，根据各所述第二噬菌体训练向量的所述第二词元类别和第二真实类别确定第二损失值，并根据所述第二损失值更新所述预测模型的参数；

18、当所述预测模型的微调情况满足第二训练条件，获得所述已训练的预测模型。

19、在一个实施例中，所述第一预设损失函数为交叉熵损失函数，所述第二预设损失函数为焦点损失函数。

20、在一个实施例中，所述将所述待预测噬菌体向量输入至已训练的预测模型之前，还包括：

21、构建所述预测模型；

22、其中，所述预测模型包括自然语言处理网络和预测网络，所述自然语言处理网络包括至少两层转换编码器，所述转换编码器包括多头注意力层、第一残差连接和层归一化处理层、前馈神经网络层以及第二残差连接和层归一化处理层，所述多头注意力层用于接收输入向量，以及在提取所述输入向量中各词元向量之间的关联信息后，根据所述输入向量中各词元向量之间的关联信息确定第一输出向量，所述第一残差连接和层归一化处理层用于对所述第一输出向量进行残差和归一化处理，获得第二输出向量，所述前馈神经网络层用于提取所述第二输出向量的非线性层次特征，以及根据所述非线性层次特征和所述第二输出向量确定第三输出向量，所述第二残差连接和层归一化处理层用于对所述第三输出向量进行残差和归一化处理，获得并输出语义输出向量，所述预测网络用于接收所述语义输出向量，以及根据所述语义输出向量确定并输出预测类别。

23、在一个实施例中，所述方法还包括：

24、根据正确预测样本数和错误预测样本数，确定所述预测模型的评分。

25、第二方面，本申请实施例提供了一种噬菌体预测装置，包括：

26、获取模块，用于获取待预测噬菌体向量，所述待预测噬菌体向量包括至少两个第一氨基酸词元向量，词元向量包括表征内容的词嵌入向量和表征位置的位置嵌入向量；

27、预测模块，用于将所述待预测噬菌体向量输入至已训练的预测模型，获得所述已训练的预测模型根据第一语义向量确定并输出的第一蛋白质类别，所述第一语义向量是所述已训练的预测模型根据提取的所述待预测噬菌体向量中各词元向量之间的关联信息确定的。

28、第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的方法。

29、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。

30、第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的方法。

31、本申请实施例与现有技术相比存在的有益效果是：

32、本申请实施例通过获取待预测噬菌体向量，待预测噬菌体向量包括至少两个第一氨基酸词元向量，词元向量包括表征内容的词嵌入向量和表征位置的位置嵌入向量；将待预测噬菌体向量输入至已训练的预测模型，获得已训练的预测模型根据第一语义向量确定并输出的第一蛋白质类别，第一语义向量是已训练的预测模型根据提取的待预测噬菌体向量中各词元向量之间的关联信息确定的；能够提取待预测噬菌体向量中各氨基酸之间的关联信息，并根据关联信息确本文档来自技高网...

【技术保护点】

1.一种噬菌体预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待预测噬菌体向量，包括：

3.根据权利要求1或2所述的方法，其特征在于，将所述待预测噬菌体向量输入至已训练的预测模型之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述利用第一预设损失函数，根据各所述待遮蔽词元向量的所述第一词元类别和第一真实类别确定第一损失值，并根据所述第一损失值更新所述预测模型的参数之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述第一预设损失函数为交叉熵损失函数，所述第二预设损失函数为焦点损失函数。

6.根据权利要求5所述的方法，其特征在于，所述将所述待预测噬菌体向量输入至已训练的预测模型之前，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种噬菌体预测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种噬菌体预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待预测噬菌体向量，包括：

3.根据权利要求1或2所述的方法，其特征在于，将所述待预测噬菌体向量输入至已训练的预测模型之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述第一预设损失函数为交叉熵损失函数，所述第二预设损失函数为焦点损失函数。...

【专利技术属性】
技术研发人员：马里佳，高鹏，周文祥，吉君恺，林秋镇，李坚强，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人