肽段测序方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：44681110 阅读：5 留言：0更新日期：2025-03-19 20:32

本发明专利技术提供一种肽段测序方法、装置、设备、存储介质及程序产品，涉及人工智能技术领域，方法包括：获取待测序肽段的质谱数据；将质谱数据输入至肽段测序模型，获得肽段测序模型输出的肽段测序结果；其中，肽段测序模型是基于样本质谱数据和样本质谱数据对应的样本肽段测序结果，对基于TSARseqNovo算法构建的初始模型进行训练得到的。通过上述方式，能够显著提升对质谱信息的分析精度，提高模型的推理效率，可有效保证肽段测序结果的质量和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种肽段测序方法、装置、设备、存储介质及程序产品。

技术介绍

1、在基于质谱分析的蛋白质组学技术中，肽的识别在分析复杂生物样品的蛋白质组成方面发挥着至关重要的作用。肽识别的处理步骤包括采集肽的质谱图像进行详细分析，并根据关键数据（例如质量数、电荷和保留时间等）配对，以推断组成其的氨基酸序列。目前，肽识别的主要技术包括库搜索技术，即将观察到的质谱信息与现有数据库中的预存肽信息进行比较和匹配，以达到识别肽的目的。此方法的局限性在于，当鉴定抗体、人类白细胞抗原中的新抗原或当前基因组学数据库中未列出的新蛋白质和肽时，该方法无法有效实现相关肽的识别。

2、另一种主流的方法为多肽从头测序方法，是指在不借助序列数据库的情况下，通过串联质谱得到多肽氨基酸序列的分析过程。早期主要使用非深度学习的方法，主要包括启发式搜索、动态规划等方法，以评估肽与对应谱图观测结果的匹配程度。其后，novo算法在评分函数中结合了决策树，增强了novo模型对于肽的识别能力。随着深度学习方法的爆发式发展，有研究者提出了deepnovo模型，该模型将卷积神经网络与长短时记忆网络结合，显著提高了deepnovo模型的多肽从头测序能力。在此基础上，pointnovo模型通过采用顺序不变的网络架构，提升其对高分辨率质谱数据的特征提取能力，进一步提高了多肽从头测序能力。casanovo模型以transformer框架为基础架构，直接将从质谱数据中观测到的峰与氨基酸序列在特征空间中进行映射，大幅提升了对于肽的识别和测序性能。

>3、但是，casanovo模型作为目前最常用的模型也存在不足：在推理对象方面，casanovo模型主要依赖于肽的历史信息进行推理，忽略了单个氨基酸的信息，此策略虽然提高了其对肽的预测性能，但是在分析单个氨基信息时精度有所下降；此外，casanovo模型在分析质荷比以及强度信息时，并未充分利用谱峰的空间排列相关性，这些不足显著影响了casanovo模型对于质谱信息的全局和局部特征的提取能力；在推理速度方面，casanovo模型在单次推理过程中仅能处理一个氨基酸的预测分析，显著减慢了推理过程。

4、因此，现有的肽段测序方法的准确性不高。

技术实现思路

1、本专利技术提供一种肽段测序方法、装置、设备、存储介质及程序产品，用以解决现有技术中肽段测序方法的准确性不高的缺陷。

2、本专利技术提供一种肽段测序方法，包括：获取待测序肽段的质谱数据；将质谱数据输入至肽段测序模型，获得肽段测序模型输出的肽段测序结果；其中，肽段测序模型是基于样本质谱数据和样本质谱数据对应的样本肽段测序结果，对基于tsarseqnovo算法构建的初始模型进行训练得到的。

3、根据本专利技术提供的一种肽段测序方法，肽段测序模型包括质谱峰信息融合编码模块、半自回归解码模块和掩码优化解码模块；质谱峰信息融合编码模块，用于对质谱数据进行特征提取，获得质谱峰融合嵌入特征；半自回归解码模块，用于基于质谱峰融合嵌入特征进行初始预测，获得待测序肽段的氨基酸预测结果；掩码优化解码模块，用于基于氨基酸预测结果进行优化预测，获得肽段测序结果。

4、根据本专利技术提供的一种肽段测序方法，质谱峰信息融合编码模块包括质谱峰编码模块、局部与全局质谱特征编码模块、质谱峰融合编码模块和多个编码器；质谱峰编码模块，用于对质谱数据进行特征编码，获得质谱峰嵌入编码；局部与全局质谱特征编码模块，用于对质谱数据进行特征编码，获得局部与全局谱特征嵌入编码；质谱峰融合编码模块，用于对质谱峰嵌入编码和局部与全局谱特征嵌入编码进行特征融合，获得质谱峰融合编码；所有编码器，用于基于质谱峰融合编码，生成质谱峰融合嵌入特征。

5、根据本专利技术提供的一种肽段测序方法，基于质谱峰融合嵌入特征进行初始预测，获得待测序肽段的氨基酸预测结果，包括：生成待测序肽段的氨基编码信息；基于氨基编码信息和质谱峰融合嵌入特征进行初始预测，获得待测序肽段的氨基酸预测结果。

6、根据本专利技术提供的一种肽段测序方法，氨基酸预测结果包括待测序肽段的多个氨基标识符和每一氨基标识符的预测置信度；基于氨基酸预测结果进行优化预测，获得肽段测序结果，包括：基于氨基酸预测结果，确定目标氨基标识符；目标氨基标识符为预测置信度小于预设阈值的氨基标识符；基于目标氨基标识符和质谱峰融合嵌入特征进行优化预测，生成肽段测序结果。

7、根据本专利技术提供的一种肽段测序方法，肽段测序模型采用预设损失函数进行训练；其中，预设损失函数是基于第一损失函数和第二损失函数确定的，第一损失函数为半自回归解码模块的交叉熵损失函数，第二损失函数为掩码优化解码模块的交叉熵损失函数。

8、本专利技术还提供一种肽段测序装置，包括：获取模块，用于获取待测序肽段的质谱数据；测序模块，用于将质谱数据输入至肽段测序模型，获得肽段测序模型输出的肽段测序结果；其中，肽段测序模型是基于样本质谱数据和样本质谱数据对应的样本肽段测序结果，对基于tsarseqnovo算法构建的初始模型进行训练得到的。

9、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一种肽段测序方法。

10、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种肽段测序方法。

11、本专利技术还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述任一种肽段测序方法。

12、本专利技术提供的肽段测序方法、装置、设备、存储介质及程序产品，采用基于tsarseqnovo算法的肽段测序模型对待测序肽段的质谱数据进行分析和预测，得到肽段测序结果，与现有的casanovo模型相比，基于tsarseqnovo算法的肽段测序模型具有更优的特征编码能力和推理能力，能够显著提升对质谱信息的分析精度，提高模型的推理效率，可有效保证肽段测序结果的质量和准确性。

本文档来自技高网...

【技术保护点】

1.一种肽段测序方法，其特征在于，包括：

2.根据权利要求1所述的肽段测序方法，其特征在于，所述肽段测序模型包括质谱峰信息融合编码模块、半自回归解码模块和掩码优化解码模块；

3.根据权利要求2所述的肽段测序方法，其特征在于，所述质谱峰信息融合编码模块包括质谱峰编码模块、局部与全局质谱特征编码模块、质谱峰融合编码模块和多个编码器；

4.根据权利要求2所述的肽段测序方法，其特征在于，所述基于所述质谱峰融合嵌入特征进行初始预测，获得所述待测序肽段的氨基酸预测结果，包括：

5.根据权利要求2所述的肽段测序方法，其特征在于，所述氨基酸预测结果包括所述待测序肽段的多个氨基标识符和每一所述氨基标识符的预测置信度；

6.根据权利要求2所述的肽段测序方法，其特征在于，所述肽段测序模型采用预设损失函数进行训练；

7.一种肽段测序装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述肽段测序方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述肽段测序方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述肽段测序方法。

...

【技术特征摘要】

1.一种肽段测序方法，其特征在于，包括：

2.根据权利要求1所述的肽段测序方法，其特征在于，所述肽段测序模型包括质谱峰信息融合编码模块、半自回归解码模块和掩码优化解码模块；

4.根据权利要求2所述的肽段测序方法，其特征在于，所述基于所述质谱峰融合嵌入特征进行初始预测，获得所述待测序肽段的氨基酸预测结果，包括：

5.根据权利要求2所述的肽段测序方法，其特征在于，所述氨基酸预测结果包括所述待测序肽段的多个氨基标识符和每一所述氨基标识符的预测置信...

【专利技术属性】
技术研发人员：赵洋，黄金泽，廖焕玥，孟波，安冬，位耀光，方向，戴新华，
申请(专利权)人：中国计量科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人