基于图注意机制的肽序列标签鉴定方法技术

技术编号:38988727 阅读:9 留言:0更新日期:2023-10-07 10:19
本公开实施例中提供了一种基于图注意机制的肽序列标签鉴定方法,属于生物信息学技术领域,具体包括:对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;通过卷积神经网络模块进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。通过本公开的方案,提高了计算效率、精准度和适应性。度和适应性。度和适应性。

【技术实现步骤摘要】
基于图注意机制的肽序列标签鉴定方法


[0001]本公开实施例涉及生物信息学
,尤其涉及一种基于图注意机制的肽序列标签鉴定方法。

技术介绍

[0002]在蛋白质组学中,基于肽序列标签的数据库搜索算法是de novo方法和数据库搜索算法的结合,是蛋白质组学中利用串联质谱数据鉴定蛋白质的关键技术。利用de novo方法得到局部肽序列,再利用该序列进行数据库搜索,最终确定蛋白质序列。
[0003]随着蛋白质组数据库的不断扩充和质谱数据量的急剧增加,需要鉴定的氨基酸序列数量也随之增多。目前,已有的鉴定方法已无法满足研究人员的需求。
[0004]目前存在着两种主要的蛋白质鉴定方法:基于数据库搜索和从头测序。然而,这些方法都存在一些缺陷。
[0005]数据库搜索方法:严重依赖于蛋白质数据库的正确性,无法鉴定出翻译后修饰的蛋白质,并且由于搜索空间大,计算时间很长。
[0006]从头测序方法:不依赖数据库,需要高质量的MS/MS谱,不能有效分辨图谱中信号模糊区域的x型离子和y型离子,可靠性较低。
[0007]肽序列标签方法:能有效地处理数据库规模过大和蛋白质的翻译后修饰等问题。不能根据每个实验谱信息生成准确的序列标签。
[0008]可见,亟需一种计算效率和适应性高的基于图注意机制的肽序列标签鉴定方法。

技术实现思路

[0009]有鉴于此,本公开实施例提供一种基于图注意机制的肽序列标签鉴定方法,至少部分解决现有技术中存在计算效率和适应性较差的问题。
[0010]本公开实施例提供了一种基于图注意机制的肽序列标签鉴定方法,包括:
[0011]步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;
[0012]步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;
[0013]步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;
[0014]步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;
[0015]步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
[0016]根据本公开实施例的一种具体实现方式,所述步骤1具体包括:
[0017]步骤1.1,筛除二级质谱图中排名在规定谱峰数量之外的谱峰;
[0018]步骤1.2,对于一个已知母体质量M的二级质谱图A中的质量峰值F,获取其质量顶点;
[0019]步骤1.3,合并在间距精度η以内的的顶点,并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点;
[0020]步骤1.4,当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来,并记录该边质量对应的所有可能的氨基酸或氨基酸组合,重复该操作直到遍历完所有顶点将二级质谱转换为有向无环图,建立谱峰连接图;
[0021]步骤1.5,利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到N条蛋白质长序列;
[0022]步骤1.6,通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。
[0023]根据本公开实施例的一种具体实现方式,所述步骤2具体包括:
[0024]步骤2.1,将候选序列标签作为输入,利用预训练模型提取候选肽序列标签集T中的候选序列标签嵌入向量;
[0025]步骤2.2,将候选肽序列标签集T中所有候选序列标签进行步骤2.1的操作,形成标签嵌入矩阵;
[0026]步骤2.3,采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放,得到缩放后的标签嵌入矩阵;
[0027]步骤2.4,根据缩放后的标签嵌入矩阵构建标签图;
[0028]步骤2.5,利用图注意网络获取标签图中顺序相关性增强的标签特征。
[0029]根据本公开实施例的一种具体实现方式,所述步骤3具体包括:
[0030]步骤3.1,遍历谱峰连接图,得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵,然后将所有矩阵相加得到当前谱的特征矩阵;
[0031]步骤3.2,通过卷积神经网络模块对特征矩阵进行特征提取;
[0032]步骤3.3,将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性。
[0033]根据本公开实施例的一种具体实现方式,所述步骤3.3具体包括:
[0034]步骤3.3.1,使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中,计算公式为x
k2
=f1×1(x
k
),f1×1(
·
)为卷积核大小为1x1的卷积层;
[0035]步骤3.3.2,利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对得到的特征进行处理,从而得到特征向量其中,计算公式为x
k3
=f
pool
(f
group
(x
k2
)),f
group
(
·
)为分组卷积运算,f
pool
(
·
)为全局最大池化层,将特征向量x
k3
分为g组,每组特征中包含C2/g个特征,此时
[0036]步骤3.3.3,计算每对通道特征和的相关边,得到边集相关矩阵E
c
,从而构建通道相关图G
c
(V
c
,E
c
),然后利用图注意网络学习节点之间的相关性,得到特征其公式为x
k4
=GAT(G
c
);
[0037]步骤3.3.4,将特征x
k4
和特征x
k2
相乘,然后将输出结果与特征x
k2
相加,得到最终结
果特征x
k2
'作为蛋白质序列的组成相关性。
[0038]根据本公开实施例的一种具体实现方式,所述步骤4具体包括:
[0039]步骤4.1,调整标签注意力模块和通道注意力模块的输出特征大小,得到新的特征向量,利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系,得到肽标签关系特征;
[0040]步骤4.2,使用softmax函数对肽标签关系特征S在所有元素上进行归一化,然后利用哈达玛积得到肽标签关系增强特征;
[0041]步骤4.3,通过两层全连接层,生成最终的预测向量作为肽序列标签,并使用交叉熵损失函数训练整个模型。
[0042]根据本公开实施例的一种具体实现方式,所述步骤5具体包括:
[0043]步骤5.1,根据母体质荷比初步搜索出符合质量的蛋白质,再将肽序列标签对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意机制的肽序列标签鉴定方法,其特征在于,包括:步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:步骤1.1,筛除二级质谱图中排名在规定谱峰数量之外的谱峰;步骤1.2,对于一个已知母体质量M的二级质谱图A中的质量峰值F,获取其质量顶点;步骤1.3,合并在间距精度η以内的的顶点,并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点;步骤1.4,当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来,并记录该边质量对应的所有可能的氨基酸或氨基酸组合,重复该操作直到遍历完所有顶点将二级质谱转换为有向无环图,建立谱峰连接图;步骤1.5,利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到N条蛋白质长序列;步骤1.6,通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。3.根据权利要求2所述的方法,其特征在于,所述步骤2具体包括:步骤2.1,将候选序列标签作为输入,利用预训练模型提取候选肽序列标签集T中的候选序列标签嵌入向量;步骤2.2,将候选肽序列标签集T中所有候选序列标签进行步骤2.1的操作,形成标签嵌入矩阵;步骤2.3,采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放,得到缩放后的标签嵌入矩阵;步骤2.4,根据缩放后的标签嵌入矩阵构建标签图;步骤2.5,利用图注意网络获取标签图中顺序相关性增强的标签特征。4.根据权利要求3所述的方法,其特征在于,所述步骤3具体包括:步骤3.1,遍历谱峰连接图,得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵,然后将所有矩阵相加得到当前谱的特征矩阵;步骤3.2,通过卷积神经网络模块对特征矩阵进行特征提取;步骤3.3,将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性。5.根据权利要求4所述的方法,其特征在于,所述步骤3.3具体包括:步骤3.3.1,使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量
其中,计算公式为x
k2
=f1×1(x
k
),f1×1(
·
)为卷积核大小为1x1的卷积层;步骤3.3.2,利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对...

【专利技术属性】
技术研发人员:李闯刘纯洋李小龙何典黄华王和诗
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1