基于标签指导的蛋白质作用关系预测方法技术

技术编号:35270386 阅读:11 留言:0更新日期:2022-10-19 10:40
本发明专利技术具体涉及基于标签指导的蛋白质作用关系预测方法,包括:获取待预测的一对待测蛋白质;将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测;将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果。本发明专利技术能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性,从而能够提高蛋白质作用关系的预测效果。作用关系的预测效果。作用关系的预测效果。

【技术实现步骤摘要】
基于标签指导的蛋白质作用关系预测方法


[0001]本专利技术涉及生物信息与自然语言处理
,具体涉及基于标签指导的蛋白质作用关系预测方法。

技术介绍

[0002]蛋白质间的相互作用在广泛的生物过程中起着关键作用,如DNA复制、转录、翻译和跨膜信号转导等。因此,检测蛋白质作用关系(Protein

protein Interactions,PPIs)和蛋白质作用关系的类型对了解正常和疾病状态下的细胞生物学过程至关重要,这类研究也有助于治疗靶点的识别和新药物的设计等。在早期的蛋白质作用关系研究工作中,使用的是基于实验室的方法,主要包括酵母双杂交筛选、蛋白质芯片和质谱蛋白复合物鉴定等。实验室的实验通常耗时且劳动密集,导致蛋白质作用关系的识别效率低下,同时由于实验室实验的限制,基于实验室的方法生成的蛋白质作用关系数据不完整。
[0003]现有关于深度学习算法的蛋白质作用关系预测研究工作,主要使用卷积神经网络(Convolution Neural Network,CNN)提取蛋白质的局部特征或使用循环神经网络(Recurrent Neural Network,RNN)用来保存上下文的长距离依赖信息。然而,这类深度学习算法仍存在许多问题,如不能有效地过滤和聚集蛋白质的局部特征,难以同时保留重要的上下文和序列的氨基酸信息,没有利用蛋白质对之间的相互影响等。随着图神经网络(Graph Neural Network,GNN)的发展,现有技术开始通过构造蛋白质作用网络图,并引入图神经网络进行预测。这种方法不仅考虑到了蛋白质对之间的影响,而且能够通过蛋白质对之间的关系增强自身的特征表示,进一步提升了蛋白质作用关系预测的效果。
[0004]然而,申请人在实际研究中发现,现有基于图神经网络实现蛋白质作用关系预测的方法仅基于原始的数据集构造蛋白质作用网络图及蛋白质特征表示,未对原始数据集进行充分地探索,导致蛋白质特征表示的泛化能力不足,进而导致蛋白质作用关系预测的效果不好。同时,蛋白质之间往往存在多种作用关系,这些作用关系可能存在相互关联的信息,而现有基于图神经网络实现蛋白质作用关系预测的方法未考虑蛋白质之间相互关联的信息,导致蛋白质作用关系预测模型的分类准确性不足。因此,如何设计一种能够提高蛋白质特征表示泛化能力和预测模型分类准确性的方法是亟需解决的技术问题。

技术实现思路

[0005]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种基于标签指导的蛋白质作用关系预测方法,以能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性,从而能够提高蛋白质作用关系的预测效果,进而能够更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
[0006]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0007]基于标签指导的蛋白质作用关系预测方法,包括以下步骤:
[0008]S1:获取待预测的一对待测蛋白质;
[0009]S2:将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;
[0010]所述预测模型首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测,进而输出对应的预测关系;
[0011]S3:将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果,进而基于蛋白质作用关系预测结果分析待测蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
[0012]优选的,步骤S2中,预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块,用于进行数据增强、图神经网络处理和对比学习的多尺度图神经网络模块,用于学习标签之间关系的自学习标签关系图模块,以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。
[0013]优选的,步骤S2中,通过如下步骤训练预测模型:
[0014]S201:获取用于训练的一对蛋白质并输入预测模型中;
[0015]S202:通过蛋白质特征编码器模块提取蛋白质的局部特征和全局特征,得到具有局部信息和全局信息的蛋白质特征表示;
[0016]S203:基于蛋白质特征表示构建蛋白质作用关系的原始图;通过多尺度图神经网络模块对原始图进行扰动得到对应的扰动图;然后将原始图和扰动图输入图神经网络中,输出原始节点特征表示和扰动节点特征表示,即多尺度的蛋白质特征表示;再通过对比学习的方式融合原始节点特征表示和扰动节点特征表示得到融合节点特征表示;最后通过融合节点特征表示计算得到融合边特征表示;
[0017]S204:通过自学习标签关系图模块获取标签名称嵌入表示,并构建标签关系图;然后将标签关系图输入图卷积神经网络中,输出标签节点特征表示;
[0018]S205:通过标签节点特征表示修正融合边特征表示,得到蛋白质关系图连边特征表示;
[0019]S206:多标签损失计算模块通过原始节点特征表示和扰动节点特征表示进行自监督学习,得到自监督学习损失函数;然后通过蛋白质关系图连边特征表示进行监督学习,得到监督学习损失函数;最后基于自监督学习损失函数和监督学习损失函数计算得到训练损失函数,进而通过训练损失函数优化和更新预测模型的参数;
[0020]S207:重复执行步骤S201至S206,直至预测模型收敛。
[0021]优选的,步骤S202中,蛋白质特征编码器模块包括局部特征编码器和全局特征编码器;
[0022]局部特征编码器包括卷积神经网络和最大池化层,通过如下公式提取输入的蛋白质中的局部特征表示h
i

[0023]h
i
=f
GMP
(f
CNN
(p
i
;θ
CNN
));
[0024][0025]式中:f
CNN
表示卷积操作;f
GMP
表示最大池化层操作;表示蛋白质集合;表示定义的氨基酸词表;a
j
表示氨基酸词表中的氨基酸;θ
CNN
表示卷积操作的训练参
数;
[0026]全局特征编码器包括双向门控循环单元和全局平均池化层,通过如下公式提取输入的局部特征表示h
i
中的全局特征表示,得到具有局部信息和全局信息的蛋白质特征表示x
i
∈X;
[0027]x
i
=f
GAP
(f
BiGRU
(h
i
;θ
BiGRU
));
[0028]式中:f
BiGRU
表示双向门控循环操作;f
GAP
表示全局平均池化层操作;θ
BiGRU
表示双向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于标签指导的蛋白质作用关系预测方法,其特征在于,包括以下步骤:S1:获取待预测的一对待测蛋白质;S2:将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;所述预测模型首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测,进而输出对应的预测关系;S3:将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果,进而基于蛋白质作用关系预测结果分析待测蛋白质所属主体在正常和疾病状态下的细胞生物学过程。2.如权利要求1所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S2中,预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块,用于进行数据增强、图神经网络处理和对比学习的多尺度图神经网络模块,用于学习标签之间关系的自学习标签关系图模块,以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。3.如权利要求2所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S2中,通过如下步骤训练预测模型:S201:获取用于训练的一对蛋白质并输入预测模型中;S202:通过蛋白质特征编码器模块提取蛋白质的局部特征和全局特征,得到具有局部信息和全局信息的蛋白质特征表示;S203:基于蛋白质特征表示构建蛋白质作用关系的原始图;通过多尺度图神经网络模块对原始图进行扰动得到对应的扰动图;然后将原始图和扰动图输入图神经网络中,输出原始节点特征表示和扰动节点特征表示,即多尺度的蛋白质特征表示;再通过对比学习的方式融合原始节点特征表示和扰动节点特征表示得到融合节点特征表示;最后通过融合节点特征表示计算得到融合边特征表示;S204:通过自学习标签关系图模块获取标签名称嵌入表示,并构建标签关系图;然后将标签关系图输入图卷积神经网络中,输出标签节点特征表示;S205:通过标签节点特征表示修正融合边特征表示,得到蛋白质关系图连边特征表示;S206:多标签损失计算模块通过原始节点特征表示和扰动节点特征表示进行自监督学习,得到自监督学习损失函数;然后通过蛋白质关系图连边特征表示进行监督学习,得到监督学习损失函数;最后基于自监督学习损失函数和监督学习损失函数计算得到训练损失函数,进而通过训练损失函数优化和更新预测模型的参数;S207:重复执行步骤S201至S206,直至预测模型收敛。4.如权利要求3所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S202中,蛋白质特征编码器模块包括局部特征编码器和全局特征编码器;局部特征编码器包括卷积神经网络和最大池化层,通过如下公式提取输入的蛋白质中的局部特征表示h
i
;h
i
=f
GMP
(f
CNN
(p
i
;θ
CNN
));
式中:f
CNN
表示卷积操作;f
GMP
表示最大池化层操作;表示蛋白质集合;表示定义的氨基酸词表;a
j
表示氨基酸词表中的氨基酸;θ
CNN
表示卷积操作的训练参数;全局特征编码器包括双向门控循环单元和全局平均池化层,通过如下公式提取输入的局部特征表示h
i
中的全局特征表示,得到具有局部信息和全局信息的蛋白质特征表示x
i
∈X;x
i
=f
GAP
(f
BiGRU
(h
i
;θ
BiGRU
));式中:f
BiGRU
表示双向门控循环操作;f
GAP
表示全局平均池化层操作;θ
BiGRU
表示双向门控循环操作的训练参数;X表示基于蛋白质特征编码器模块得到的蛋白质特征表示。5.如权利要求3所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S203中,定义原始图G=(X,A),节点特征和邻接矩阵1)多尺度图神经网络模块首先通过两个不同的视角应用随机图数据增强函数和分别对原始图G=(X,A)的连边和节点特征进行扰动,得到第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A);,A);,A);v1~Bernoulli(N,1

δ1););式中:∈1表示基于超参数δ1∈(0,1)得到的N伯努利分布结果;表示基于第一扰动图G1=(X,A1)通过图数据增强函数得到的蛋白质特征表示;表示原始图的连边集合;Bernoulli表示伯努利分布;δ1∈(0,1)是超参数,表示删除连边的...

【专利技术属性】
技术研发人员:朱小飞王新生
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1