System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法技术_技高网
当前位置: 首页 > 专利查询>河南大学专利>正文

一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法技术

技术编号:40432037 阅读:12 留言:0更新日期:2024-02-22 22:58
本发明专利技术公开了一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,对于给定的蛋白质氨基酸序列,该方法首先采用预训练的蛋白质语言模型生成富含生物信息的嵌入特征,然后采用融合注意力机制的全维度动态卷积网络直接预测扭转角。特别地,通过使用全维度动态卷积,设计的预测网络能够同时学习空间维度、输入通道维度和输出通道维度的注意力并因此提升了网络的特征提取能力。此外,由于网络输出的是扭转角而非扭转角的正弦值和余弦值,所以避免了耗时地使用反正切函数arctan计算扭转角。总之,本发明专利技术提出的扭转角预测方法不仅能够基于氨基酸序列进行精确地扭转角预测而且适用于任何预训练的蛋白质语言模型生成的嵌入特征。

【技术实现步骤摘要】

本专利技术属于生物信息学,涉及一种蛋白质扭转角的预测方法,尤其涉及一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法


技术介绍

1、蛋白质是由20种氨基酸构成的生物大分子,其是生物体内必不可少的成分,几乎调节着细胞内的每个生物过程。蛋白质在生物过程中起着至关重要的作用如代谢反应、路径调节等,而蛋白质的生物功能与其三维结构密切相关。许多应用如药物和酶的设计等都需要了解蛋白质的结构才能确定其功能。蛋白质三维结构的确定被称为蛋白质结构预测问题。目前,常用的实验测定蛋白质三维结构的方法有:x射线晶体学、电子显微镜和核磁共振。然而,实验方法极其耗时也非常昂贵。特别地,由于蛋白质测序技术的飞速发展,目前已知的蛋白质序列已经达到了3亿多条,而已知的蛋白质结构数量才20多万。为了缩小序列和结构数据量间的巨大差异,采用可靠和高效的计算方法基于蛋白质的氨基酸序列预测其三维结构及其属性如扭转角、溶剂可及性和超二级结构等已经变得非常迫切。

2、扭转角是蛋白质骨架中连续4个原子形成的二面角,其取值范围为-180度到180度。对于给定的蛋白质,相邻骨架原子之间的键长和角度是固定的,而唯一不确定的只有扭转角。确定了扭转角就可以确定其骨架结构。扭转角决定了蛋白质的整体形状和稳定性,影响蛋白质分子内部的各种相互作用。此外,扭转角与蛋白质的二级结构(特别是螺旋结构和折叠结构)有较高的相关性。特定残基的二面角状态与其序列中的相邻残同样存在很强的相关性。特别地,这种相关性有助于确定蛋白质的局部构象。蛋白质的二级结构是局部骨架结构的粗粒度描述,不同二级结构片段间的边界是不确定的。与二级结构相比,连续值的扭转角能消除边界的不确定性和区分不同的环形构象。总之,精确预测的扭转角不仅可以极大地减少构象搜索的空间并进而帮助重建蛋白质的三维结构,而且还可以应用于改进蛋白质折叠识别和多序列比对[betancourt,m.r.and j.skolnick,local propensities andstatistical potentials of backbone dihedral angles in proteins.journal ofmolecular biology,2004.342(2):p.635-649.]。

3、针对扭转角预测,目前基于神经网络方法已经提出了许多成功的预测算法。根据预测算法采用的模型框架,当前的扭转角预测方法可以粗略地分为两类:基于滑动窗口的预测算法和基于序列到序列的预测算法[hasan,a.,et al.,saint-angle:self-attentionaugmented inception-inside-inception network and transfer learning improveprotein backbone torsion angle prediction.bioinform adv,2023.3(1):p.vbad042.]。然而存在的方法通常采用耗时的多序列比对操作生成的pssm谱特征进行蛋白质表示,并且预测网络输出的是扭转角的正弦值和余弦值而非扭转角,因此需要进一步使用反正切函数arctan计算扭转角。


技术实现思路

1、本专利技术针对现有蛋白质扭转角预测模型采用pssm谱特征进行蛋白质表示和应用反正切函数arctan计算扭转角,耗时较大且预测效果欠佳的问题,提出一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,该方法首先采用预训练的蛋白质语言模型生成富含生物信息的嵌入特征,然后采用融合注意力机制的全维度动态卷积网络直接预测扭转角。本专利技术提出的扭转角预测方法不仅同时避免了使用耗时的多序列比对生成pssm谱特征和使用反正切函数arctan计算扭转角,而且能够仅仅基于氨基酸序列进行精确地扭转角预测。

2、为了实现上述目的,本专利技术采用以下技术方案:

3、一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,包括:

4、步骤1:基于pisces服务器从rcsb pdb蛋白质结构数据库中挑选蛋白质链作为训练数据;

5、步骤2:获取每条蛋白质链的扭转角;

6、步骤3:采用预训练蛋白质语言模型导出的嵌入特征作为蛋白质链的特征表示;

7、步骤4:基于动态卷积设计蛋白质扭转角预测网络架构;

8、步骤5:基于平均绝对误差设计训练蛋白质扭转角预测网络的损失函数;

9、步骤6:优化网络设置并确定最终的扭转角预测模型;

10、步骤7:基于最终的扭转角预测模型进行蛋白质扭转角预测。

11、进一步地,所述步骤1中,蛋白质链的挑选准则是蛋白质结构的分辨率小于最大的r-value是1.0、最大的蛋白质链长度是800、最小的蛋白质链长度是50以及序列一致性的阈值是25%,并删除与测试集中的蛋白质链具有25%以上序列一致性的蛋白质链。

12、进一步地,所述步骤2包括:

13、根据pdbid获取基于mmcif格式的对应结构文件,然后基于dssp程序将结构文件转换为对应的dssp文件,最后基于链id从dssp文件中抽取扭转角信息,对于不能获取扭转角信息的扭转角,将其值设置为nan。

14、进一步地,所述步骤4包括:

15、首先基于全维度的动态1维卷积设计基本构建块,然后基于基本构建块设计蛋白质扭转角预测网络架构。

16、进一步地,所述基本构建块内的处理流程包括:

17、首先沿通道维度将大小为n×c×l的输入张量平均划分为左右两部分,左部分保持不变,右部分送入由卷积核大小为3的动态1维卷积、relu激活函数和归一化层构成的卷积块中,左部分特征张量和卷积块的输出通过通道拼接合成了一个新的大小为n×c×l特征张量,该特征张量依次送入卷积核大小为1的卷积块和dropout层,基本构建块输出的张量大小仍然为n×c×l,其中n表示批处理的大小,c表示通道的维度,l表示批处理中蛋白质链的最大长度。

18、进一步地,所述卷积块中引入了跳跃连接以避免梯度消失和增强训练的稳定性。

19、进一步地,所述蛋白质扭转角预测网络内的处理流程包括:

20、对于给定的蛋白质链,首先将其送入预训练的蛋白质语言模型以获取嵌入特征,然后采用卷积核大小为1的1维卷积将嵌入特征的维度转换为c,接着使用n个堆叠的基本构建块,然后依次通过归一化层、1维卷积、relu函数、1维卷积的处理,再通过hardtanh激活函数将扭转角的输出范围限制在-1和1之间。

21、进一步地,所述损失函数为:

22、

23、其中tijk和yijk分别表示批处理中第i个蛋白质链的第j个残基中的扭转角的真实值和预测值,k等于0表示对应的扭转角是phi,k等于1表示对应的扭转角是psi,表示计算和之间的最小值,n表示批处理的大小,l表示批处理中蛋白质链的最大长度。

24、与现有技术相比,本专利技术具有的有益效果:

本文档来自技高网...

【技术保护点】

1.一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,包括:

2.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述步骤1中,蛋白质链的挑选准则是蛋白质结构的分辨率小于最大的R-value是1.0、最大的蛋白质链长度是800、最小的蛋白质链长度是50以及序列一致性的阈值是25%,并删除与测试集中的蛋白质链具有25%以上序列一致性的蛋白质链。

3.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述步骤2包括:

4.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述步骤4包括:

5.根据权利要求4所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述基本构建块内的处理流程包括:

6.根据权利要求5所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述卷积块中引入了跳跃连接以避免梯度消失和增强训练的稳定性。

7.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述蛋白质扭转角预测网络内的处理流程包括:

8.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述损失函数为:

...

【技术特征摘要】

1.一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,包括:

2.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述步骤1中,蛋白质链的挑选准则是蛋白质结构的分辨率小于最大的r-value是1.0、最大的蛋白质链长度是800、最小的蛋白质链长度是50以及序列一致性的阈值是25%,并删除与测试集中的蛋白质链具有25%以上序列一致性的蛋白质链。

3.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,其特征在于,所述步骤2包括:

4.根据权利要求1所述的一种基于嵌入特征和动态卷积网络的蛋白质扭...

【专利技术属性】
技术研发人员:杨伟张蕾韦书佳
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1