System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及蛋白质功能预测领域,具体而言,涉及一种多模态蛋白质功能预测方法及预测系统。
技术介绍
1、随着高通量技术的发展,公共数据库中的蛋白质序列数量呈指数增长,但只有少部分蛋白质序列经过了实验性的功能注释。随着新发现的蛋白质数量与已知功能蛋白质数量之间的差距不断扩大,可靠的计算预测方法变得越来越重要。准确预测蛋白质功能不仅有助于理解其在疾病发生机制中的作用和元基因组的功能,还能够帮助发现潜在的药物靶标。
2、尽管蛋白质序列存在差异,但具有相似结构的蛋白质可能具有相似的功能。因此,纯粹基于序列的单模态方法在处理完全新颖且没有任何注释的蛋白质序列时表现不佳,并且在能够处理的蛋白质序列长度上存在限制。尽管现有的多模态方法在一定程度上提升了蛋白质功能预测的性能,但它们通常依赖于难以获取的其他模态数据,如蛋白质-蛋白质相互作用网络或蛋白质结构数据。与拥有数千万条数据的蛋白质序列数据库相比,这些其他模态的数据十分稀缺,例如蛋白质-蛋白质相互作用网络数据通常只有几万条甚至更少。这种数据稀缺性严重限制了现有多模态方法应用的广泛性和范围。
3、有鉴于此,特提出本专利技术。
技术实现思路
1、有鉴于此,本专利技术提出了一种多模态蛋白质功能预测方法及预测系统,该方法仅依赖于蛋白质序列数据来生成多模态特征,并结合了图注意力网络和大规模预训练模型的蛋白质功能预测方法,有效整合了结构信息、序列特征和残基水平嵌入,减少了对难以获取或不存在的多模态数据的依赖,同时捕捉多模态数据提供的
2、具体地,本专利技术是通过以下技术方案实现的:
3、本专利技术提供了一种多模态蛋白质功能预测方法,包括如下步骤:
4、将蛋白质序列数据经过一维卷积层和池化层处理,提取蛋白质序列中的局部依赖特征,捕捉蛋白质中的模式和关键序列特征;
5、以蛋白质序列数据作为输入,使用大规模预训练蛋白质语言模型提取蛋白质序列中残基级别的嵌入信息作为节点特征应用于接触图;
6、以蛋白质序列数据作为输入,基于cb-cb距离预测蛋白质残基之间接触的概率,构建接触图;
7、使用多头注意力机制和残差结构对不同模态的特征进行联合处理,通过特征融合整合来自不同模态的数据,融合提取到的所述关键序列特征、所述残基级别嵌入信息和所述接触图;
8、在融合后的特征表示中,采用图注意力网络进行处理,所述图注意力网络的输出为每个节点生成新的特征表示,采用加权求和的方式融合邻居节点的信息,然后通过全局池化层得到固定长度的全局特征向量,最后通过全连接层和softmax激活函数计算每个gene ontology术语的概率,进行蛋白质功能预测。
9、本专利技术除了提供了一种多模态蛋白质功能预测方法,还提供了一种多模态蛋白质功能预测系统,包括:
10、提取特征模块:用于将蛋白质序列数据经过一维卷积层和池化层处理,提取蛋白质序列中的局部依赖特征,捕捉蛋白质中的模式和关键序列特征;
11、提取嵌入信息模块:用于以蛋白质序列数据作为输入,使用大规模预训练蛋白质语言模型提取蛋白质序列中残基级别的嵌入信息作为节点特征应用于接触图;
12、构建接触图模块:用于以蛋白质序列数据作为输入,基于cb-cb距离预测蛋白质残基之间接触的概率,构建接触图;
13、融合模块:用于使用多头注意力机制和残差结构对不同模态的特征进行联合处理,通过特征融合整合来自不同模态的数据,融合提取到的所述关键序列特征、所述残基级别嵌入信息和所述接触图;
14、特征表示模块:用于在融合后的特征表示中,采用图注意力网络进行处理,所述图注意力网络的输出为每个节点生成新的特征表示,采用加权求和的方式融合邻居节点的信息,然后通过全局池化层得到固定长度的全局特征向量,最后通过全连接层和softmax激活函数计算每个gene ontology术语的概率,进行蛋白质功能预测。
15、总之,本专利技术的方案具有如下有益效果:
16、1)本专利技术的预测方法减少对难以获取或不存在的多模态数据的依赖:现有的多模态蛋白质功能预测方法往往依赖于蛋白质-蛋白质相互作用网络数据或者蛋白质的结构数据,这些数据获取成本高且在大量蛋白质中缺失。相比之下,本专利技术仅依赖于蛋白质序列数据,而序列数据在公共数据库中数量庞大且易于获取。因此,本方案极大地拓宽了预测模型的应用范围,使其能适用于更多未注释的蛋白质序列。
17、2)本专利技术的预测方法有效整合多模态特征,提升预测精度:通过一维卷积神经网络提取蛋白质序列的局部依赖特征,结合esm2大模型生成的残基级别嵌入,可以捕捉蛋白质序列中深层次的进化信息。同时,通过raptorx生成的接触图提供了序列推导的结构信息,这些特征有效地补充了传统单一序列预测方法的局限性。在图注意力网络中,模态融合进一步提升了模型的表现力,使模型能够捕捉残基间的复杂相互作用,增强了预测精度。
18、3)本专利技术的预测方法兼顾模型的广泛性和性能:整个方法只需要依赖序列数据就可生成多模态特征数据,相比于单一使用序列信息的传统方法,本技术方案在捕捉蛋白质功能时能够获得更加全面的特征表示,进而提升了预测性能。同时,由于不依赖其他稀缺模态数据,该方法在实际应用中具有更高的适用性。
19、4)本专利技术的预测方法能够处理多达2000个氨基酸的蛋白质,覆盖了uniprot数据库中超过99%的序列。这一增强使我们的模型在实际应用中更加灵活和实用,能够捕捉更多的功能域和结构信息,同时避免了由于序列分段所导致的信息丢失。
本文档来自技高网...【技术保护点】
1.一种多模态蛋白质功能预测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的多模态蛋白质功能预测方法,其特征在于,所述关键序列特征表示为:
3.根据权利要求1所述的多模态蛋白质功能预测方法,其特征在于,使用大规模预训练蛋白质语言模型提取蛋白质序列中残基级别的嵌入信息采用如下公式:
4.根据权利要求1所述的多模态蛋白质功能预测方法,其特征在于,构建接触图的方法包括如下步骤:
5.根据权利要求2所述的多模态蛋白质功能预测方法,其特征在于,所述特征融合整合来自不同模态的数据的方法包括:联合注意力的步骤和特征融合的步骤,所述联合注意力步骤包含一个多头联合注意力模块和两个全连接前馈层,其公式如下:
6.根据权利要求5所述的多模态蛋白质功能预测方法,其特征在于,所述特征融合步骤的方法包括:
7.根据权利要求5所述的多模态蛋白质功能预测方法,其特征在于,采用图注意力网络进行处理的方法包括:
8.采用权利要求1-7任一项所述的多模态蛋白质功能预测方法的预测系统,其特征在于,包括:
9.一种计
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述多模态蛋白质功能预测方法的步骤。
...【技术特征摘要】
1.一种多模态蛋白质功能预测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的多模态蛋白质功能预测方法,其特征在于,所述关键序列特征表示为:
3.根据权利要求1所述的多模态蛋白质功能预测方法,其特征在于,使用大规模预训练蛋白质语言模型提取蛋白质序列中残基级别的嵌入信息采用如下公式:
4.根据权利要求1所述的多模态蛋白质功能预测方法,其特征在于,构建接触图的方法包括如下步骤:
5.根据权利要求2所述的多模态蛋白质功能预测方法,其特征在于,所述特征融合整合来自不同模态的数据的方法包括:联合注意力的步骤和特征融合的步骤,所述联合注意力步骤包含一个多头联合注意力模块和两个全连接前馈层,其公式如下:
6.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。