System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多视图多模态表征学习的生物活性肽功能预测方法技术_技高网
当前位置: 首页 > 专利查询>云南大学专利>正文

一种基于多视图多模态表征学习的生物活性肽功能预测方法技术

技术编号:43633917 阅读:20 留言:0更新日期:2024-12-13 12:34
本发明专利技术公开了一种基于多视图多模态表征学习的生物活性肽功能预测方法,包括:利用多尺度膨胀卷积CNN和双向LSTM提取多肽氨基酸序列信息;利用ESM‑2模型提取多肽分子的结构和功能特征;分子指纹信息通过卷积CNN和Mamba结构进行处理;多肽分子图的拓扑信息通过传统的卷积CNN提取,节点特征则通过图卷积神经网络处理。所有这些多视角特征最终通过特征融合成聚合的特征表示,然后通过全连接层并应用sigmoid函数进行多标签分类。通过将提取到的特征最终通过特征拼接和融合,形成一个综合的多肽分子特征表示,以预测多肽的多种生物活性特性。这种多视图、多模态特征集成的方法不仅增强了模型的预测能力,也提高了在处理复杂生物数据时的灵活性和准确性。

【技术实现步骤摘要】

本专利技术涉及生物活性肽功能预测,具体涉及一种基于多视图多模态表征学习的生物活性肽功能预测方法


技术介绍

1、生物活性肽在医学领域的重要性日益凸显,其多样性和特定生物功能使之成为多种生理过程的调节因子,例如免疫调节、促进伤口愈合、抗炎、血压调节,以及作为抗癌、抗糖尿病和抗微生物的潜在治疗方案。这些由短链氨基酸组成的小分子肽通常具有较高的选择性和较低的副作用,被视为开发新型治疗药物的有力候选者。在抗生素耐药性日益严重的今天,具有显著治疗潜力的生物活性肽如amps能有效对抗包括细菌、真菌、病毒在内的多种微生物,作为新型抗感染药物的开发潜力尤为重要。acp通过靶向癌细胞并减少副作用和耐药性,成为癌症治疗的重要研究方向。aip通过调节免疫反应和减轻炎症介质产生,展现出其治疗潜力。adp则通过多种机制调节血糖,被视为糖尿病治疗和健康食品开发的有希望的候选物。最后,ahp作为能通过食物蛋白质分解或生物技术获得的肽,通过其降低血压的效能,被认为是抗高血压药物和功能性食品的理想选择。随着对生物活性肽研究的深入,预期未来它们将在治疗多种疾病中展现更广泛的应用潜力,特别是在传统药物效果不佳或伴有显著副作用的情况下。

2、随着人工智能技术的迅猛发展,基于深度学习的方法已开始取代传统的机器学习技术,特别是在生物活性肽的预测领域。然而,大多数现有模型主要利用多肽氨基酸序列信息,而忽略了多肽分子的结构和功能信息。


技术实现思路

1、本专利技术的目的在于:针对目前存在的上述问题,提供了一种基于多视图多模态表征学习的生物活性肽功能预测方法,通过可视化聚类效果展示了蛋白质大语言模型在多肽预测任务中的有效性,并通过可视化决策树模型的决策过程有效解释了模型如何通过捕捉到生物活性肽的复杂特征来预测其功能。

2、本专利技术的技术方案如下:

3、一种基于多视图多模态表征学习的生物活性肽功能预测方法,构建mvmr-bpf模型,模型特征提取包括以下步骤:

4、构建多肽分子的图结构;

5、多肽氨基酸序列特征提取:利用多尺度膨胀卷积cnn和双向lstm提取多肽氨基酸序列信息;

6、多肽分子图特征提取:采用图卷积神经网络和卷积cnn方法分别从节点特征和拓扑信息不同视角处理分子图信息;

7、残基特征提取:使用esm-2模型从序列中提取残基特征;

8、分子指纹特征提取:采用cnn配合tlu和fru层抓取局部特征,并通过mamba模型捕获长距离依赖性,产生特征向量;

9、融合预测:结合多肽氨基酸序列、分子指纹信息、多肽分子图信息,利用多视图提取不同模态特征,融合信息完成多功能肽预测。

10、进一步地,所述多肽氨基酸序列特征提取具体包括以下步骤:

11、将经过整数编码后表示的多肽氨基酸序列向量,送入序列特征提取模块;

12、通过嵌入层将整数特征向量转换为维度为100的稠密连续特征向量x,特征向量x经过并行的膨胀卷积层;对于每个膨胀卷积层l,x(l)为第l层多肽氨基酸序列特征向量,经过膨胀卷积学习提取:

13、

14、其中,是第l层的卷积核权重,b(l)是偏置项,rl是该层的膨胀率,k是卷积核的大小,max(0,z)表示relu激活函数,对于每层l,膨胀率rl分别为2,4,8;

15、对每个膨胀卷积层输出x(l),应用最大池化操作减少序列维度,保留特征:

16、

17、其中,p(l)[i]是池化操作后的结果,m是池化窗口的大小,s是步长;

18、在每个卷积层l后,使用l2正则化来减少过拟合,表示为:

19、ltotal=l+λ∑l∥w(l)∥2,

20、其中,∥w(l)∥2是第l层卷积核权重的平方和,λ是正则化系数,控制正则化的强度;

21、经过特征融合后的向量为f,在应用dropout层之后得到特征向量结果为f′:

22、f′=f⊙d,

23、其中,⊙表示元素乘法,d是一个随机向量,其元素独立且服从概率p为1表示保留,概率1-p为0表示丢弃;

24、经过膨胀卷积层和dropout处理的特征f′输入到双向lstm层,双向lstm可以捕获序列的前向和后向上下文依赖:

25、h=bilstm(f′),

26、其中,h是双向lstm层的输出,结合序列的前后信息;

27、通过展平操作将h转换为一维向量hflat,并通过全连接层压缩为128维的特征向量x1:

28、x1=relu(wfchflat+bfc),

29、其中,wfc是全连接层的权重,bfc是偏置项,同时应用l2正则化,relu函数用于引入非线性。

30、进一步地,所述残基特征提取具体包括以下步骤:

31、对于输入的多肽氨基酸序列x=(x1,x2,…,xn),其中xi表示序列中的第i个氨基酸,自注意力层的计算过程如下:

32、qi=wqxi,ki=wkxi,vi=wvxi,

33、

34、其中,wq,wk,wv是权重矩阵,dk是键向量的维度,用于缩放点积结果以避免过大的值;

35、在大规模蛋白质序列数据上训练esm-2模型;

36、通过对esm-2模型特定层输出的特征进行平均池化处理,获得维度为1280的整体特征向量y,y作为每个多肽分子氨基酸序列的高维特征表示,包含了多肽分子的结构和功能信息;

37、在mvmr-bpf模型中通过两层全连接层进行进一步的特征提取和降维处理,同时使用dropout层以增强模型的泛化能力,最终得到包含64维的压缩特征向量y1;进一步学习到多肽氨基酸序列的结构和功能特征。

38、进一步地,所述分子指纹特征提取具体包括以下步骤:

39、利用rdkit库从氨基酸序列中同时生成多种分子指纹;

40、通过逐点加和的方法将两种不同的特征指纹f1和f2结合成一个综合特征向量f:

41、f=f1+f2,

42、融合分子指纹特征向量f经过深度卷积网络中进行进一步的特征提取,其中每一个卷积层l后面配置有frn层和tlu激活层;frn层在卷积层l的输出f(l)上进行操作:

43、

44、其中,μ和σ2分别是f(l)的平均值和方差,∈是一个很小的常数以避免除以零,而τ是一个可学习的参数;

45、在frn层之后,tlu激活层增强y(l)向量的非线性特征的表示得到向量z(l):

46、z(l)=max(y(l),α),

47、其中,α是激活阈值,是一个可学习的参数,用于控制激活层的非线性阈值;

48、提取的特征z(l)进入mamba模型进行深入处理;mamba模型包括多个定制的mambablock,每个mambablock内部核心运算可通过以下连续系统的离散化版本本文档来自技高网...

【技术保护点】

1.一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,构建MVMR-BPF模型,模型特征提取包括以下步骤:

2.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述多肽氨基酸序列特征提取具体包括以下步骤:

3.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述残基特征提取具体包括以下步骤:

4.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述分子指纹特征提取具体包括以下步骤:

5.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述多肽分子图特征提取中分子图拓扑信息处理包括以下步骤:

6.根据权利要求1或5所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述多肽分子图特征提取中分子图节点特征处理包括以下步骤:

7.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述融合预测具体包括以下步骤:

8.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述MVMR-BPF模型使用Adam优化器进行训练,其中学习率通过lr参数控制,模型的训练过程采用二元交叉熵作为损失函数,并通过准确率指标来监控训练进度:

9.根据权利要求5所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述网络拓扑统计指标包括节点的平均邻居度、偏心率、聚类系数、节点度数、度中心性、介数中心性以及接近中心性。

10.根据权利要求6所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述化学性质编码的特征向量描述包括原子类型、连接度、隐式价、以及是否为芳香性属性。

...

【技术特征摘要】

1.一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,构建mvmr-bpf模型,模型特征提取包括以下步骤:

2.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述多肽氨基酸序列特征提取具体包括以下步骤:

3.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述残基特征提取具体包括以下步骤:

4.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述分子指纹特征提取具体包括以下步骤:

5.根据权利要求1所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述多肽分子图特征提取中分子图拓扑信息处理包括以下步骤:

6.根据权利要求1或5所述的一种基于多视图多模态表征学习的生物活性肽功能预测方法,其特征在于,所述多肽分子图...

【专利技术属性】
技术研发人员:康雁彭越郑东升姚晟哲凌永军袁虎徐兖声
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1