System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于序列模态和图模态的药物靶标亲和力预测方法技术_技高网

基于序列模态和图模态的药物靶标亲和力预测方法技术

技术编号:43589707 阅读:4 留言:0更新日期:2024-12-11 14:41
本发明专利技术提出了一种基于图模态与序列模态的药物靶标亲和力预测方法,旨在解决单模态局限性及现存图神经网络的局部与整体结构捕捉问题,并实现多模态特征融合。方法包括:数据预处理,将蛋白质序列及分子SMILES序列转换成Graph形式;图模态和序列模态特征提取,分别设计特征提取模块;多模态特征融合,通过特定模块进行特征融合;利用深度神经网络(DNN)进行回归预测。在模型训练中,通过优化参数和结构提高预测性能,并进行对比实验验证,展示了可靠性,表明其在药物研发中的应用潜力。

【技术实现步骤摘要】

本专利技术涉及生物领域与计算机领域


技术介绍

1、药物靶点亲和力预测在药物设计和优化中扮演着关键的角色。通过预测药物分子与靶点结构之间的亲和力,药物研发人员能够有针对性地设计和优化药物分子的结构,以提高其亲和力和药效。药物靶点亲和力预测的准确性和可靠性的提升,使药物研发人员能够更加高效地筛选出具有较高亲和力的候选药物分子,从而减少实验成本和提高筛选效率。这种计算辅助的方法为药物发现和优化的过程带来了革命性的变化,加速了药物研发的进展。

2、在药物研发的早期阶段,药物靶点的选择通常基于经验和试错的方法。然而,这种方法耗时且昂贵,并且无法充分利用大量的生物信息学数据和化学信息学数据。因此,研究人员开始利用计算模型和算法来预测药物与靶点之间的相互作用。

3、分子对接是药物靶点亲和力预测中常用的方法之一。它模拟药物分子与靶点分子之间的结合过程,通过计算预测亲和力的强弱。分子对接方法可以根据药物和靶点的结构信息,预测它们之间的相互作用方式和结合能力,从而评估药物的亲和力。此外,药物分子的三维结构构建和模拟也是药物靶点亲和力预测的重要手段。通过计算模型和算法,可以预测药物分子在靶点结构中的空间构型和稳定性,从而预测它们之间的亲和力。

4、随着机器学习和深度学习等技术的快速发展,这些方法也在药物靶点亲和力预测中得到广泛应用。通过训练模型,利用已知的药物-靶点相互作用数据,可以学习到药物结构和靶点特征之间的关联规律,并用于预测未知的药物-靶点相互作用。

5、目前,基于深度学习的dtis预测方法主要分为基于序列的方法和基于图的方法。基于序列的方法,药物化合物和蛋白质的一维序列嵌入作为输入。smiles字符序列用来表征化合物分子,然后简单的将smiles字符序列和蛋白质序列转换为one-hot编码,进而使用cnn或者rnn从中提取特征。然而使用smiles字符序列表征化合物分子并不能充分的包含分子的物理化学性质以及分子的几何结构。cnn可以提取氨基酸的局部特征,然后堆叠多层cnn压缩特征向量的维度,达到提取全局信息的目的,然而这样可能会丢失一部分全局信息rnn在提取长距离序列特征的时候可能会发生梯度消失,从而无法兼顾序列中距离较长的氨基酸残基之间的相互关系。并且蛋白质的一维表示没有结构表示。基于图的方法,是将药物分子图被用作药物表征,为了充分利用蛋白质的结构信息,可以利用接触图构建蛋白质图,并将氨基酸作为蛋白质图的节点。然而,目前基于图的方法将药物和蛋白质视为独立的图,它们的特征通常仅通过gnn提取。值得注意的是,药物和蛋白质图中的节点特征只是人为选择了一些原子和氨基酸性质,使得各个dti模型缺乏泛化。

6、基于图的方法之中,浅层的dtis预测模型开发的很完善,并且在各种数据集上显示出了良好的性能。但是依然存在一系列的问题,比如层数少的gnns不足以捕捉化合物的整体结构。为了捕获图的全局结构,图的卷积层应该被深度堆叠。具体来说,为了捕获由k-hop邻许多基于居组成的结构,应该堆叠k个图卷积层然而,由于过度平滑和梯度消失的问题,目前构建gnn的深层结构是不可行的。因此,大多数最先进的(sota)gnn模型的深度不超过3或4层。克服gnn深度限制的方法,以更好地捕捉化合物的全局结构,并改进模型以更准确地保存和利用分子的局部结构信息。这有望进一步提高基于图的dtis预测模型的性能和泛化能力。

7、不论是基于序列的方法还是基于图的方法,大多数药物-靶标相互作用的深度学习模型只是简单的将化合物和蛋白质的特征向量连接起来,以模拟它们的相互作用,缺乏可解释性。这些方法忽略了化合物之中的原子和蛋白质之间的氨基酸产生的分子间相互作用对亲和力的贡献。


技术实现思路

1、本专利技术的目的在于:解决在药物蛋白质亲和力预测之中所存在的三个问题,即单模态的局限性、现存的图神经捕捉化合物的局部与整体结构、完成多模态的特征融合。

2、为了解决上述3个问题,本专利技术提出了一种基于图模态和序列模态的药物靶标亲和力预测方法。本专利技术的构思是:首先通过对于药物和蛋白质的预处理将具有空间结构的graph格式和一维序列信息同时送入模型之中。之后就通过图模态特征提取和序列模态特征提取完成对药物和蛋白质模态的特征学习。最后,将药物靶标对的特征进行融合后输入到dnn中,以预测药物靶标的亲和力数值。

3、根据上述专利技术构思,本专利技术采用下述技术方案:

4、a.数据预处理:通过数据预处理将蛋白质序列以及分子的smiles序列转换成模型能识别到的graph形式,并且完成将序列进行编译使得计算机可以处理序列。

5、b.图模态的特征提取:根据分子graph以及蛋白质graph的性质分别设计图模态的特征提取模块。

6、c.序列模态的特征提取:由于都是序列的数据输入,因此这一部分使用的特征提取模块是一样的。

7、d.多模态特征融合:由于是不同的特征提取模块所提取的特征,如果只是对其进行简单的拼接模拟它们的相互作用,缺乏可解释性。因此需要设计出一个模块来将其进行融合。

8、e.使用深度神经网络(dnn)进行回归预测:融合药物靶标的多模态特征,应用dnn进行药物靶标亲和力的回归预测。

9、在模型训练的同时,使用对其性能进行优化,以确保模型在预测分子与蛋白质相互作用方面具有高度的可靠性和有效性。通过不断调整模型的参数和结构,以及优化训练过程中的损失函数,可以提高模型的性能并使其更加适应具体的预测任务。这种综合性的方法有助于确保模型在药物发现和生物信息学领域取得更好的预测结果。并与多个预测网络进行对比实验。同时还将所提出的模型应用于阿尔茨海默病相关蛋白质的高亲和力药物再利用案例。从fda批准的药物库中筛选出来的药物与抗阿尔兹海默症药物库的药物有部分重叠,此案例表明了本文模型在药物研发中的具有一定程度的可靠性,并为将预测亲和力的深度学习模型应用在实际疾病的高亲和力的药物寻找提供了一个使用案例,同时也证明了本文的模型可以帮助药物研发人员对于疾病的高亲和力药物或先导化合物的寻找,并提供参考。具体流程如图1所示。

10、本专利技术与现有技术相比,具有以下突出的实质性特点和显著优点:由于单一模态数据所包含的信息量有限,本专利技术提出使用序列和结构两种模态数据分别对药物和蛋白质进行表示学习。具体来说,对于序列编码器,采用transformer架构进行处理。并且采用了预训练模型,这样即使在数据量较小的情况下,这种方法也能够学习到高质量的序列特征。对于graph数据,由于不同的两个数据采用不用的图特征提取模块,这有助于传递不同类型的相互作用信息,从而进一步获得具有更高区分度的图节点特征。

本文档来自技高网...

【技术保护点】

1.一种用于预测药物-靶点亲和性的方法,包括以下步骤:

2.根据权利要求1所述的方法,其中所述预处理步骤包括将分子化合物的SIMLES进行预处理。其数据预处理的步骤如下:

3.根据权利要求1所述的方法,其中所述预处理步骤包括将蛋白质序列进行数据编码。其数据预处理的步骤如下:

4.根据权利要求1所述方法,利用GINE神经网络提取药物图的局部信息;利用GraphTransformer模型提取药物图的全局信息;利用门控跳链接图注意力机制网络提取靶点图的信息。

5.根据权利要求1所述方法,利用Transformer模型提取药物和靶点的序列信息。

6.根据权利要求1所述方法,使用多模态融合模块图模态和序列模态所提取药物特征和蛋白质特征的向量进行融合。

7.根据权利要求1所述方法,将融合药物靶标对的特征送入深度神经网络(DNN)进行药物靶标亲和力的回归预测。

【技术特征摘要】

1.一种用于预测药物-靶点亲和性的方法,包括以下步骤:

2.根据权利要求1所述的方法,其中所述预处理步骤包括将分子化合物的simles进行预处理。其数据预处理的步骤如下:

3.根据权利要求1所述的方法,其中所述预处理步骤包括将蛋白质序列进行数据编码。其数据预处理的步骤如下:

4.根据权利要求1所述方法,利用gine神经网络提取药物图的局部信息;利用graphtransform...

【专利技术属性】
技术研发人员:蒋林华徐家豪张冠华龙伟胡灵犀慈磊
申请(专利权)人:湖州师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1