System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于并行全连接网络的药物与靶点亲合度预测方法技术_技高网
当前位置: 首页 > 专利查询>鲁东大学专利>正文

一种基于并行全连接网络的药物与靶点亲合度预测方法技术

技术编号:44881539 阅读:10 留言:0更新日期:2025-04-08 00:19
本发明专利技术属于生物信息学领域,涉及一种基于并行全连接网络的药物与靶点亲合度预测方法,其中包括深度学习、并行全连接网络,注意力机制等技术。首先,对药物分子序列和蛋白质序列数据进行预处理,使用摩根指纹模型对分子序列进行特征提取,使用预训练蛋白质语言模型ESM‑2对蛋白质序列进行特征提取;其次,分别将处理后的分子序列和蛋白质序列输入到并行全连接网络中进行训练,保存训练好的模型;最后,将需要预测的药物和靶点输入到模型中,计算余弦距离作为预测结果。本发明专利技术提出的方法有效提高了预测药物在靶点蛋白上结合的正确率,促进药物的发现过程。

【技术实现步骤摘要】

本专利技术属于生物信息学领域,涉及一种基于并行全连接网络的药物与靶点亲合度预测方法,其中包括深度学习、并行全连接网络,注意力机制等技术。


技术介绍

1、药物-靶点亲和度预测是药物发现中的关键环节,传统实验方法成本高且耗时长,而现有计算方法如分子对接和机器学习模型在准确性和效率上存在局限;为此,本专利技术提出一种基于并行全连接网络的预测方法,通过并行处理药物分子和靶点蛋白的特征,结合核函数和注意力机制,捕捉复杂的相互作用关系。该方法不仅提高了预测精度和计算效率,还增强了模型对大规模数据的泛化能力,为药物筛选和设计提供了高效可靠的计算工具。


技术实现思路

1、本专利技术提出了一种基于并行全连接网络的药物与靶点亲合度预测方法,旨在提升药物研发过程中新型治疗靶点的发现效率和药物-靶点组合的优化能力,该方法包括对分子序列和蛋白质序列数据进行标准化预处理,通过预训练模型分别提取分子和蛋白质的特征,使用并行全连接网络进行训练和对药物与靶点亲和度的预测四个过程,通过这一方法,能够显著提高药物靶点预测的准确性,优化药物组合设计,从而提升药物治疗效果并加速新药研发进程,其具体步骤如下:

2、步骤1、首先对药物分子进行拓扑建模,基于简化分子线性输入系统序列构建分子拓扑图模型,其中节点对应原子实体,边表征化学键连接关系,同时对靶点蛋白序列进行特征编码,将氨基酸链转换为数值向量形式,具体通过预定义编码规则将每个残基唯一映射为离散标识符,实现序列信息的数学表征。

3、步骤2、基于步骤1的预处理后的分子和蛋白质数据,对分子采用摩根指纹算法(基于预训练架构的分子指纹生成器)捕获其结构属性,而对靶点蛋白则运用进化规模建模框架的第二代蛋白质表征模型(esm-2)解析其序列特征,通过这种双通道特征编码策略,最终形成分子拓扑指纹向量和蛋白质序列嵌入向量两种数学化表征形式。

4、步骤3、将步骤2中的分子和蛋白质的特征向量输入到并行全连接神经网络架构中,该网络包含两条并行的全连接分支,分别通过独立的线性变换层处理分子和蛋白质的单维度特征;随后,采用多头自注意力模块对特征进行加权归一化,捕捉特征间的交互关系;最后,将经过注意力机制优化后的特征沿函数维度进行聚合,生成高维潜在空间表征,并保存训练完成的预测模型。

5、步骤4、将经过初始数据预处理的药物分子和靶点蛋白特征转换为模型可接受的向量化表示,随后将这些特征输入到步骤3中已训练并保存的预测模型中,用于评估药物与靶点蛋白之间的结合亲和度。

6、一种基于并行全连接网络的药物与靶点亲合度预测方法,步骤1的实现过程如下:

7、首先,对药物分子进行拓扑结构建模,基于简化分子线性输入系统序列,通过化学信息库将其转化为分子图结构。在该图结构中,每个原子被表示为图中的一个节点。节点的特征包括原子类型、电荷状态等属性,而原子之间的化学键中单键、双键、三键等则被表示为连接节点的边,边的特征包含化学键的类型和键长等信息;对于靶点蛋白序列,采用特征编码技术将其转换为数值化表示,通过预定义的氨基酸编码规则,将蛋白质序列中的每个氨基酸残基唯一映射为一个离散的数字标识符,利用标准氨基酸字典,将20种常见氨基酸分别分配一个独特的整数值,最终把蛋白质的序列信息转换为固定长度的数字向量。

8、一种基于并行全连接网络的药物与靶点亲合度预测方法,步骤2的实现过程如下:

9、将步骤1的预处理后的药物分子的数据输入到摩根指纹模型,该算法采用多半径原子邻域遍历策略,通过迭代捕获分子图中原子中心的官能团、杂化状态及相邻键合特征,生成具有2048维的二值化稀疏向量,每个维度对应特定化学子结构的存在性编码;对于步骤1中的蛋白质序列数据,采用esm-2模型进行深度解析,该模型基于transformer架构与大规模蛋白质序列库的预训练参数,通过自注意力机制挖掘氨基酸残基间的共进化模式、空间约束关系及功能域关联性,最终输出包含1280维连续数值的蛋白质语义嵌入向量。

10、一种基于并行全连接网络的药物与靶点亲合度预测方法,步骤3的实现过程如下:

11、在步骤2得到的药物分子和蛋白质的特征向量会被输入到并行化设计的全连接神经网络中,该网络由两条独立的分支组成,每条分支包含2个并行全连接层,通过不同的线性变换函数分别对药物分子和蛋白质的单一特征进行独立编码,从而得到多尺度的特征表示。接着,网络利用多头自注意力机制对这些特征进行全局依赖关系建模,以揭示药物分子与蛋白质之间潜在的复杂交互模式,自注意力机制的输出会经过行归一化处理,以提升特征的稳定性与一致性。最终,优化后的特征向量将在功能维度上进行聚合,形成一个高维潜在空间表示,通过计算分子与蛋白质特征间的余弦相似度来评估其结合亲和度,并保存训练完成的预测模型。

12、一种基于并行全连接网络的药物与靶点亲合度预测方法,步骤4的实现过程如下:

13、对于待预测的药物靶点对,首先按照步骤1的预处理流程对其进行标准化处理;随后,将处理后的药物分子和靶点蛋白数据分别输入到步骤2中对应的预训练特征提取模型,生成药物分子的2048维特征向量和靶点蛋白的1280维特征向量;接着,将这些特征向量输入到步骤3中已保存的并行全连接网络模型中,计算药物分子与靶点蛋白特征向量之间的余弦相似度;最后,通过sigmoid激活函数将余弦相似度转换为概率值,该概率值表示药物分子与靶点蛋白之间结合的亲和度,作为预测结果的输出。

本文档来自技高网...

【技术保护点】

1.一种基于并行全连接网络的药物与靶点亲合度预测方法,其特征在于,包括对分子序列和蛋白质序列数据进行标准化预处理,通过预训练模型分别提取分子和蛋白质的特征,使用并行全连接网络进行训练和对药物与靶点亲和度的预测四个过程,其具体步骤如下:

2.根据权利要求1所述的一种基于并行全连接网络的药物与靶点亲合度预测方法,其特征在于,针对分子序列数据,将常见原子类型分配唯一整数标识符,对于蛋白质序列数据,建立氨基酸单字母编码到整数的映射字典,对分子序列和蛋白质序列数据进行标准化预处理的实现过程如下:

3.根据权利要求1所述的一种基于并行全连接网络的药物与靶点亲合度预测方法,其特征在于分别通过独立的线性变换层处理分子和蛋白质的单维度特征,使用并行全连接网络进行训练的实现过程如下:

【技术特征摘要】

1.一种基于并行全连接网络的药物与靶点亲合度预测方法,其特征在于,包括对分子序列和蛋白质序列数据进行标准化预处理,通过预训练模型分别提取分子和蛋白质的特征,使用并行全连接网络进行训练和对药物与靶点亲和度的预测四个过程,其具体步骤如下:

2.根据权利要求1所述的一种基于并行全连接网络的药物与靶点亲合度预测方法,其特征在于,针对分子序列数...

【专利技术属性】
技术研发人员:李锦龙周树森柳婵娟王庆军臧睦君刘通
申请(专利权)人:鲁东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1