当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于双流神经网络预测药物与靶标蛋白结合分数的方法技术

技术编号:27940194 阅读:32 留言:0更新日期:2021-04-02 14:21
本发明专利技术公开了一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,包括:S1、根据药物的SMILES序列生成药物的指纹向量;S2、根据靶标蛋白的氨基酸序列生成靶标蛋白的指纹向量;S3、将蛋白指纹和药物指纹输入非卷积神经网络,将蛋白序列与药物序列输入卷积神经网络;S4、利用attention机制融合两种神经网络提取的特征;S5、将融合的特征输入多层感知机,得到最终的双流神经网络,进而得到药物与靶标蛋白结合分数。本发明专利技术通过融合两种类别神经网络的方法,来提取单一神经网络难以提取完全的特征,再通过多层感知机预测药物与靶标蛋白结合分数,提升模型在药物与靶标蛋白结合分数预测上的准确率。

【技术实现步骤摘要】
一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
本专利技术涉及生物信息学中药物与靶标蛋白的结合分数预测领域,适用于药物筛选、老药新用、新药发现等场景。
技术介绍
通过湿实验来筛选可以结合靶标蛋白的药物分子是新药发现研究的重要手段,然而湿实验的工作量大、耗时长,依赖运气的成分大,以科学的方法指导实验则显得尤为重要。目前常用的筛选药物的手段有三种:(1)建立高通量的药物筛选系统,批次性进行大量对比实验,例如通过生物传感器或流式细胞仪等技术来大批量筛选药物分子,这些技术使得实验变得规模小、可并行且容易比较。(2)基于计算机分子对接模拟来预测药物分子与靶标蛋白的可能结合位点,为进一步生化实验提供理论依据。(3)通过建立机器学习模型来学习大量已有的药物与靶标蛋白结合数据,预测可能未被发现的药物与靶标蛋白结合潜力,此方法又被称为药物重定向或老药新用。随着人工智能、神经网络等技术的发展,利用海量药物与靶标蛋白结合数据来发现潜在药物的研究越来越多,但在模型预测准确度方面依然有较大的提升空间,通过建立神经网络模型来指导药物研发仍然有很长的一段路要走。近些年,利用卷积神经网络模型来预测药物与靶标蛋白结合分数的方法已经被证明比传统的基于非卷积神经网络模型预测的方法更为准确。而同时整合卷积神经网络提取特征与非卷积神经网络提取特征来建立模型预测药物与靶标蛋白结合分数的方法还没有报道。单纯通过卷积神经网络提取特征会缺失部分有效数据,其可能原因有二:第一,蛋白序列较长,没有合适的提取蛋白指纹的方法。第二,以往输入非卷积神经网络模型的大多是蛋白的物化特征,而物化特征不能完全反应一个蛋白的整体性质。因此我们需要提出一种新的有效提取蛋白指纹的方法来构建这样的双流模型,提高药物与靶标蛋白结合分数预测的准确度。
技术实现思路
本专利技术目的在于提供一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其主要解决的问题是建立更有效的药物与靶标蛋白结合分数预测的神经网络模型,提高预测准确度,为药物筛选、老药新用、新药发现等提供科学指导,提高药物筛选效率,降低药物筛选成本。具体地,一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其包括以下步骤:步骤一,基于药物的SMILES序列,使用RDKit工具生成该药物的ECFP指纹向量;步骤二,基于靶标蛋白的氨基酸序列,利用滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,根据模型训练的结果将每个片段的编码向量进行层次聚类,根据靶标蛋白所拥有的片段类别生成该蛋白的指纹;步骤三,将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出,将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出;步骤四,将从药物序列与靶标蛋白序列的卷积输出互相做attention操作,经过最大池化得到两组特征,将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征,将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征,将以上得到的四组特征合并为一个向量;步骤五,将融合的特征输入多层全连接层组成的多层感知机,得到最终的双流神经网络模型,双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。进一步的,步骤2的具体实现方式如下,基于靶标蛋白的氨基酸序列,用长度为5的滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,sg参数取0,窗口大小设为4,去除出现次数小于3的片段,迭代1000次,根据模型训练的结果将每个片段的32维编码向量进行层次聚类,将在序列上多次按相同顺序出现,且只在个别片段上有差异的片段视为一类片段,共1024类片段,根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量,即该蛋白的指纹,它反映了该蛋白中拥有的子结构。进一步的,步骤3中非卷积神经网络包括两层全连接层,两层全连接层的神经元个数分别为512、96,且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能;卷积神经网络由三个一维dense卷积块串联而成,每个一维dense块由四层卷积层组成,每一层的输出与该一维dense卷积块中前几层的输出相连,作为下一卷积层的输入,每一层的通道数随着层数的增加而线性增加,四层的输出合并在一起经过relu函数激活,作为此一维dense卷积块的输出,三个一维dense块中的卷积层使用相同的参数,卷积核的大小分别为1、3、5、7,边缘补齐的padding值分别为0、1、2、3,三个一维dense卷积块的输出通道数分别为128、256、96。进一步的,步骤5中多层感知机由4个卷积层组成,其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能,全连接层的神经元个数分别为1024、1024、512、1。进一步的,步骤四的具体实现方式如下,S401,对步骤S3中得到的药物的卷积输出xi与靶标蛋白的卷积输出xj分别经过线性变换用tanh函数做非线性激活,公式为yi=tanh(wixi+bi),yj=tanh(wjxj+bj),其中wi、wj为线性变换的权重向量,bi、bj为线性变换的偏置向量;S402,对步骤S401中得到的yi和yj做relu激活,再相互做叉乘操作,得到一个attention矩阵,反映该药物的某个子结构对该蛋白的某个子结构的作用分数,其公式为attenij=relu(yi)×relu(yj);S403,对步骤S402中得到的相互作用分数对列求和,得作用于药物的attention分数,其公式为atteni=∑jattenij,再对步骤S402中得到的相互作用分数对行求和,得作用于靶标蛋白的attention分数,其公式为attenj=∑iattenij;S404,将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出,经过最大池化得到两组特征xd、xp,其公式分别为xd=maxpooli(xi*atteni)和xp=maxpoolj(xj*attenj);S405、将步骤S403中得到的作用于药物的attention分数atteni在药物序列维度上求和,作为作用于药物指纹d的attention分数,其公式为d*=d*∑iatteni;将步骤S403中得到的作用于蛋白的attention分数attenj在蛋白序列维度上求和,作为作用于蛋白指纹p的attention分数,其公式为p*=p*∑jattenj;这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散。进一步的,步骤五中所述双流神经网络模型所使用的损失函数为方差损失函数,损失函数定义如下所示,Cost=(affinity-predict)2其中affinity为实际药物与靶标蛋白的结合分数,predict为预测的药物与靶标本文档来自技高网
...

【技术保护点】
1.一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于,包括如下步骤:/n步骤一,基于药物的SMILES序列,生成药物的ECFP指纹向量;/n步骤二,基于靶标蛋白的氨基酸序列,利用滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,根据模型训练的结果将每个片段的编码向量进行层次聚类,根据靶标蛋白所拥有的片段类别生成该蛋白的指纹;/n步骤三,将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出,将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出;/n步骤四,将从药物序列与靶标蛋白序列的卷积输出互相做attention操作,经过最大池化得到两组特征,将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征,将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征,将以上得到的四组特征合并为一个向量;/n步骤五,将融合的特征输入多层全连接层组成的多层感知机,得到最终的双流神经网络模型,双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。/n...

【技术特征摘要】
1.一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于,包括如下步骤:
步骤一,基于药物的SMILES序列,生成药物的ECFP指纹向量;
步骤二,基于靶标蛋白的氨基酸序列,利用滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,根据模型训练的结果将每个片段的编码向量进行层次聚类,根据靶标蛋白所拥有的片段类别生成该蛋白的指纹;
步骤三,将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出,将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出;
步骤四,将从药物序列与靶标蛋白序列的卷积输出互相做attention操作,经过最大池化得到两组特征,将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征,将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征,将以上得到的四组特征合并为一个向量;
步骤五,将融合的特征输入多层全连接层组成的多层感知机,得到最终的双流神经网络模型,双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。


2.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤2的具体实现方式如下,
基于靶标蛋白的氨基酸序列,用长度为n1的滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,sg参数取0,窗口大小设为n2,去除出现次数小于n3的片段,迭代若干次,根据模型训练的结果将每个片段的n3维编码向量进行层次聚类,将在序列上多次按相同顺序出现,且只在个别片段上有差异的片段视为一类片段,共n4类片段,根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量,即该蛋白的指纹,它反映了该蛋白中拥有的子结构。


3.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤3中非卷积神经网络包括两层全连接层,两层全连接层的神经元个数分别为512、96,且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能;
卷积神经网络由三个一维dense卷积块串联而成,每个一维dense块由四层卷积层组成,每一层的输出与该一维dense卷积块中前几层的输出相连,作为下一卷积层的输入,每一层的通道数随着层数的增加而线性增加,四层的输出合并在一起经过relu函数激活,作为此一维dense卷积块的输出,三个一维dense块中的卷积层使用相同的参数,卷积核的大小分别为1、3、5、7,边缘补齐的padding值分别为0、1、2、3,三个一维dense卷积块的输出通道数分别为128、256、96。


4.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤5中多层感知机由4个卷积层组成,其中前三层全连接层两两之间有一个丢失率为0.5...

【专利技术属性】
技术研发人员:刘娟张健朱学凯冯晶
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1