一种基于双流神经网络预测药物与靶标蛋白结合分数的方法技术

技术编号：27940194 阅读：37 留言：0更新日期：2021-04-02 14:21

本发明专利技术公开了一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，包括：S1、根据药物的SMILES序列生成药物的指纹向量；S2、根据靶标蛋白的氨基酸序列生成靶标蛋白的指纹向量；S3、将蛋白指纹和药物指纹输入非卷积神经网络，将蛋白序列与药物序列输入卷积神经网络；S4、利用attention机制融合两种神经网络提取的特征；S5、将融合的特征输入多层感知机，得到最终的双流神经网络，进而得到药物与靶标蛋白结合分数。本发明专利技术通过融合两种类别神经网络的方法，来提取单一神经网络难以提取完全的特征，再通过多层感知机预测药物与靶标蛋白结合分数，提升模型在药物与靶标蛋白结合分数预测上的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
本专利技术涉及生物信息学中药物与靶标蛋白的结合分数预测领域，适用于药物筛选、老药新用、新药发现等场景。
技术介绍
通过湿实验来筛选可以结合靶标蛋白的药物分子是新药发现研究的重要手段，然而湿实验的工作量大、耗时长，依赖运气的成分大，以科学的方法指导实验则显得尤为重要。目前常用的筛选药物的手段有三种：(1)建立高通量的药物筛选系统，批次性进行大量对比实验，例如通过生物传感器或流式细胞仪等技术来大批量筛选药物分子，这些技术使得实验变得规模小、可并行且容易比较。(2)基于计算机分子对接模拟来预测药物分子与靶标蛋白的可能结合位点，为进一步生化实验提供理论依据。(3)通过建立机器学习模型来学习大量已有的药物与靶标蛋白结合数据，预测可能未被发现的药物与靶标蛋白结合潜力，此方法又被称为药物重定向或老药新用。随着人工智能、神经网络等技术的发展，利用海量药物与靶标蛋白结合数据来发现潜在药物的研究越来越多，但在模型预测准确度方面依然有较大的提升空间，通过建立神经网络模型来指导药物研发仍然有很长的一段路要走。近些年，利用卷积神经网络模型来预测药物与靶标蛋白结合分数的方法已经被证明比传统的基于非卷积神经网络模型预测的方法更为准确。而同时整合卷积神经网络提取特征与非卷积神经网络提取特征来建立模型预测药物与靶标蛋白结合分数的方法还没有报道。单纯通过卷积神经网络提取特征会缺失部分有效数据，其可能原因有二：第一，蛋白序列较长，没有合适的提取蛋白指纹的方法。第二，以往输入非卷积神经网...

【技术保护点】
1.一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于，包括如下步骤：/n步骤一，基于药物的SMILES序列，生成药物的ECFP指纹向量；/n步骤二，基于靶标蛋白的氨基酸序列，利用滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，根据模型训练的结果将每个片段的编码向量进行层次聚类，根据靶标蛋白所拥有的片段类别生成该蛋白的指纹；/n步骤三，将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出，将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出；/n步骤四，将从药物序列与靶标蛋白序列的卷积输出互相做attention操作，经过最大池化得到两组特征，将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征，将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征，将以上得到的四组特征合并为一个向量；/n步骤五，将融合的特征输入多层全连接层组成的多层感知机，得到最终的双流神经网络模型，双流神经网络模...

【技术特征摘要】
1.一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于，包括如下步骤：
步骤一，基于药物的SMILES序列，生成药物的ECFP指纹向量；
步骤二，基于靶标蛋白的氨基酸序列，利用滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，根据模型训练的结果将每个片段的编码向量进行层次聚类，根据靶标蛋白所拥有的片段类别生成该蛋白的指纹；
步骤三，将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出，将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出；
步骤四，将从药物序列与靶标蛋白序列的卷积输出互相做attention操作，经过最大池化得到两组特征，将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征，将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征，将以上得到的四组特征合并为一个向量；
步骤五，将融合的特征输入多层全连接层组成的多层感知机，得到最终的双流神经网络模型，双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。

2.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤2的具体实现方式如下，
基于靶标蛋白的氨基酸序列，用长度为n1的滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，sg参数取0，窗口大小设为n2，去除出现次数小于n3的片段，迭代若干次，根据模型训练的结果将每个片段的n3维编码向量进行层次聚类，将在序列上多次按相同顺序出现，且只在个别片段上有差异的片段视为一类片段，共n4类片段，根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量，即该蛋白的指纹，它反映了该蛋白中拥有的子结构。

3.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤3中非卷积神经网络包括两层全连接层，两层全连接层的神经元个数分别为512、96，且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能；
卷积神经网络由三个一维dense卷积块串联而成，每个一维dense块由四层卷积层组成，每一层的输出与该一维dense卷积块中前几层的输出相连，作为下一卷积层的输入，每一层的通道数随着层数的增加而线性增加，四层的输出合并在一起经过relu函数激活，作为此一维dense卷积块的输出，三个一维dense块中的卷积层使用相同的参数，卷积核的大小分别为1、3、5、7，边缘补齐的padding值分别为0、1、2、3，三个一维dense卷积块的输出通道数分别为128、256、96。

4.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤5中多层感知机由4个卷积层组成，其中前三层全连接层两两之间有一个丢失率为0.5...

【专利技术属性】
技术研发人员：刘娟，张健，朱学凯，冯晶，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人