一种基于异质图的药物-蛋白质靶向作用预测方法技术

技术编号：27409204 阅读：87 留言：0更新日期：2021-02-21 14:23

本发明专利技术公开一种基于异质图的药物

全部详细技术资料下载

【技术实现步骤摘要】
一种基于异质图的药物-蛋白质靶向作用预测方法

[0001]本专利技术属于人工智能、数据挖掘和异质图网络
，涉及一种基于异质图的药物-蛋白质靶向作用预测方法。

技术介绍

[0002]药物与蛋白质靶向作用的预测作为药物重定向领域的一项关键任务，一直都是科研人员的热点研究方向。但在正常的实验过程中，既费时又昂贵，所以有效的计算方法尤为重要。药物与蛋白质靶向作用的预测主要存在两种计算方法:一种是分子对接，另一种是机器学习。分子对接技术凭借着其合理的精度和良好的可解释性而被广泛应用。然而它也存在着明显缺陷，其中蛋白质的三维结构在对接过程中具有极大的挑战性，而且受限于实验成本，该技术并不适合大规模的模拟实验。相对于较为传统的分子对接技术，机器学习方法有着更为广阔的研究前景，因为它可以在相对较短时间内对药物和蛋白质的相关数据进行大规模测试，不涉及分子拼接的成本问题。其中靶向作用预测可以抽象看成是一个二分类问题，其中输入是药物和蛋白质组成的二元组，输出是给出两个实体之间的相互作用矩阵。
[0003]通常在药物-蛋白质靶向作用的研究中大多具有多视图信息，而目前的多视图网络嵌入仍存在着一些问题。首先，以往方法侧重于多视图的集成表示，忽略了节点属性。然而，图中的大多数节点都与属性相关，忽略它们的节点表示会对最终结果造成一定影响。其次，以往方法忽略了图的子结构，而已知方法中例如随机游走方法或者图卷积网络模型都能有效地捕获图的局部结构。更准确地说，图中临近的节点(如一阶邻居节点)通常被训练成具有类似的嵌入表示，而相隔很远的节点则...

【技术保护点】

【技术特征摘要】
1.一种基于异质图的药物-蛋白质靶向作用预测方法，其特征在于，具体包括如下步骤：S1.数据采集与预处理1.1通过网络爬虫，初步抓取来自数据库中的药物、蛋白质以及疾病信息，爬取药物的DrugBank ID和药物名称，与已有的公开数据集进行匹配整合，最终获得药物-疾病的关系矩阵，蛋白质-疾病的关系矩阵，药物-药物的关系矩阵，蛋白质-蛋白质的关系矩阵以及药物-蛋白质的已知关系矩阵；1.2构建药物和蛋白质相关的异质图，并通过Python中的第三方库RDKit库来解析药物的Smiles式获得药物化学结构信息，基于成对的Smith-waterman得分计算获得蛋白质序列信息；S2.基于异质图进行靶向作用预测基于捕捉异质图中互信息与子结构的药物-蛋白质靶向作用预测方法，进行靶向作用预测，步骤如下：2.1进行异质图的多视图信息融合；在同一维度处进行连接：G＝<G1，G2，G3…
G
n
>；n代表视图个数，G1，G2，G3…
G
n
分别代表第1个、第2个、第3个到第n个视图，对于药物表示向量，将药物-疾病的关系矩阵，药物化学结构信息以及药物-蛋白质的关系矩阵三种视图表示在同一维度连接；对于蛋白质表示向量，将蛋白质-疾病的关系矩阵，蛋白质序列信息以及药物-蛋白质的关系矩阵三种视图表示在同一维度连接；在同一维度连接等同于增加特征维度；2.2捕捉节点表示与图级表示的互信息；2.2.1以药物表示向量为例，将多视图信息融合得到的视图表示作为药物的特征信息，并与药物-药物的关系矩阵的结构信息结合起来，借助图卷积模型得到药物向量的节点表示；先将药物-药物的关系矩阵，也就是药物的邻接矩阵加上单位矩阵，再借助拉普拉斯分解得到药物网络矩阵，同样地，蛋白质表示向量经过相同步骤进行处理，之后的步骤蛋白质表示向量的计算过程与药物表示向量相同：其中其中I代表单位矩阵，D代表度矩阵；2.2.2只加一个图卷积层后，计算得到药物视图的节点表示为：h＝σ(AW1X)其中X代表药物的特征信息矩阵，W1代表可训练的权重矩阵，A代表经过拉普拉斯分解得到的药品网络矩阵，σ代表归一化指数函数，h代表药物视图的节点表示；2.2.3通过聚合函数对药物视图的节点表示汇总计算，得到药物视图的图级全局表示：其中h
i
代表向量h的第i个行向量，n代表行向量的个数，σ代表最大池化函数，s代表图级全局表示；2.2.4使用扰乱函数对药物的特征信息矩阵X进行打乱，从而生成负例对；用bilinear函数作为判别器，即有：
D(h,s)＝σ(h
T
W2s)其中D代表判别器函数，W2代表可训练的...

【专利技术属性】
技术研发人员：程世成，金博，张强，侯亚庆，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人