一种基于异质图的药物-蛋白质靶向作用预测方法技术

技术编号:27409204 阅读:87 留言:0更新日期:2021-02-21 14:23
本发明专利技术公开一种基于异质图的药物

【技术实现步骤摘要】
一种基于异质图的药物-蛋白质靶向作用预测方法


[0001]本专利技术属于人工智能、数据挖掘和异质图网络
,涉及一种基于异质图的药物-蛋白质靶向作用预测方法。

技术介绍

[0002]药物与蛋白质靶向作用的预测作为药物重定向领域的一项关键任务,一直都是科研人员的热点研究方向。但在正常的实验过程中,既费时又昂贵,所以有效的计算方法尤为重要。药物与蛋白质靶向作用的预测主要存在两种计算方法:一种是分子对接,另一种是机器学习。分子对接技术凭借着其合理的精度和良好的可解释性而被广泛应用。然而它也存在着明显缺陷,其中蛋白质的三维结构在对接过程中具有极大的挑战性,而且受限于实验成本,该技术并不适合大规模的模拟实验。相对于较为传统的分子对接技术,机器学习方法有着更为广阔的研究前景,因为它可以在相对较短时间内对药物和蛋白质的相关数据进行大规模测试,不涉及分子拼接的成本问题。其中靶向作用预测可以抽象看成是一个二分类问题,其中输入是药物和蛋白质组成的二元组,输出是给出两个实体之间的相互作用矩阵。
[0003]通常在药物-蛋白质靶向作用的研究中大多具有多视图信息,而目前的多视图网络嵌入仍存在着一些问题。首先,以往方法侧重于多视图的集成表示,忽略了节点属性。然而,图中的大多数节点都与属性相关,忽略它们的节点表示会对最终结果造成一定影响。其次,以往方法忽略了图的子结构,而已知方法中例如随机游走方法或者图卷积网络模型都能有效地捕获图的局部结构。更准确地说,图中临近的节点(如一阶邻居节点)通常被训练成具有类似的嵌入表示,而相隔很远的节点则没有类似的表示,即使它们在结构上类似。因此有效捕捉图中子结构与图级表示的互信息以及节点表示与图级表示的互信息有利于获取图的节点信息和子结构信息,从而学习到对下游任务有用的高质量嵌入信息,进一步提升模型的指标。

技术实现思路

[0004]为解决上述问题,本专利技术给出一种基于异质图的药物-蛋白质靶向作用预测方法。
[0005]本专利技术的主要思路是捕捉图中的互信息以及子结构,即最大化子结构与图级表示的互信息以及节点表示与图级表示的互信息。该方法采用了已知药物-蛋白的相互作用网络,并融合了药物-药物,蛋白质-蛋白质同质网络相互作用的信息,同时创建了药物化学结构信息和蛋白质序列信息的特征网络,通过集成不同视图的互信息,从而学习到对下游任务有用的高质量嵌入信息。此外结合从异构信息中学习精确的并具有可解释性的特征嵌入,利用一个端到端的多视图自动编码器模型完成链路预测的任务。
[0006]为实现上述目的,本申请的技术方案为:
[0007]一种基于异质图的药物-蛋白质靶向作用预测方法,具体包括如下步骤:
[0008]S1.数据采集与预处理
[0009]1.1通过网络爬虫,初步抓取来自数据库中的药物、蛋白质以及疾病信息,爬取药
物的DrugBank ID和药物名称,与已有的公开数据集进行匹配整合,最终获得药物-疾病的关系矩阵,蛋白质-疾病的关系矩阵,药物-药物的关系矩阵,蛋白质-蛋白质的关系矩阵以及药物-蛋白质的已知关系矩阵。
[0010]1.2构建药物和蛋白质相关的异质图,并通过Python中的第三方库RDKit库来解析药物的Smiles式获得药物化学结构信息,基于成对的Smith-waterman得分计算获得蛋白质序列信息。
[0011]S2.基于异质图进行靶向作用预测
[0012]步骤S2的具体实现方法为基于捕捉异质图中互信息与子结构的药物-蛋白质靶向作用预测,通过以下具体步骤进行靶向作用预测:
[0013]2.1进行异质图的多视图信息融合。在同一维度处进行连接:G=<G1,G2,G3…
G
n
>。n代表视图个数,G1,G2,G3…
G
n
分别代表第1个、第2个、第3个到第n个视图,对于药物表示向量,将药物-疾病的关系矩阵,药物化学结构信息以及药物-蛋白质的关系矩阵这三种视图表示在同一维度连接,同样地,对于蛋白质表示向量,将蛋白质-疾病的关系矩阵,蛋白质序列信息以及药物-蛋白质的关系矩阵这三种视图表示在同一维度连接;在同一维度连接等同于增加特征维度。
[0014]2.2捕捉节点表示与图级表示的互信息
[0015]2.2.1以药物表示向量为例,将多视图信息融合得到的视图表示作为药物的特征信息,并与药物-药物的关系矩阵的结构信息结合起来,借助图卷积模型得到药物向量的节点表示。先将药物-药物的关系矩阵,也就是药物的邻接矩阵加上单位矩阵,再借助拉普拉斯分解得到药物网络矩阵,同样地,蛋白质表示向量经过相同步骤进行处理,之后的步骤蛋白质表示向量的计算过程与药物表示向量相同:
[0016][0017]其中其中I代表单位矩阵,D代表度矩阵。
[0018]2.2.2只加一个图卷积层后,计算得到药物视图的节点表示为:
[0019]h=σ(AW1X)
[0020]其中X代表药物的特征信息矩阵,W1代表可训练的权重矩阵,A代表经过拉普拉斯分解得到的药品网络矩阵,σ代表归一化指数函数,h代表药物视图的节点表示。
[0021]2.2.3通过聚合函数对药物视图的节点表示汇总计算,得到药物视图的图级全局表示:
[0022][0023]其中h
i
代表向量h的第i个行向量,n代表行向量的个数,σ代表最大池化函数,s代表图级全局表示。
[0024]2.2.4使用扰乱函数对药物的特征信息矩阵X进行打乱,从而生成负例对;用bilinear函数作为判别器,即有:
[0025]D(h,s)=σ(h
T
W2s)
[0026]其中D代表判别器函数,W2代表可训练的权重矩阵,σ代表bilinear函数,h
T
代表节
点表示的转置,s代表图级全局表示。
[0027]2.2.5基于节点表示h及其图级全局表示s计算单视图矩阵的交叉熵损失函数,在优化损失函数过程中捕捉了药物视图的节点表示与图级表示的互信息,对于蛋白质视图,捕捉互信息的步骤相同:
[0028][0029]其中L
r
代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,h
i
代表正例对的节点表示,h
j
代表负例对的节点表示。
[0030]2.3捕捉图级表示与子结构表示的互信息;在获得药物视图可靠的图级表示之后,还保存了药物视图子结构的相关信息;同样地,对于蛋白质视图,捕捉子结构表示互信息的步骤相同。
[0031]2.3.1利用metis算法对药物-药物的关系矩阵进行子图提取,生成k个子图。对于第k个图,获得药物视图的图级表示s,并利用子结构相关的节点,以生成药物视图的子结构表示。
[0032]2.3.2利用神经网络最大化图级表示s和子结构表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异质图的药物-蛋白质靶向作用预测方法,其特征在于,具体包括如下步骤:S1.数据采集与预处理1.1通过网络爬虫,初步抓取来自数据库中的药物、蛋白质以及疾病信息,爬取药物的DrugBank ID和药物名称,与已有的公开数据集进行匹配整合,最终获得药物-疾病的关系矩阵,蛋白质-疾病的关系矩阵,药物-药物的关系矩阵,蛋白质-蛋白质的关系矩阵以及药物-蛋白质的已知关系矩阵;1.2构建药物和蛋白质相关的异质图,并通过Python中的第三方库RDKit库来解析药物的Smiles式获得药物化学结构信息,基于成对的Smith-waterman得分计算获得蛋白质序列信息;S2.基于异质图进行靶向作用预测基于捕捉异质图中互信息与子结构的药物-蛋白质靶向作用预测方法,进行靶向作用预测,步骤如下:2.1进行异质图的多视图信息融合;在同一维度处进行连接:G=<G1,G2,G3…
G
n
>;n代表视图个数,G1,G2,G3…
G
n
分别代表第1个、第2个、第3个到第n个视图,对于药物表示向量,将药物-疾病的关系矩阵,药物化学结构信息以及药物-蛋白质的关系矩阵三种视图表示在同一维度连接;对于蛋白质表示向量,将蛋白质-疾病的关系矩阵,蛋白质序列信息以及药物-蛋白质的关系矩阵三种视图表示在同一维度连接;在同一维度连接等同于增加特征维度;2.2捕捉节点表示与图级表示的互信息;2.2.1以药物表示向量为例,将多视图信息融合得到的视图表示作为药物的特征信息,并与药物-药物的关系矩阵的结构信息结合起来,借助图卷积模型得到药物向量的节点表示;先将药物-药物的关系矩阵,也就是药物的邻接矩阵加上单位矩阵,再借助拉普拉斯分解得到药物网络矩阵,同样地,蛋白质表示向量经过相同步骤进行处理,之后的步骤蛋白质表示向量的计算过程与药物表示向量相同:其中其中I代表单位矩阵,D代表度矩阵;2.2.2只加一个图卷积层后,计算得到药物视图的节点表示为:h=σ(AW1X)其中X代表药物的特征信息矩阵,W1代表可训练的权重矩阵,A代表经过拉普拉斯分解得到的药品网络矩阵,σ代表归一化指数函数,h代表药物视图的节点表示;2.2.3通过聚合函数对药物视图的节点表示汇总计算,得到药物视图的图级全局表示:其中h
i
代表向量h的第i个行向量,n代表行向量的个数,σ代表最大池化函数,s代表图级全局表示;2.2.4使用扰乱函数对药物的特征信息矩阵X进行打乱,从而生成负例对;用bilinear函数作为判别器,即有:
D(h,s)=σ(h
T
W2s)其中D代表判别器函数,W2代表可训练的...

【专利技术属性】
技术研发人员:程世成金博张强侯亚庆
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1