当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于自监督图表征学习的药物重定位预测方法技术

技术编号:30691364 阅读:19 留言:0更新日期:2021-11-06 09:25
本发明专利技术属于计算机科学领域,公开了一种基于自监督图表征学习的药物重定位预测方法。首先探索发现生物异质网络中不同实体之间的多中心结构特征,并被用于元路径设计;其次,通过基于路径检测的自监督学习机制训练深度Transformer编码器,生成可以反映生物异质网络中全局信息的表征向量;同时,通过集成生物医学实体掩码任务来捕获网络节点之间的局部关联信息;最后,将来自不同任务模型的表征拼接起来作为特征向量,并利用传统的支持向量机模型预测生药物

【技术实现步骤摘要】
一种基于自监督图表征学习的药物重定位预测方法


[0001]本专利技术属于计算机科学领域,涉及人工智能技术应用,具体涉及一种基于自监督图表征学习的药物重定位预测方法。

技术介绍

[0002]人体内的生物过程是不同生物医学实体(例如,药物、基因、蛋白质、副作用)之间相互作用的结果,例如药物

靶标相互作用、药物

疾病关联关系和蛋白质

蛋白质相互作用,其中药物

靶标相互作用预测是研究生命机理的关键,也是药物重新定位领域的核心问题。基于传统的生物实验预测药物发现和重定位方法,不仅费用昂贵,并且耗时。因此,越来越多的研究者利用计算技术来进行药物重定预测。
[0003]计算机科学和生物医学研究的快速发展,导致产生了大量的生物医学网络,因此基于网络的深度学习模型被广泛的应用于药物重定位预测。尽管基于网络的深度学习方法显示出药物重定位预测的巨大前景和能力,但大多数深度学习方法严重依赖于大量标记数据。在真正的生物医学研究中可能无法满足大规模标记数据的要求。近些年来,自监督学习已广泛应用于各种领域,例如自然语言处理、计算机视觉和图像处理,特别是基于自监督的图表征学习技术引起了国内外研究者的关注,并为药物重定位预测提供了有效的范式。然而,大多数网络表征方法都认为所有的网络节点都具有相同的属性。换句话说,这些网络表征方法只考虑同类型实体之间的关系,而不能考虑异质节点之间的关系。
[0004]尽管越来越多的研究通过设计基于元路径的图表征学习来捕捉生物实体之间的异质性,但现有的网络表征方法依然存在两个关键问题:(1)大多数方法主要是为非生物医学网络开发的;(2)大多数异构网络表征方法主要通过元路径来保留局部关联关系;然后,利用词嵌入模型来学习节点的表征。因此,网络节点之间的全局结构和语义信息很难完全建模;这些方法通常只是对网络局部结构关系的建模和优化,因此产生的表征向量并不一定有助于药物重定位预测。
[0005]因此,基于生物异质网络设计特有的自监督任务驱动表征算法模型,生成高质量的表征向量,集成节点之间的结构和语义关系对药物重定位预测具有重要的科学意义。

技术实现思路

[0006]为了克服现有图表征技术忽略了生物异质网络数据的特征,同时无法捕获网络全局结构信息的不足,本专利技术提供了一种基于自监督图表征学习的药物重定位预测方法。该专利技术方法首先探索发现生物异质网络中不同实体之间的多中心结构特征,并被用于元路径设计;其次,通过基于路径检测的自监督学习机制训练深度Transformer编码器,生成可以反映生物异质网络中全局结构和语义特征的低维表征向量;同时,通过集成生物医学实体掩码任务来捕获网络节点之间的局部关联信息;最后,将来自不同任务模型的表征拼接起来作为生物实体的特征向量,基于这些表征向量利用传统的支持向量机模型预测生药物

靶标的相互作用关系。
[0007]本专利技术所采用的技术方案是:
[0008]一种基于自监督图表征学习的药物重定位预测方法,包括如下步骤:
[0009]1)参数初始化,包括元路径最大长度L,表征向量维度dim,掩码序列比率k%,掩码序列被特殊字符<MASK>替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率 p

∈(0,1

p);
[0010]2)对网络中的所有节点进行编号V={v
i
|i=1,2,...,num},其中num代表节点的总个数;
[0011]3)根据生物异质网络中不同实体之间的多中心结构特征,设计多种元路径;
[0012]4)在生物异质网络中,采用元路径引导的随机游走策略生成N条生物实体正样本序列其中l∈[1,L]是正样本序列q
n
的长度;
[0013]5)随机替换正样本序列中的一些节点,产生对应的负样本序列q

n

[0014]6)将所有的正样本序列q
n
和负样本序列q

n
混乱,进行基于路径检测的自监督网络表征学习,获得包含每个节点v
i
全局信息的表征向量其中是反映节点v
i
全局信息的表征向量;
[0015]7)将所有的正样本序列q
n
随机掩码,进行基于生物实体掩码的自监督网络表征学习,获得包含每个节点v
i
局部信息的表征向量其中是反映节点v
i
局部信息的表征向量;
[0016]8)将包含生物实体全局信息的表征向量Z和包含生物实体局部信息的表征向量Z

拼接,获得包含局部

全局信息的表征向量其中是向量和向量的拼接向量;
[0017]9)基于支持向量机分类模型预测药物

靶标相互作用关系,并采用接收者操作特征曲线面积作为评价指标,进行评估模型的预测性能。
[0018]作为本专利技术的进一步改进,所述步骤5)通过以下步骤实现:
[0019]5.1)从正样本序列中随机选取一个节点同时从网络中随机选取一个节点v
i

[0020]5.2)在生物网络中,如果节点v
i
与之间不存在关联关系,则利用节点v
i
代替正样本序列中节点生成负样本序列q

n
,否则转至步骤5.3);
[0021]5.3)在生物网络中,如果节点v
i
与之间不存在关联关系,则利用节点v
i
代替正样本序列中节点生成负样本序列q

n
,否则转至步骤5.1);
[0022]作为本专利技术的进一步改进,所述步骤6)通过以下步骤实现:
[0023]6.1)将所有的正样本序列q
n
和负样本序列q

n
混乱,并且输入深层Transformer编码器获得生物实体的表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;
[0024]6.2)利用逻辑回归模型判断每条路径属于正样本序列还是负样本序列,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
[0025]6.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点v
i
的表征向量z
vi
,转至步骤9),否则转至步骤6.1);
[0026]作为本专利技术的进一步改进,所述步骤7)通过以下步骤实现:
[0027]7.1)从所有的生物实体正样本序列q
n
中选择k%个生物实体作为掩码节点,针对每个掩码节点,生成一个随机数rand∈[0,1],如果rand<p,则用特殊字符<MASK>替换所述掩码节点;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督图表征学习的药物重定位预测方法,其特征在于,包括以下步骤:1)参数初始化,包括元路径最大长度L,表征向量维度dim,掩码序列比率k%,掩码序列被特殊字符<MASK>替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p

∈(0,1

p);2)对网络中的所有节点进行编号V={v
i
|i=1,2,...,num},其中num代表节点的总个数;3)根据生物异质网络中不同实体之间的多中心结构特征,设计多种元路径;4)在生物异质网络中,采用元路径引导的随机游走策略生成N条生物实体正样本序列其中l∈[1,L]是正样本序列q
n
的长度;5)随机替换正样本序列中的一些节点,产生对应的负样本序列q

n
;6)将所有的正样本序列q
n
和负样本序列q

n
混乱,进行基于路径检测的自监督网络表征学习,获得包含每个节点v
i
全局信息的表征向量其中是反映节点v
i
全局信息的表征向量;7)将所有的正样本序列q
n
随机掩码,进行基于生物实体掩码的自监督网络表征学习,获得包含每个节点v
i
局部信息的表征向量其中是反映节点v
i
局部信息的表征向量;8)将包含生物实体全局信息的表征向量Z和包含生物实体局部信息的表征向量Z

拼接,获得包含局部

全局信息的表征向量其中是向量和向量的拼接向量;9)基于支持向量机分类模型预测药物

靶标相互作用关系,并采用接收者操作特征曲线面积作为评价指标,进行评估模型的预测性能。2.如权利要求1所述的一种基于自监督图表征学习的药物重定位预测方法,其特征在于,所述步骤5)通过以下步骤实现:5.1)从正样本序列中随机选取一个节点同时从网络中随机选取一个节点v
i
;5.2)在生物网络中,如果节点v
i
与之间不存在关联关系,则利用节点v
i
代替正样本序列中节点生成负样本序列q

n
,否则转至步骤5.3);5.3)在生物网络中,如果节点v
i
与之间不存在关联关系,则利用节点v
i
代替正样本序列中节点生成负样本序列q

n
,否则转至步骤5.1)。3.如权利要求1所述的一种基于自监督图表征学习的药物重定位预测方法,其特征在于,所述步骤6)通过以下步骤实现:6.1)将所有的正样本序列q
n
和负样本序列q

n
混乱,并且输入深层Transformer编码器获得生物实体的表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;6...

【专利技术属性】
技术研发人员:彭绍亮王小奇程英杰姬博亚程孝孝王红
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1