【技术实现步骤摘要】
一种基于自监督图表征学习的药物重定位预测方法
[0001]本专利技术属于计算机科学领域,涉及人工智能技术应用,具体涉及一种基于自监督图表征学习的药物重定位预测方法。
技术介绍
[0002]人体内的生物过程是不同生物医学实体(例如,药物、基因、蛋白质、副作用)之间相互作用的结果,例如药物
‑
靶标相互作用、药物
‑
疾病关联关系和蛋白质
‑
蛋白质相互作用,其中药物
‑
靶标相互作用预测是研究生命机理的关键,也是药物重新定位领域的核心问题。基于传统的生物实验预测药物发现和重定位方法,不仅费用昂贵,并且耗时。因此,越来越多的研究者利用计算技术来进行药物重定预测。
[0003]计算机科学和生物医学研究的快速发展,导致产生了大量的生物医学网络,因此基于网络的深度学习模型被广泛的应用于药物重定位预测。尽管基于网络的深度学习方法显示出药物重定位预测的巨大前景和能力,但大多数深度学习方法严重依赖于大量标记数据。在真正的生物医学研究中可能无法满足大规模标记数据的要求。近些年来,自监督学习已广泛应用于各种领域,例如自然语言处理、计算机视觉和图像处理,特别是基于自监督的图表征学习技术引起了国内外研究者的关注,并为药物重定位预测提供了有效的范式。然而,大多数网络表征方法都认为所有的网络节点都具有相同的属性。换句话说,这些网络表征方法只考虑同类型实体之间的关系,而不能考虑异质节点之间的关系。
[0004]尽管越来越多的研究通过设计基于元路径的图表征学习来捕捉生物 ...
【技术保护点】
【技术特征摘要】
1.一种基于自监督图表征学习的药物重定位预测方法,其特征在于,包括以下步骤:1)参数初始化,包括元路径最大长度L,表征向量维度dim,掩码序列比率k%,掩码序列被特殊字符<MASK>替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p
′
∈(0,1
‑
p);2)对网络中的所有节点进行编号V={v
i
|i=1,2,...,num},其中num代表节点的总个数;3)根据生物异质网络中不同实体之间的多中心结构特征,设计多种元路径;4)在生物异质网络中,采用元路径引导的随机游走策略生成N条生物实体正样本序列其中l∈[1,L]是正样本序列q
n
的长度;5)随机替换正样本序列中的一些节点,产生对应的负样本序列q
′
n
;6)将所有的正样本序列q
n
和负样本序列q
′
n
混乱,进行基于路径检测的自监督网络表征学习,获得包含每个节点v
i
全局信息的表征向量其中是反映节点v
i
全局信息的表征向量;7)将所有的正样本序列q
n
随机掩码,进行基于生物实体掩码的自监督网络表征学习,获得包含每个节点v
i
局部信息的表征向量其中是反映节点v
i
局部信息的表征向量;8)将包含生物实体全局信息的表征向量Z和包含生物实体局部信息的表征向量Z
′
拼接,获得包含局部
‑
全局信息的表征向量其中是向量和向量的拼接向量;9)基于支持向量机分类模型预测药物
‑
靶标相互作用关系,并采用接收者操作特征曲线面积作为评价指标,进行评估模型的预测性能。2.如权利要求1所述的一种基于自监督图表征学习的药物重定位预测方法,其特征在于,所述步骤5)通过以下步骤实现:5.1)从正样本序列中随机选取一个节点同时从网络中随机选取一个节点v
i
;5.2)在生物网络中,如果节点v
i
与之间不存在关联关系,则利用节点v
i
代替正样本序列中节点生成负样本序列q
′
n
,否则转至步骤5.3);5.3)在生物网络中,如果节点v
i
与之间不存在关联关系,则利用节点v
i
代替正样本序列中节点生成负样本序列q
′
n
,否则转至步骤5.1)。3.如权利要求1所述的一种基于自监督图表征学习的药物重定位预测方法,其特征在于,所述步骤6)通过以下步骤实现:6.1)将所有的正样本序列q
n
和负样本序列q
′
n
混乱,并且输入深层Transformer编码器获得生物实体的表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;6...
【专利技术属性】
技术研发人员:彭绍亮,王小奇,程英杰,姬博亚,程孝孝,王红,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。