当前位置: 首页 > 专利查询>清华大学专利>正文

多模态生物医药数据的处理方法及装置制造方法及图纸

技术编号:38196490 阅读:20 留言:0更新日期:2023-07-21 16:33
本发明专利技术提供一种多模态生物医药数据的处理方法及装置,其中的方法包括:获取多模态输入数据;对分子结构数据、知识图谱数据以及文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示;对结构特征表示、知识特征表示以及文本特征表示进行融合处理,得到融合特征表示;基于融合特征表示,对多种下游预测任务进行预测。该方法采用特征融合的方式处理学习到的分子结构数据、知识图谱数据以及文本数据的特征表示,使得到的融合特征表示能够支持多种下游预测任务,实现了多模态生物医药数据的特征融合,提高了下游预测任务的预测精度。预测任务的预测精度。预测任务的预测精度。

【技术实现步骤摘要】
多模态生物医药数据的处理方法及装置


[0001]本专利技术涉及生物医药
,尤其涉及一种多模态生物医药数据的处理方法及装置。

技术介绍

[0002]近年来,将从知识图谱中获取的显性知识或从生物医学文献中获取的隐性知识分别独立地用于人工智能药物发现的相关研究发展迅速,这些研究能够极大地提高人工智能模型对下游预测任务的预测精度。
[0003]但是,独立整合显性知识或隐性知识阻碍了对生物医药数据表征的充分学习,不能同时支持人工智能药物发现的多种下游预测任务,且下游预测任务的预测精度还有较大的提升空间。
[0004]因此,如何利用现有的多模态生物医药数据大幅度提高人工智能药物发现的多种下游预测任务的预测精度,是生物医药领域亟待解决的重要课题。

技术实现思路

[0005]本专利技术提供一种多模态生物医药数据的处理方法及装置,用以克服现有技术因独立利用显性知识或隐性知识,不能充分学习生物医药数据的表征,导致不能同时支持人工智能药物发现的多种下游预测任务且预测精度不高的缺陷,实现多模态生物医药数据的特征融合,提高下游预测任务的预测精度。
[0006]一方面,本专利技术提供一种多模态生物医药数据的处理方法,包括:获取多模态输入数据,所述多模态输入数据包括相互对应的分子结构数据、知识图谱数据以及文本数据;对所述分子结构数据、所述知识图谱数据以及所述文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示;对所述结构特征表示、所述知识特征表示以及所述文本特征表示进行融合处理,得到融合特征表示;基于所述融合特征表示,对多种下游预测任务进行预测。
[0007]进一步地,所述分子结构数据包括药物分子结构数据;所述获取多模态输入数据,包括:从预先构建的数据集中提取原始药物的药物分子结构描述字符串;通过预设工具对所述药物分子结构描述字符串进行预处理,得到二维药物分子图表示,所述二维药物分子图表示为所述药物分子结构数据。
[0008]进一步地,所述知识图谱数据为嵌入矩阵;所述获取多模态输入数据,包括:从预先构建的数据集中提取原始知识图谱,所述原始知识图谱用于描述药物间相互作用关系、蛋白质间相互作用关系以及药物

蛋白质间相互作用关系;利用网络嵌入算法对所述原始知识图谱进行预处理,得到所述嵌入矩阵;其中,所述嵌入矩阵的行表示所述原始知识图谱的节点数量,所述嵌入矩阵的列表示矩阵维度。
[0009]进一步地,所述对所述分子结构数据、所述知识图谱数据以及所述文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示,包括:将所述
分子结构数据输入至预先训练的分子结构编码器,得到所述结构特征表示;将所述知识图谱数据输入至预先训练的图谱编码器,得到所述知识特征表示;将所述文本数据输入至预先训练的语言模型,得到所述文本特征表示。
[0010]进一步地,所述下游预测任务至少包括药物性质预测、蛋白质间相互作用关系预测以及药物

蛋白质结合亲和力预测。
[0011]进一步地,所述对所述结构特征表示、所述知识特征表示以及所述文本特征表示进行融合处理,得到融合特征表示,包括:对所述结构特征表示、所述知识特征表示以及所述文本特征表示进行拼接处理,得到所述融合特征表示。
[0012]进一步地,所述对所述结构特征表示、所述知识特征表示以及所述文本特征表示进行融合处理,得到融合特征表示,包括:将所述结构特征表示、所述知识特征表示以及所述文本特征表示输入至预先训练的融合网络模型,得到所述融合特征表示;其中,所述融合网络引入了交叉注意力机制。
[0013]第二方面,本专利技术还提供一种多模态生物医药数据的处理装置,包括:多模态输入数据获取模块,用于获取多模态输入数据,所述多模态输入数据包括相互对应的分子结构数据、知识图谱数据以及文本数据;多模态特征表示获取模块,用于对所述分子结构数据、所述知识图谱数据以及所述文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示;融合特征表示获取模块,用于对所述结构特征表示、所述知识特征表示以及所述文本特征表示进行融合处理,得到融合特征表示;下游预测任务预测模块,用于基于所述融合特征表示,对多种下游预测任务进行预测。
[0014]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的多模态生物医药数据的处理方法。
[0015]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的多模态生物医药数据的处理方法。
[0016]本专利技术提供的多模态生物医药数据的处理方法,通过获取多模态输入数据,并对多输入模态数据中的分子结构数据、知识图谱数据以及文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示,进而对结构特征表示、知识特征表示以及文本特征表示进行融合处理,即可得到融合特征表示,从而基于融合特征表示对多种下游预测任务进行预测。该方法采用特征融合的方式处理学习到的分子结构数据、知识图谱数据以及文本数据的特征表示,使得得到的融合特征表示能够支持多种下游预测任务,克服了现有技术因独立利用显性知识或隐性知识,不能充分学习生物医药数据的表征,导致不能同时支持人工智能药物发现的多种下游预测任务且预测精度不高的缺陷,实现了多模态生物医药数据的特征融合,提高了下游预测任务的预测精度。
附图说明
[0017]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
[0018]图1为本专利技术提供的多模态生物医药数据的处理方法的流程示意图;
[0019]图2为本专利技术提供的多模态生物医药数据的处理方法的预处理示意图;
[0020]图3为本专利技术提供的多模态输入数据的示意图;
[0021]图4为本专利技术提供的分子结构数据的编码示意图;
[0022]图5为本专利技术提供的知识图谱数据的编码示意图;
[0023]图6为本专利技术提供的文本数据的编码示意图;
[0024]图7为本专利技术提供的多模态生物医药数据的处理方法的融合处理示意图;
[0025]图8为本专利技术提供的多模态生物医药数据的处理装置的结构示意图;
[0026]图9为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0027]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态生物医药数据的处理方法,其特征在于,包括:获取多模态输入数据,所述多模态输入数据包括相互对应的分子结构数据、知识图谱数据以及文本数据;对所述分子结构数据、所述知识图谱数据以及所述文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示;对所述结构特征表示、所述知识特征表示以及所述文本特征表示进行融合处理,得到融合特征表示;基于所述融合特征表示,对多种下游预测任务进行预测。2.根据权利要求1所述的多模态生物医药数据的处理方法,其特征在于,所述分子结构数据包括药物分子结构数据;所述获取多模态输入数据,包括:从预先构建的数据集中提取原始药物的药物分子结构描述字符串;通过预设工具对所述药物分子结构描述字符串进行预处理,得到二维药物分子图表示,所述二维药物分子图表示为所述药物分子结构数据。3.根据权利要求1所述的多模态生物医药数据的处理方法,其特征在于,所述知识图谱数据为嵌入矩阵;所述获取多模态输入数据,包括:从预先构建的数据集中提取原始知识图谱,所述原始知识图谱用于描述药物间相互作用关系、蛋白质间相互作用关系以及药物

蛋白质间相互作用关系;利用网络嵌入算法对所述原始知识图谱进行预处理,得到所述嵌入矩阵;其中,所述嵌入矩阵的行表示所述原始知识图谱的节点数量,所述嵌入矩阵的列表示矩阵维度。4.根据权利要求1所述的多模态生物医药数据的处理方法,其特征在于,所述对所述分子结构数据、所述知识图谱数据以及所述文本数据分别进行编码处理,得到相应的结构特征表示、知识特征表示以及文本特征表示,包括:将所述分子结构数据输入至预先训练的分子结构编码器,得到所述结构特征表示;将所述知识图谱数据输入至预先训练的图谱编码器,得到所述知识特征表示;将所述文本数据输入至预先训练的语言模型,得到所述文本特征表示。5.根据权利要求1所述的多模态生物医药数据的处理方法,其特征在于,所述下游预测任务至少包括药...

【专利技术属性】
技术研发人员:聂再清杨凯罗弈桢张嘉欢吴俣帅黄婷婷马维英张亚勤
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1