本发明专利技术公开一种跨机构医学知识图谱表示学习方法,通过让各家医疗机构将本地医学知识图谱同态加密后发送给第三方服务器,第三方服务器在加密条件下完成本地医学知识图谱之间的医学概念匹配,获得全局医学知识图谱,以扩充现有医学知识图谱中的实体和关系。本发明专利技术还提供了一种跨机构医学知识图谱表示学习系统。本发明专利技术的方法可以解决现有技术中各医疗机构之间因特有医学实体导致的医学知识图谱差异问题,从而获得跨医疗机构语义一致表达的医学实体嵌入表示。实体嵌入表示。实体嵌入表示。
【技术实现步骤摘要】
一种跨机构医学知识图谱表示学习方法及系统
[0001]本专利技术属于医疗信息
,尤其涉及一种跨机构医学知识图谱表示学习方法及系统。
技术介绍
[0002]医学知识图谱是医生专业化知识的思维模式和组合,它包含了医学实体内容、医学实体数量以及医学实体之间的专业逻辑关系。对这些医学实体的逻辑化应用可以解读、判断病情信息以做出正确的判断和决定。如何利用知识图谱嵌入表示学习方法获得医学知识图谱中实体和关系富有语义信息的表示向量,用于临床决策支持建模,是非常重要的工作。为了得到能更好应用于临床疾病诊断和用药推荐的医学知识图谱可计算表示,医疗机构可以利用医学实体关系和临床数据训练医学知识图谱中医学实体的嵌入表示。
[0003]医疗机构内部会根据本地医疗场景生成机构特有的医学实体,并利用机构特有的医学实体扩展通用的医学知识图谱,构成本地医学知识图谱。基于本地临床数据扩展的本地医学知识图谱更加符合该医疗机构的医学概念之间的逻辑,但是在单中心利用临床数据训练本地医学知识图谱的过程中存在着某些医学实体在临床数据中出现频次很低,导致最终嵌入表示的语义信息很低的问题。除此以外,由于不同医疗机构之间的临床数据异质性和术语异质性,各自构建得到的本地医学知识图谱和实体嵌入表示之间存在较大差异。
[0004]专利文献CN113434626A公开了一种多中心医学诊断知识图谱表示学习方法及系统,该方法只使用了医学知识图谱中的诊断实体之间的层级关系构建知识图谱,没有考虑诊断、症状、检查、用药等实体之间的复杂关系。此外,该方案假设不同医疗机构使用完全相同的医学知识图谱,忽略了本地医疗机构对通用医学知识图谱的拓展。
[0005]专利文献CN111767411A公开了一种知识图谱表示学习优化方法、设备及可读存储介质,该方法的训练样本集由各机构的本地知识图谱和部分拓展三元组中的实体与关系组成。该方案利用由实体和关系组成的三元组信息进行知识图谱的表示学习,忽略了实体和关系在真实场景中出现的频次信息。知识图谱对应的真实场景数据没有参与到知识图谱的表示学习过程中。
技术实现思路
[0006]本专利技术的目的是提供一种跨机构医学知识图谱表示学习方法及系统,以得到跨机构语义一致表达的医学实体嵌入表示,从而为临床决策支持等相关建模任务提供更好的指导。
[0007]为了实现第一个专利技术目的,本专利技术提供了一种技术方法,包括以下步骤:主服务器根据各医疗机构的本地医疗知识图谱,生成对应的全局医学知识图谱。
[0008]获取本地医疗机构中的临床数据集合,每一条临床数据包含多个医学实体。
[0009]根据每两个医学实体在同一条临床数据中出现的频次,构建对应的医学实体共现矩阵,利用主成分分析方法对所述医学实体共现矩阵进行降维,以获得对每个医学实体的
初始嵌入表示。
[0010]构建基于全局医学知识图谱的三元组集合,并与所述初始嵌入表示组成数据集。
[0011]将数据集输入至预构建的图嵌入表示模型中,以获得医学实体嵌入表示,并结合三元组集合构建损失函数。
[0012]基于所述损失函数采用反向传播得到图嵌入表示模型的图嵌入模型梯度。
[0013]所有医疗机构的图嵌入模型梯度采用同态加密发送至主服务器中进行聚合,以获得全局模型梯度并反馈至各医疗机构中对图嵌入表示模型进行更新,直至所述损失函数收敛,以获得最佳的医学实体嵌入表示。
[0014]具体的,所述全局医学知识图谱基于各医疗机构的医学实体嵌入表示间相似度进行融合更新,若全局医学知识图谱的结构更新,则再进行图嵌入模型训练,利用新的全局医学知识图谱训练医学实体的嵌入表示。
[0015]具体的,所述本地医疗知识图谱采用常见医学实体和机构特有医学实体进行构建,所述常见医学实体包括ICD10、CCS以及HPO,所述机构特有医学实体基于本地临床数据和临床业务场景生成。
[0016]具体的,所述全局医学知识图谱的构建过程如下:主服务器生成用于各医疗机构的一组同态加密密钥,而各医疗机构利用所述同态加密密钥对本地医学知识图谱进行加密,以获得密文三元组并发送至主服务器。
[0017]主服务器对接收到的所有密文三元组进行匹配并反馈回所有医疗机构,以生成各医疗机构在本地的全局医学知识图谱。
[0018]具体的,所述医学实体包括诊断、症状、检查以及用药,通过充分整合诊断、症状、检查、用药等实体之间的关系,并挖掘不同医疗机构的机构特有医学实体之间可能存在的关系,从而完善全局医学知识图谱。
[0019]具体的,所述共现矩阵构建时需要对矩阵中每个元素加入噪声,即对共现矩阵中的每一个元素加上一个均值为1,方差为0.1的正态分布的噪声,从而完成简单的加密操作。
[0020]具体的,所述三元组集合包括正采样三元组和负采样三元组,所述正采样三元组依次包括头实体,尾实体以及关系,所述负采样三元组采用随机替换正采样三元组的头实体或尾实体进行构建。
[0021]具体的,所述损失函数的表达式如下:其中,表示取值大于0的边缘损失;表示正值函数,当时,,当时,;表示距离函数,表示正采样三元组,表示负采样三元组,代表头实体,代表尾实体,代表关系,的嵌入表示为,的嵌入表示为,的嵌入表示为,的嵌入表示为,的嵌入表示为。
[0022]具体的,所述全局模型梯度采用加密状态的图嵌入模型梯度进行聚合,其表达式如下:
其中,表示第个医疗机构的图嵌入模型梯度,表示医疗机构的总数,表示同态加密密钥,表示同态加密算法,表示全局模型梯度。
[0023]具体的,各医疗机构根据接收到的全局模型梯度,利用本地的Adam优化器对医学实体嵌入表示进行一次迭代更新。
[0024]为了实现第二个专利技术目的,本专利技术还提供了一种跨机构医学知识图谱表示学习系统,通过上述的跨机构医学知识图谱表示学习方法执行,包括本地医学知识图谱构建模块,全局医学知识图谱构建模块,联邦图嵌入模型训练模块以及医学实体融合模块。
[0025]所述本地医学知识图谱构建模块,用于在本地医疗机构中,将本地临床数据和临床业务场景生成的机构特有医学实体加入医学知识图谱中,以生成对应的本地医学知识图谱。
[0026]所述全局医学知识图谱构建模块,用于在主服务器中,根据各医疗机构的本地医学知识图谱进行加密匹配,以生成全局医学知识图谱并发送给各家医疗机构。
[0027]所述联邦图嵌入模型训练模块,用于通过同态加密的方式,执行临床数据不出本地医疗机构的条件下,对各医疗机构的图嵌入模型进行训练。
[0028]所述医学实体融合模块,用于计算各医疗机构中医学实体间的相似度,以融合更新全局医学知识图谱。
[0029]与现有技术相比,本专利技术的有益效果:(1)将各医疗机构所特有医疗场景下的特有医学实体加入本地医学知识图谱,以构建更加完整的全局医学知识图谱。
[0030](2)在不泄露本地医学知识图谱的条件下,实现全局医学知识图谱的构建。
[0031](3)提出的联邦图嵌入模型本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种跨机构医学知识图谱表示学习方法,其特征在于,包括以下步骤:主服务器根据各医疗机构的本地医疗知识图谱,生成对应的全局医学知识图谱;获取本地医疗机构中的临床数据集合,每一条临床数据包含多个医学实体;根据每两个医学实体在同一条临床数据中出现的频次,构建对应的医学实体共现矩阵,利用主成分分析方法对所述医学实体共现矩阵进行降维,以获得对每个医学实体的初始嵌入表示;构建基于全局医学知识图谱的三元组集合,并与所述初始嵌入表示组成数据集;将数据集输入至预构建的图嵌入表示模型中,以获得医学实体嵌入表示,并结合三元组集合构建损失函数;基于所述损失函数采用反向传播得到图嵌入表示模型的图嵌入模型梯度;所有医疗机构的图嵌入模型梯度采用同态加密发送至主服务器中进行聚合,以获得全局模型梯度并反馈至各医疗机构中对图嵌入表示模型进行更新,直至所述损失函数收敛,以获得最佳的医学实体嵌入表示。2.根据权利要求1所述的跨机构医学知识图谱表示学习方法,其特征在于,所述本地医疗知识图谱采用常见医学实体和机构特有医学实体进行构建,所述常见医学实体包括ICD10、CCS以及HPO,所述机构特有医学实体基于本地临床数据和临床业务场景生成。3.根据权利要求1或2所述的跨机构医学知识图谱表示学习方法,其特征在于,所述全局医学知识图谱的构建过程如下:主服务器生成用于各医疗机构的一组同态加密密钥,而各医疗机构利用所述同态加密密钥对本地医学知识图谱进行加密,以获得密文三元组并发送至主服务器;主服务器对接收到的所有密文三元组进行匹配并反馈回所有医疗机构,以生成各医疗机构在本地的全局医学知识图谱。4.根据权利要求1所述的跨机构医学知识图谱表示学习方法,其特征在于,所述医学实体包括诊断、症状、检查以及用药。5.根据权利要求1所述的跨机构医学知识图谱表示学习方法,其特征在于,所述共现矩阵构建时需要对矩阵中每个元素加入噪声。6.根据权利要求1所述的跨机构医学知识图谱表示学习方法,其特征在...
【专利技术属性】
技术研发人员:池胜强,李劲松,田雨,周天舒,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。