一种相似疾病挖掘的方法和应用技术

技术编号:36513644 阅读:16 留言:0更新日期:2023-02-01 15:43
本发明专利技术涉及一种相似疾病挖掘的方法和应用,该方法包括以下步骤:步骤一、构建知识图谱:所述的知识图谱包括药学知识图谱和疾病知识图谱;步骤二、基于所述的知识图谱获取疾病的向量表示:为了获取疾病的向量表示,采用随机游走的方式获取多个节点序列;以疾病为初始节点,并根据节点间的连接关系获取下一跳节点,以此类推;当获取多个节点序列后,通过Word2Vec模型来生成疾病的向量表示;步骤三、基于疾病的向量表示来评估相似度:根据疾病的向量表示计算两种疾病的余弦相似度,该余弦相似度的数值即为两种疾病间的相似度。似度的数值即为两种疾病间的相似度。似度的数值即为两种疾病间的相似度。

【技术实现步骤摘要】
一种相似疾病挖掘的方法和应用


[0001]本专利技术涉及智慧医疗
,具体涉及一种相似疾病挖掘的方法和应用。

技术介绍

[0002]本专利技术所述的相似疾病挖掘的方法可以作为处方审核系统的一部分,主要用来挖掘不同诊断术语间的相关性,为药师审核电子处方提供参考。
[0003]目前现有技术中评估疾病间相似度的主要方法还是基于编辑距离。例如公开号为CN105095665B的中国专利文献公开了一种疾病信息的结构化方法,根据预设的维度,将疾病解析为发病部位、疾病程度以及疾病本体等信息,并将两种疾病的上述信息进行比对,以达到评估疾病相似程度的目的。
[0004]由于疾病的描述多种多样,单纯地基于编辑距离评估疾病间的相似性会存在很大的偏差,直接导致疾病匹配产生很高的假阳性率。

技术实现思路

[0005]本专利技术旨在提供一种相似疾病挖掘的方法,以解决如何提高疾病间相似度度量的准确率的问题。
[0006]本专利技术的目的是解决现有技术的不足,提供一种相似疾病挖掘的方法,包括以下步骤:步骤一、构建知识图谱:所述的知识图谱包括药学知识图谱和疾病知识图谱;步骤二、基于所述的知识图谱获取疾病的向量表示:为了获取疾病的向量表示,采用随机游走的方式获取多个节点序列;以疾病为初始节点,并根据节点间的连接关系获取下一跳节点,以此类推;当获取多个节点序列后,通过Word2Vec模型来生成疾病的向量表示;步骤三、基于疾病的向量表示来评估相似度:根据疾病的向量表示计算两种疾病的余弦相似度,该余弦相似度的数值即为两种疾病间的相似度。
[0007]优选地,所述的药学知识图谱包括药品的主要成分、治疗部位、治疗疾病信息、ATC编码和治疗ICD10编码信息;所述的疾病知识图谱包括疾病的治疗、发病部位、常见症状、ICD10编码和药品与疾病的治疗关系;所述的药品的主要成分、治疗部位、治疗疾病信息通过药品的说明书获取;治疗ICD10编码信息由治疗疾病的ICD10编码进行补充;ATC编码通过药品的主要成分推理得到;疾病的治疗、发病部位、常见症状、ICD10编码通过疾病百科描述提取;药品与疾病的治疗关系通过多个电子处方获取。
[0008]优选地,所述的通过Word2Vec模型来生成疾病的向量表示分为节点序列生成和疾病向量计算两个步骤。
[0009]优选地,所述的节点序列生成具体是指通过在知识图谱上随机游走构建节点序列。
[0010]优选地,所述的在知识图谱上随机游走具体是指按照元路径随机游走。
[0011]优选地,所述的元路径是指在医学上可解释的路径。
[0012]优选地,所述的元路径具体包括: 1)药品

疾病;2)药品

症状

疾病;3)药品

主要成分

疾病;4)药品

部位

疾病;5)药品

ICD10编码

疾病。
[0013]优选地,不同的元路径采样出的节点能够通过相同的节点进行拼接以生成更长的序列,并能够通过疾病节点或者药品节点将更多不同药品或者疾病的节点拼接成一个序列。
[0014]优选地,所述的疾病向量计算中,疾病向量的输入为多个基于知识图谱游走产生的节点序列;所述的节点序列中可能包含多个通过药品节点和症状节点关联的疾病节点,亦即这些有关联的疾病节点更大可能被相似的药品治疗或者包含相同的相似症状,亦即具备相近的医学表现;采用通用的Word2Vec算法来生成知识图谱中每种节点的向量表示;通过此种方式生成的疾病向量,能够保证医学表现上越相近的疾病其向量表示的余弦相似度越大。
[0015]优选地,采用t

SNE算法将高维度的疾病的向量表示降维到2维向量,并绘制在2D坐标系上。
[0016]本专利技术还提供一种相似疾病挖掘的方法在多药多症处方中药症关系挖掘和/或扩充药症关系中的应用。
[0017]有益效果与现有技术相比,本专利技术的有益效果是:本专利技术所述的相似疾病挖掘的方法是一种基于知识图谱的相似度度量方法,其核心假设是两种疾病具备的相同的症状越多,那么这两种疾病就越相似;据此可进一步假设,如果两种疾病在知识图谱上具备更多的相同的邻接节点,那么这两种疾病就越相似。
[0018]本专利技术所述的相似疾病挖掘的方法采用通用的Word2Vec算法来生成知识图谱中每种节点的向量表示。通过此种方式生成的疾病向量,可以保证医学表现上越相近的疾病其向量表示的余弦相似度越大。同时本专利技术采用t

SNE算法将疾病的高维向量降维到2维向量,并绘制在2D坐标系上,能够在一张2D的平面图上形象地表示两个疾病的距离。
[0019]本专利技术所述的相似疾病挖掘的方法主要应用于两个场景:1.多药多症处方中药症关系挖掘。关键字匹配的方式无法确定每一种药究竟治疗处方中的哪种疾病,而基于本专利技术可评估药品治疗的适应症与处方中最相似的诊断,以此来提高药症关系挖掘的准确率。
[0020]2.扩充药症关系。本专利技术可以实现对疾病的聚类,如果某一种药能够治疗某一类别中的大部分疾病,那么大概率会治疗这一类别下的其他疾病,以此可扩充药症关系。
[0021]上述两种场景都是对药师工作的提效,最终的提取结果都需要药师进行复核。
[0022]本专利技术所述的相似疾病挖掘的方法能够基于知识图谱的随机游走算法来生成疾病的向量表示,通过余弦相似度来评估疾病的相似度,其效果要明显优于基于编辑距离的方法。
附图说明
[0023]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的具体实施方式一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限
制。
[0024]图1是药学知识图谱和疾病知识图谱的结构图。
[0025]图2是相似疾病的挖掘结果样例示意图。
[0026]图3是知识图谱样例示意图。
具体实施方式
[0027]在下文中更详细地描述了本专利技术以有助于对本专利技术的理解。
[0028]本专利技术使用的药学知识图谱和疾病知识图谱的完整结构如图1所示。
[0029]本专利技术所述的相似疾病挖掘的方法包括以下步骤:步骤一、构建如图1所示的知识图谱:所述的知识图谱包括药学知识图谱和疾病知识图谱;步骤二、基于所述的知识图谱获取疾病的向量表示:为了获取疾病的向量表示,本专利技术采用随机游走的方式获取大量的节点序列;以疾病为初始节点,并根据节点间的连接关系获取下一跳节点,以此类推。当获取大量的节点序列后,本专利技术通过Word2Vec模型来生成疾病的向量表示。
[0030]Word2Vec算法是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相似疾病挖掘的方法,其特征在于,所述的相似疾病挖掘的方法包括以下步骤:步骤一、构建知识图谱:所述的知识图谱包括药学知识图谱和疾病知识图谱;步骤二、基于所述的知识图谱获取疾病的向量表示:为了获取疾病的向量表示,采用随机游走的方式获取多个节点序列;以疾病为初始节点,并根据节点间的连接关系获取下一跳节点,以此类推;当获取多个节点序列后,通过Word2Vec模型来生成疾病的向量表示;步骤三、基于疾病的向量表示来评估相似度:根据疾病的向量表示计算两种疾病的余弦相似度,该余弦相似度的数值即为两种疾病间的相似度。2.根据权利要求1所述的相似疾病挖掘的方法,其特征在于,所述的药学知识图谱包括药品的主要成分、治疗部位、治疗疾病信息、ATC编码和治疗ICD10编码信息;所述的疾病知识图谱包括疾病的治疗、发病部位、常见症状、ICD10编码和药品与疾病的治疗关系;所述的药品的主要成分、治疗部位、治疗疾病信息通过药品的说明书获取;治疗ICD10编码信息由治疗疾病的ICD10编码进行补充;ATC编码通过药品的主要成分推理得到;疾病的治疗、发病部位、常见症状、ICD10编码通过疾病百科描述提取;药品与疾病的治疗关系通过多个电子处方获取。3.根据权利要求1所述的相似疾病挖掘的方法,其特征在于,所述的通过Word2Vec模型来生成疾病的向量表示分为节点序列生成和疾病向量计算两个步骤。4.根据权利要求3所述的相似疾病挖掘的方法,其特征在于, 所述的节点序列生成具体是指通过在知识图谱上随机游走构建节点序列。5.根据权利要求4所述的相似疾病挖掘的方法,其...

【专利技术属性】
技术研发人员:徐晓涵闫盈盈翟所迪赵俊周谦
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1