一种相似病历推荐方法及系统技术方案

技术编号:36978854 阅读:24 留言:0更新日期:2023-03-25 17:58
本发明专利技术提供一种相似病历推荐方法及系统,系统包括病历数据预处理模块,用于获取电子病历并进行预处理以及抽取电子病历中的关键内容、以构建电子病历的知识图谱;疾病知识图谱构建模块,包括模式层构建单元、数据预标注单元、实体关系抽取单元、知识图谱表示单元、及知识图谱存储单元;知识表示模块,包括知识表示学习单元及病历表示单元;通过知识图谱学习实体的表示,进而用病历中的实体表示整个电子病历;相似病历推荐模块,包括病历相似度计算单元和相似病历推荐单元,使用知识图谱的表示计算任意两份电子病历的相似度,使用排序的方式计算电子病历数据库以选定与电子病历最相似的电子病历并进行推荐。的电子病历并进行推荐。的电子病历并进行推荐。

【技术实现步骤摘要】
一种相似病历推荐方法及系统


[0001]本专利技术涉及数字医疗
,特别涉及一种相似病历推荐方法及系统。

技术介绍

[0002]随着医疗信息化的发展,电子病历逐步取代手写病历,积累了患者就诊过程中大量的结构化与非结构化数据,是重要的医疗信息资源。电子病历是患者医疗全过程的记录,保存了患者基本信息、发病情况以及治疗方案等,具有复杂的语言结构和丰富的语义知识。
[0003]知识图谱可有效组织数据以及数据间的关系,通过实体与关系抽取、知识表示等步骤,将疾病、症状等实体以及关联关系从繁杂的数据中识别出来,构建医疗知识图谱。
[0004]此基础上进行相似病历检索从而获得相似的病历,辅助医生进行诊断和决策,有助于提高对医疗数据的利用,挖掘电子病历数据价值,提供相似患者的诊疗经验以及相关特征统计信息,为医生诊疗过程提供辅助支持。

技术实现思路

[0005]基于此,本专利技术的目的是提供一种相似病历推荐方法及系统,用于提高对医疗数据的利用,挖掘电子病历数据价值,提供相似患者的诊疗经验以及相关特征统计信息,为医生诊疗过程提供辅助支持。
[0006]本专利技术一方面提供一种相似病历推荐系统,包括:
[0007]病历数据预处理模块,用于获取电子病历并对电子病历进行预处理以及抽取电子病历中的关键内容,根据预处理后的电子病历以及抽取的关键内容表示电子病历并构建电子病历的知识图谱;
[0008]疾病知识图谱构建模块,包括模式层构建单元、数据预标注单元、实体关系抽取单元、知识图谱表示单元、以及知识图谱存储单元;所述模式层构建单元用于自顶向下的模式构建疾病的知识图谱,需要定义疾病相关的本体和关系;所述数据预标注单元对数据进行人工标注实体和关系,以便实体和关系抽取模型的训练;所述实体关系抽取单元,即使用模型对病历中的数据进行实体和关系的自动抽取,抽取的内容包括模式层定义的实体和关系;所述知识图谱表示单元,使用RDF三元组的方式表示抽取的知识和实体;所述知识图谱存储单元,将知识图谱三元组存储在图谱数据库中,经过对本体和关系的定义及分析得到疾病知识图谱模式库框架;
[0009]知识表示模块,包括知识表示学习单元以及病历表示单元;通过知识图谱学习实体的表示,进而用病历中的实体表示整个电子病历;
[0010]相似病历推荐模块,包括病历相似度计算单元和相似病历推荐单元,使用知识图谱的表示计算任意两份电子病历的相似度,并使用排序的方式计算电子病历数据库以选定与电子病历最相似的电子病历并进行推荐,所述电子病历数据库包括医院管理信息系统。
[0011]另外,根据本专利技术上述的相似病历推荐系统,还可以具有如下附加的技术特征:
[0012]进一步地,
[0013]模式层构建单元,用于构建本体关系图,所述本体关系图包括五类实体、以及十五类实体关系,所述五类实体为将电子病历中的实体定义为五类,所述十五类实体关系为将实体之间的关系定义为十五类;
[0014]数据预标注单元,用于为实体抽取任务进行数据标注,采取BIO标注法,其中,B为Begin,表示实体的开头;I为Internal,表示实体的其余部分;O为Other,表示非实体;
[0015]实体关系抽取单元,使用BERT+BiLSTM+CRF的神经网络语言模型结构进行实体和关系的抽取,其中,BERT层使用BERT

Base

Chinese模型;中间层使用BiLSTM,输入向量序列,计算向量序列的得分后输出;输出层使用CRF模型,CRF层获取分数矩阵后计算各标签得分,输出得分最高的标签作为预测结果;
[0016]知识图谱表示单元,抽取的知识使用<实体1,关系,实体2>的RDF三元组进行描述实体与实体之间的关系,采用图数据库Neo4j存储知识图谱,Neo4j利用节点和边管理数据,其中,节点代表实体,边代表关系。
[0017]进一步地,
[0018]知识表示学习单元,知识图谱的表示使用Trans X(Trans E、Trans H、Trans R、Trans D)系列模型进行表示;
[0019]病历表示单元,由知识表示学习得到知识图谱中实体和关系的向量表示,用实体和关系向量表示电子病历。
[0020]进一步地,使用Trans X(Trans E、Trans H、Trans R、Trans D)系列模型进行表示的步骤具体包括:
[0021]给定三元组(h,r,t),关系r被定义为一个平移向量,当三元组(h,r,t)成立时,尾实体向量和头实体向量与关系向量的和更为接近,当三元组不成立时,尾实体向量的头实体和关系向量相加较远,通过优化得分函数f
r
(h,t)进行知识表示的学习。
[0022]进一步地,用实体和关系向量表示电子病历的步骤具体包括:
[0023]设A和B两篇电子病历分别为A=(a1,a2,

,a
n
)和B=(b1,b2,

,b
m
),其中a
n
和b
m
分别为实体或关系的向量表示,n和m分别为A和B两篇病历中各自的实体关系总数量,定义词语的相似度为其中,w
i
和w
j
为权重系数,可以将电子病历表示为词相似度的向量A=[s
11
,s
12


,s
nm
],B=[s
11
,s
12


,s
nm
],由此得到A、B两份电子病历的向量化表示。
[0024]进一步地,
[0025]相似度计算单元,通过余弦相似度计算病历相似度,由实体和关系向量表示的电子病历篇章向量A和B分别为A=[s
11
,s
12


,s
nm
]和B=[s
11
,s
12


,s
nm
],则相似度计算使用余弦相似度进行计算;
[0026]相似病历推荐单元,TOP K电子病历推荐,电子病历集中病历的数量较大,当输入新病历查找相似病历时,不需要展示所有的病历和相似度,只需要将最相似的,即相似度最大的前K篇电子病历进行展示即可,其中K为正整数。
[0027]进一步地,通过堆排序算法从电子病历数据库中筛选出相似度最大的电子病历。
[0028]进一步地,模式层构建单元中定义了疾病的五种实体和实体间的十五类关系,其中,实体分别为身体部位(BODY)、症状和体征(SIGNS)、疾病和诊断(DISEASE)、检查和检验(CHECK)、治疗(TREATMENT);
[0029]关系分别为<症状和体征,s_locate_b(疾病位于身体部位),身体部位>、&am本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相似病历推荐系统,其特征在于,包括:病历数据预处理模块,用于获取电子病历并对电子病历进行预处理以及抽取电子病历中的关键内容,根据预处理后的电子病历以及抽取的关键内容表示电子病历并构建电子病历的知识图谱;疾病知识图谱构建模块,包括模式层构建单元、数据预标注单元、实体关系抽取单元、知识图谱表示单元、以及知识图谱存储单元;所述模式层构建单元用于自顶向下的模式构建疾病的知识图谱,需要定义疾病相关的本体和关系;所述数据预标注单元对数据进行人工标注实体和关系,以便实体和关系抽取模型的训练;所述实体关系抽取单元,即使用模型对病历中的数据进行实体和关系的自动抽取,抽取的内容包括模式层定义的实体和关系;所述知识图谱表示单元,使用RDF三元组的方式表示抽取的知识和实体;所述知识图谱存储单元,将知识图谱三元组存储在图谱数据库中,经过对本体和关系的定义及分析得到疾病知识图谱模式库框架;知识表示模块,包括知识表示学习单元以及病历表示单元;通过知识图谱学习实体的表示,进而用病历中的实体表示整个电子病历;相似病历推荐模块,包括病历相似度计算单元和相似病历推荐单元,使用知识图谱的表示计算任意两份电子病历的相似度,并使用排序的方式计算电子病历数据库以选定与电子病历最相似的电子病历并进行推荐,所述电子病历数据库包括医院管理信息系统。2.根据权利要求1所述的相似病历推荐系统,其特征在于,模式层构建单元,用于构建本体关系图,所述本体关系图包括五类实体、以及十五类实体关系,所述五类实体为将电子病历中的实体定义为五类,所述十五类实体关系为将实体之间的关系定义为十五类;数据预标注单元,用于为实体抽取任务进行数据标注,采取BIO标注法,其中,B为Begin,表示实体的开头;I为Internal,表示实体的其余部分;O为Other,表示非实体;实体关系抽取单元,使用BERT+BiLSTM+CRF的神经网络语言模型结构进行实体和关系的抽取,其中,BERT层使用BERT

Base

Chinese模型;中间层使用BiLSTM,输入向量序列,计算向量序列的得分后输出;输出层使用CRF模型,CRF层获取分数矩阵后计算各标签得分,输出得分最高的标签作为预测结果;知识图谱表示单元,抽取的知识使用<实体1,关系,实体2>的RDF三元组进行描述实体与实体之间的关系,采用图数据库Neo4j存储知识图谱,Neo4j利用节点和边管理数据,其中,节点代表实体,边代表关系。3.根据权利要求1所述的相似病历推荐系统,其特征在于,知识表示学习单元,知识图谱的表示使用Trans X(Trans E、Trans H、Trans R、Trans D)系列模型进行表示;病历表示单元,由知识表示学习得到知识图谱中实体和关系的向量表示,用实体和关系向量表示电子病历。4.根据权利要求3所述的相似病历推荐系统,其特征在于,使用Trans X(Trans E、Trans H、Trans R、Trans D)系列模型进行表示的步骤具体包括:给定三元组(h,r,t),关系r被定义为一个平移向量,当三元组(h,r,t)成立时,尾实体向量和头实体向量与关系向量的和更为接近,当三元组不成立时,尾实体向量的头实体和
关系向量相加较远,通过优化得分函数f
r
(h,t)进行知识表示的学习。5.根据权利要求3所述的相似病历推荐系统,其特征在于,用实体和关系向量表示电子病历的步骤具体包括:设A和B两篇电子病历分别为A=(a1,a2,

,a
n
)和B=(b1,b2,

,b
m
),其中a
n
和b
m
分别为实体或关系的向量表示,n和m分别为A和B两篇病历中各自的实体关系总数量,定义词语的相似度为其中,w
i
和w
j
为权重系数,可以将电子病历表示为词相似度的向量A=[s
11
,s
12


,s
nm
],B=[s
11
,s
12


...

【专利技术属性】
技术研发人员:段丽芬刘晓梅李丽君李介陶清华张恒星敖凌翔
申请(专利权)人:郑州中业科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1