病案标化方法、系统及相应设备和存储介质技术方案

技术编号:33344274 阅读:30 留言:0更新日期:2022-05-08 09:35
本申请公开了病案标化方法、系统及相应设备和存储介质,其中所述方法包括:提取病案信息中的诊断词;对于每一诊断词,计算其与所有标准词的相关性分数,根据相关性分数的排序召回预定数量的最相关的标准词;计算每一诊断词与每一相应召回的标准词的文本相似度;将文本相似度大于或等于预定阈值的诊断词及相应的标准词两两输入经训练的语义相似度模型并进行语义相似度排序;选取语义相似度最高的标准词作为相应诊断词的标准诊断词。本发明专利技术能够大幅提高病案诊断词的准确性和规范性进而提高病案质量。病案质量。病案质量。

【技术实现步骤摘要】
病案标化方法、系统及相应设备和存储介质


[0001]本申请涉及电数字数据处理领域,尤其涉及一种病案标化方法。本申请还涉及一种病案标化系统及相应的计算机设备和计算机可读存储介质。

技术介绍

[0002]病案编写过程中,存在拷贝现象严重、病情记录简单不规范以及个人理解不同等多方面问题,导致病案无法如实、准确反映病人的实际病情变化、治疗效果等,同时拷贝导致的千篇一律的同种病史也会影响病案质量,造成了更大的医疗纠纷隐患。

技术实现思路

[0003]本专利技术提供一种病案标化方法、系统及相应设备和存储介质,其能够大幅提高病案诊断词的准确性和规范性进而提高病案质量。
[0004]在本专利技术的第一方面,提供一种病案标化方法,所述方法包括:
[0005]提取病案信息中的诊断词;
[0006]对于每一诊断词,计算其与所有标准词的相关性分数,根据相关性分数的排序召回预定数量的最相关的标准词;
[0007]计算每一诊断词与每一相应召回的标准词的文本相似度;
[0008]将文本相似度大于或等于预定阈值的诊断词及相应的标准词两两输入经训练的语义相似度模型并进行语义相似度排序;
[0009]选取语义相似度最高的标准词作为相应诊断词的标准诊断词。
[0010]在本专利技术的第二方面,提供一种病案标化系统,所述系统包括:
[0011]诊断词提取模块,用于提取病案信息中的诊断词;
[0012]相关标准词召回模块,用于对于每一诊断词,计算其与所有标准词的相关性分数,根据相关性分数的排序召回预定数量的最相关的标准词;
[0013]文本相似度计算模块,用于计算每一诊断词与每一相应召回的标准词的文本相似度;
[0014]语义相似度排序模块,用于将文本相似度大于或等于预定阈值的诊断词及相应的标准词两两输入经训练的语义相似度模型并进行语义相似度排序;
[0015]标准词选取模块,用于选取语义相似度最高的标准词作为相应诊断词的标准诊断词。
[0016]在本专利技术的第三方面,提供一种计算机设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述处理器执行所述计算机程序时实现根据本专利技术的第一方面的方法的步骤或者实现根据本专利技术的第二方面的系统的功能。
[0017]根据本专利技术的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据本专利技术的第一方面的方法的步骤或者实现根据本专利技术的第二方面的系统的功能。
[0018]按照本专利技术,通过提取病案信息中的诊断词,对于每一诊断词计算其与所有标准词的相关性分数,根据相关性分数的排序召回预定数量的最相关的标准词,计算每一诊断词与每一相应召回的标准词的文本相似度,将文本相似度大于或等于预定阈值的诊断词及相应的标准词两两输入经训练的语义相似度模型并进行语义相似度排序,选取语义相似度最高的标准词作为相应诊断词的标准诊断词,可自动大幅提高病案诊断词的准确性和规范性,从而提高病案质量、避免或减少人工质控病案的困难、减少质控人员的工作量。经测试,通过本专利技术标化处理后的病案,病案诊断词的准确率可高达97%以上。
[0019]结合附图阅读本专利技术实施方式的详细描述后,本专利技术的其它特点和优点将变得更加清楚。
附图说明
[0020]图1为根据本专利技术方法的一实施例的流程图;
[0021]图2为根据本专利技术系统的一实施例的框图。
[0022]为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本专利技术所必要的细节,而省略其他细节。
具体实施方式
[0023]下面参照附图对本专利技术的实施方式和实施例进行详细说明。
[0024]通过下面给出的详细描述,本专利技术的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本专利技术优选实施例的同时,它们仅为说明目的给出。
[0025]图1示出了根据本专利技术的病案标化方法的一优选实施例的流程图。
[0026]在步骤S102,提取病案信息中的诊断词。对于医生编写的病案(也称为电子病历)的纯文本内容,可通过例如自然语言处理将病案中的内容进行分类(如体征、疾病诊断、手术操作等)提取,然后对于疾病诊断和/或手术操作部分,通过例如经训练的自然语言处理模型提取诊断词。自然语言处理模型通过学习专业医师的诊断词标注进行训练。例如,病案信息包括“提示肝脂肪浸润、肝囊肿”,则提取的诊断词可以是“肝脂肪浸润”和“肝囊肿”。
[0027]在步骤S104,对于每一疾病诊断词或手术操作诊断词,计算其与预先建立的标准词库中的所有标准词的相关性分数,根据相关性分数的排序召回预定数量的最相关的标准词。标准词为ICD(International Classification of Diseases,国际疾病分类)10和ICD 9中的词。召回的最相关的标准词的数量可兼顾处理速度和准确性确定,例如可在40到70之间,例如50,例如55,例如60等。
[0028]诊断词与标准词之间的相关性分数可采用传统的BM25算法进行计算。BM25算法通常用来作搜索相关性评分,其对搜索项Q进行语素解析,生成语素q
i
;然后,对于每个搜索结果D,计算每个语素q
i
与D的相关性得分,最后,将q
i
相对于D的相关性得分进行加权求和,从而得到Q与D的相关性得分。BM25算法的一般性公式如下:由于BM25算法众所周知,在此不再赘述。
[0029]在利用BM25算法计算得到每一诊断词与所有标准词的相关性分数之后,按照相关性分数进行排序,召回最相关的例如50个标准词。
[0030]在步骤S106,计算每一诊断词与每一相应召回的标准词的文本相似度。
[0031]在实施例中,文本相似度可通过Levenshtein(莱文斯坦)距离(也称为编辑距离,即两个字符串之间由一个转成另一个所需的最小编辑操作次数)确定。即,将召回的标准词逐一与相应诊断词计算编辑距离,通过设置一个距离阈值来审核BM25算法计算的效果,如果编辑距离大于等于设置的距离阈值,则相应的召回的标准词审核通过;否则,如果编辑距离小于设置的距离阈值,则相应的召回的标准词审核未通过。
[0032]在其它实施例中,文本相似度也可通过余弦相似度、矩阵相似度等其他字符串相似度算法进行确定。
[0033]在步骤S108,确定计算的文本相似度是否大于等于预定阈值。如果计算的文本相似度大于等于预定阈值,则处理进行到步骤S110;否则,计算的文本相似度小于预定阈值,则处理进行到步骤S120。
[0034]在步骤S110,将诊断词及相应的标准词两两输入经训练的语义相似度模型并进行语义相似度排序。
[0035]在实施例中,可采用大量例如百万级的医学数据训练后的BERT模型确定诊断词及相应的标准词两两之间的语义相似度。BERT(Bidirectional Encoder Representation本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种病案标化方法,其特征在于,所述方法包括:提取病案信息中的诊断词;对于每一诊断词,计算其与所有标准词的相关性分数,根据相关性分数的排序召回预定数量的最相关的标准词;计算每一诊断词与每一相应召回的标准词的文本相似度;将文本相似度大于或等于预定阈值的诊断词及相应的标准词两两输入经训练的语义相似度模型并进行语义相似度排序;选取语义相似度最高的标准词作为相应诊断词的标准诊断词。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将文本相似度小于预定阈值的诊断词输入经训练的医学实体识别模型以识别相应诊断词中的医学实体;基于预先构建的知识图谱,根据所识别的医学实体从知识图谱召回对应的标准词;将文本相似度小于预定阈值的诊断词及从知识图谱召回的标准词两两输入经训练的语义相似度模型并进行语义相似度排序。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据一个或多个所述标准诊断词确定病案的ICD编码。4.根据权利要求1所述的方法,其特征在于,所述相关性分数使用BM25算法进行计算。5.根据权利要求1所述的方法,其特征在于,所述文本相似度为编辑距离。6.根据权利要求1所述的方法,其特征在于,所述经训练的语义相似度模型为经训练的BE...

【专利技术属性】
技术研发人员:赵建强王梦迪
申请(专利权)人:望海康信北京科技股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1