一种结构化病历查重的方法、装置和存储介质制造方法及图纸

技术编号:34011005 阅读:28 留言:0更新日期:2022-07-02 14:35
本发明专利技术涉及数字医疗技术领域。本发明专利技术公开了一种结构化病历查重的方法,所述方法包括:获取结构化病历,对结构化病历进行过滤得到病历数据,提取病历数据中的一个或多个关键词;提取关键词的64位指纹特征,对关键词对应的64位指纹特征进行加权累加,得到结构化病历的64位特征序列串;将64位特征序列串分成连续的4段16位子序列串,根据结构化病历的4段16位子序列串、病历类别和疾病诊断编码生成查询语句,基于查询语句从病历数据库中获取查询结果;确定结构化病历的64位特征序列串与查询结果中包含的病历的64位特征序列串的海明距离,根据海明距离确定是否查询到重复的病历。本发明专利技术能够快速定位到相似的结构化病历,查重效率更高。更高。更高。

【技术实现步骤摘要】
一种结构化病历查重的方法、装置和存储介质


[0001]本专利技术涉及数字医疗
,尤其涉及一种结构化病历查重的方法、装置和存储介质。

技术介绍

[0002]在医疗信息系统中,医生通过模板快速生成病历文档,再按照结构化的方式进行书写。但是,存在部分医生通过复制粘贴功能,快速完成病历书写,出现了拷贝病历的情况。尤其是在具有相同疾病的患者时,出现主诉、现病史、既往史和处理方式等完全一样的情况,甚至连标点符号也会一样。拷贝病历导致病历失去了价值,是对患者的不负责任,造成医疗文书书写质量差,可能会引起医疗纠纷。
[0003]现有拷贝病历的筛查工作要么需要大量人工介入比对,要么就通过程序单纯地进行文本比对,查重效率都十分低下。

技术实现思路

[0004]本专利技术还提出一种结构化病历查重的方法,基于结构化病历在病历数据库中查询是否存在重复的病历,包括:
[0005]S1,获取所述结构化病历,根据预先定义的标签属性,过滤掉所述结构化病历中与所述标签属性对应的标签内容,得到病历数据,提取所述病历数据中的一个或多个关键词;
[0006]S2,使用哈希算法提取所述关键词的64位二进制指纹特征,对所述关键词对应的64位二进制指纹特征进行加权累加,得到所述结构化病历的64位二进制特征序列串;
[0007]S3,将所述64位二进制特征序列串分成连续的4段16位二进制子序列串,根据所述4段16位二进制子序列串、所述结构化病历的病历类别和所述结构化病历的疾病诊断编码生成与所述病历数据库对应的查询语句,基于所述查询语句从所述病历数据库中获取查询结果;
[0008]S4,确定所述结构化病历的64位二进制特征序列串与所述查询结果中包含的病历的64位二进制特征序列串的海明距离,当所述海明距离小于或等于3时,则查询到重复的病历,否则未查询到重复的病历。
[0009]进一步的,所述结构化病历的格式为HTML格式,所述标签属性为HTML格式的标签属性。
[0010]进一步的,所述步骤S1中提取所述病历数据中的一个或多个关键词包括步骤:
[0011]S31,对所述病历数据按照完整句子进行分割,得到多个分割后的句子;
[0012]S32,对每个分割后的句子进行分词和词性标注,并过滤掉停用词,将词性满足预定条件的单词作为候选关键词;
[0013]S33,构建候选关键词图G=(V,E),其中V为节点集,所述节点集中的节点对应所述候选关键词,E为边的集合,采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,其中K为正整数;
[0014]S34,根据迭代计算公式初始化各节点的权重,然后迭代计算各节点的权重,直至收敛,所述迭代计算公式为:
[0015][0016]其中,WS(V
i
)表示节点V
i
的排名值即节点的权重,d为阻尼因数,In(V
i
)表示节点V
i
的前驱节点集合,Out(V
j
)表示节点V
j
的后继节点集合,WS(V
j
)表示节点V
j
的排名值,w
ji
为节点V
j
和节点V
i
之间的边的权重系数,w
jk
为节点V
j
和节点V
k
之间的边的权重系数,i、j和k均为正整数;
[0017]S35,对节点的权重进行倒序排序,从而得到最重要的T个单词,作为选中关键词,其中T为正整数;
[0018]S36,将所述步骤S35得到所述选中关键词在所述病历数据中进行标记,若形成相邻词组,则组合成多词关键词;
[0019]S37,将所述步骤S35得到的所述选中关键词和所述步骤S36得到的所述多词关键词作为结构化病历的关键词。
[0020]进一步的,所述步骤S2中的哈希算法为CityHash算法或MurmurHash算法。
[0021]进一步的,所述步骤S2中对所述关键词对应的64位二进制指纹特征进行加权累加使用的算法为SimHash算法。
[0022]进一步的,所述预先定义的标签属性至少包括基本信息和不可书写区域分别对应的标签属性。
[0023]进一步的,所述步骤S3中基于所述查询语句从所述病历数据库中获取查询结果,包括:基于所述查询语句从所述病历数据库中查询任意一段16位二进制子序列串、病历类别和疾病诊断编码分别与所述结构化病历的对应位置的一段16位二进制子序列串、病历类别和疾病诊断编码一致的病历。
[0024]本专利技术还提出一种结构化病历查重的装置,所述结构化病历查重的装置包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如上所述的结构化病历查重的方法。
[0025]本专利技术还提出了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序运行时执行如上所述的结构化病历查重的方法。
[0026]本专利技术提供的技术方案带来的有益效果是:
[0027]本专利技术实施例的一种结构化病历查重的方法和装置,相较于人工介入比对的方式和单纯地进行文本比对的方式,查重效率更高,能够快速定位到相似的结构化病历。
附图说明
[0028]图1为本专利技术实施例的一种结构化病历查重的方法的流程图;
[0029]图2为本专利技术实施例的一种构建病历数据库的示意图;
[0030]图3为本专利技术实施例所涉及的一种结构化病历查重的装置结构示意图。
具体实施方式
[0031]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0032]实施例一:
[0033]如图1所示为本专利技术实施例的一种结构化病历查重的方法的流程图,示出了该方法的具体实施步骤,包括:
[0034]S1,获取所述结构化病历,根据预先定义的标签属性,过滤掉所述结构化病历中与所述标签属性对应的标签内容,得到病历数据,提取所述病历数据中的一个或多个关键词;
[0035]S2,使用哈希算法提取所述关键词的64位二进制指纹特征,对所述关键词对应的64位二进制指纹特征进行加权累加,得到所述结构化病历的64位二进制特征序列串;
[0036]S3,将所述64位二进制特征序列串分成连续的4段16位二进制子序列串,根据所述4段16位二进制子序列串、所述结构化病历的病历类别和所述结构化病历的疾病诊断编码生成与所述病历数据库对应的查询语句,基于所述查询语句从所述病历数据库中获取查询结果;
[0037]S4,确定所述结构化病历的64位二进制特征序列串与所述查询结果中包含的病历的64位二进制特征序列串的海明距离,当所述海明距离小于或等于3时,则查询到重复的病历,否则未查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化病历查重的方法,基于结构化病历在病历数据库中查询是否存在重复的病历,其特征在于,包括步骤:S1,获取所述结构化病历,根据预先定义的标签属性,过滤掉所述结构化病历中与所述标签属性对应的标签内容,得到病历数据,提取所述病历数据中的一个或多个关键词;S2,使用哈希算法提取所述关键词的64位二进制指纹特征,对所述关键词对应的64位二进制指纹特征进行加权累加,得到所述结构化病历的64位二进制特征序列串;S3,将所述64位二进制特征序列串分成连续的4段16位二进制子序列串,根据所述4段16位二进制子序列串、所述结构化病历的病历类别和所述结构化病历的疾病诊断编码生成与所述病历数据库对应的查询语句,基于所述查询语句从所述病历数据库中获取查询结果;S4,确定所述结构化病历的64位二进制特征序列串与所述查询结果中包含的病历的64位二进制特征序列串的海明距离,当所述海明距离小于或等于3时,则查询到重复的病历,否则未查询到重复的病历。2.根据权利要求1所述的方法,其特征在于,所述结构化病历的格式为HTML格式,所述标签属性为HTML格式的标签属性。3.根据权利要求1所述的方法,其特征在于,所述步骤S1中提取所述病历数据中的一个或多个关键词包括步骤:S31,对所述病历数据按照完整句子进行分割,得到多个分割后的句子;S32,对每个分割后的句子进行分词和词性标注,并过滤掉停用词,将词性满足预定条件的单词作为候选关键词;S33,构建候选关键词图G=(V,E),其中V为节点集,所述节点集中的节点对应所述候选关键词,E为边的集合,采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,其中K为正整数;S34,根据迭代计算公式初始化各节点的权重,然后迭代计算各节点的权重,直至收敛,所述迭代计算公式为:其中,WS(V
i
)表示节点V
i
的排名值即节点的权重,d为阻尼因数,In(V
i
)表示节点V
i
的前驱节点集合,Out(V

【专利技术属性】
技术研发人员:徐达雄李程扬黄艺纯江振华王远春
申请(专利权)人:智业软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1