当前位置: 首页 > 专利查询>山东大学专利>正文

基于权重调整的疾病名称匹配方法及系统技术方案

技术编号:28945430 阅读:75 留言:0更新日期:2021-06-18 21:58
本发明专利技术公开了基于权重调整的疾病名称匹配方法及系统,包括:获取若干个待匹配的疾病名称;对所述若干个待匹配的疾病名称进行预处理;对预处理后的疾病名称进行分词处理;将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;计算待匹配向量与预先构建词典中每个疾病名称的向量之间的余弦相似度,将相似度最高的词向量对应的疾病名称,作为待匹配疾病名称的最佳匹配结果输出。提高疾病名称匹配的匹配精度和运算速度。

【技术实现步骤摘要】
基于权重调整的疾病名称匹配方法及系统
本专利技术涉及疾病名称匹配
,特别是涉及基于权重调整的疾病名称匹配方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。健康医疗领域中的数据集成是一个重要研究方向,其目的是将不同来源、不同模式以及存在语义冲突的数据在逻辑上和物理上进行有效的集中,从而为后续的数据分析和挖掘提供全面的数据共享。数据集成现在面临的最突出的问题是医疗实体名称和代码的不一致。
技术实现思路
为了解决现有技术的不足,本专利技术提供了基于权重调整的疾病名称匹配方法及系统;提高疾病名称匹配的匹配精度和运算速度。第一方面,本专利技术提供了基于权重调整的疾病名称匹配方法;基于权重调整的疾病名称匹配方法,包括:获取若干个待匹配的疾病名称;对所述若干个待匹配的疾病名称进行预处理;对预处理后的疾病名称进行分词处理;将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;计算待匹配向量与预先构建词典中每个疾病名称的向量之间的余弦相似度,将相似度最高的词向量对应的疾病名称,作为待匹配疾病名称的最佳匹配结果输出。第二方面,本专利技术提供了基于权重调整的疾病名称匹配系统;基于权重调整的疾病名称匹配系统,包括:获取模块,其被配置为:获取若干个待匹配的疾病名称;预处理模块,其被配置为:对所述若干个待匹配的疾病名称进行预处理;分词处理模块,其被配置为:对预处理后的疾病名称进行分词处理;向量转换模块,其被配置为:将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;输出模块,其被配置为:计算待匹配向量与预先构建词典中每个疾病名称的向量之间的余弦相似度,将相似度最高的词向量对应的疾病名称,作为待匹配疾病名称的最佳匹配结果输出。第三方面,本专利技术还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。第四方面,本专利技术还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。与现有技术相比,本专利技术的有益效果是:本专利技术的创新点在于对分词后的结果进行权重赋值,将权重赋值后的名称应用于疾病名称的匹配问题,通过建立健康医疗领域词典,将不同的疾病名称匹配至ICD10中的疾病名称。本专利技术是在医疗领域利用病人的疾病名称经专家知识分词,分成修饰性词汇、重要人体部位和核心疾病后,对重要词汇(核心疾病)设置较大权重的方式以进行疾病名称匹配的。相较于匹配准确率为60%的传统模型,本模型可以提高疾病名称的匹配准确率至76%。本专利技术有助于医疗机构合理安排医疗资源;有助于规范和推动健康医疗大数据的数据集成和数据融合。本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1为第一个实施例的方法流程图;图2为第一个实施例的各类词汇在疾病名称匹配结果中的贡献程度。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。技术术语介绍:TF-IDF:TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。其中TF指的是词频(TermFrequency),IDF是逆文本频率指数(InverseDocumentFrequency)。它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。Jieba:Jieba分词是一种常用的中文分词方法,主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,从而得到最终的切分形式。本专利技术在对病人的疾病名称匹配中,利用病人的疾病信息,设计基于权重调整的TF-IDF模型对病人的疾病名称进行匹配。实施例一本实施例提供了基于权重调整的疾病名称匹配方法;如图1所示,基于权重调整的疾病名称匹配方法,包括:S101:获取若干个待匹配的疾病名称;S102:对所述若干个待匹配的疾病名称进行预处理;S103:对预处理后的疾病名称进行分词处理;S104:将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;S105:计算待匹配向量与预先构建词典中每个疾病名称的向量之间的余弦相似度,将相似度最高的词向量对应的疾病名称,作为待匹配疾病名称的最佳匹配结果输出。示例性的,所述S101:获取若干个待匹配的疾病名称;具体步骤包括:获取某地区多家综合医院的病人的疾病信息,所述的疾病信息主要包括病人就诊记录信息中的患病数据。作为一个或多个实施例,所述S102:对所述若干个待匹配的疾病名称进行预处理;具体步骤包括:S1021:对所述病人就诊信息进行消密处理,得到去除敏感信息的数据;S1022:对去除敏感信息的数据,进行缺失值删除处理;S1023:对缺失值处理后的数据,与ICD10的疾病名称进行完全匹配,并对完全匹配的疾病名称进行删除,得到未完全匹配的疾病名称。示例性的,S1021:对所述若干个待匹配的疾病名称进行消密处理,得到去除敏感信息的数据;具体步骤包括:采用MD5算法将病人编号、姓名信息进行消密;将病人真实的编号和姓名作为MD5算法的输入,算法输出即为没有任何意义的字符串,满足消密的需求。应理本文档来自技高网
...

【技术保护点】
1.基于权重调整的疾病名称匹配方法,其特征是,包括:/n获取若干个待匹配的疾病名称;/n对所述若干个待匹配的疾病名称进行预处理;/n对预处理后的疾病名称进行分词处理;/n将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;/n计算待匹配向量与预先构建词典中每个疾病名称的向量之间的余弦相似度,将相似度最高的词向量对应的疾病名称,作为待匹配疾病名称的最佳匹配结果输出。/n

【技术特征摘要】
1.基于权重调整的疾病名称匹配方法,其特征是,包括:
获取若干个待匹配的疾病名称;
对所述若干个待匹配的疾病名称进行预处理;
对预处理后的疾病名称进行分词处理;
将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;
计算待匹配向量与预先构建词典中每个疾病名称的向量之间的余弦相似度,将相似度最高的词向量对应的疾病名称,作为待匹配疾病名称的最佳匹配结果输出。


2.如权利要求1所述的基于权重调整的疾病名称匹配方法,其特征是,对所述若干个待匹配的疾病名称进行预处理;具体步骤包括:
对所述若干个待匹配的疾病名称进行消密处理,得到去除敏感信息的数据;
对去除敏感信息的数据,进行缺失值删除处理;
对缺失值处理后的数据,与ICD10的疾病名称进行完全匹配,并对完全匹配的疾病名称进行删除,得到未完全匹配的疾病名称。


3.如权利要求1所述的基于权重调整的疾病名称匹配方法,其特征是,
对预处理后的疾病名称进行分词处理;具体步骤包括:
将预处理后的疾病名称分成修饰性词汇、重要人体部位词汇和核心疾病词汇三类。


4.如权利要求1所述的基于权重调整的疾病名称匹配方法,其特征是,将分词处理后的待匹配的疾病名称进行权重配置后,输入到向量转换模型中,输出待匹配向量;具体步骤包括:
对修饰性词汇赋予的权重值为0.2;对重要人体部位赋予的权重值为0.3;对核心疾病赋予的权重值为0.5;
将权重配置后的待匹配的疾病名称,输入到word2vec中,进行向量转化,输出待匹配的向量。


5.如权利要求1所述的基于权重调整的疾病名称匹配方法,其特征是,所述预先构建词典;具体构建步骤包括:
对ICD10疾病名称,进行分词处理,分词后得到若干个单个词汇;
将所有的单个词汇和每个词汇对应的ICD10疾病名称,放入一个词袋中,整个词袋即为词典。


6.如权利要求1所述的基于权重调整的疾病名称匹配...

【专利技术属性】
技术研发人员:李晖艾丽娜闫中敏郭伟崔立真
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1