一种药品名称数据匹配方法和装置制造方法及图纸

技术编号:10891124 阅读:126 留言:0更新日期:2015-01-08 19:57
本申请提供了一种药品名称数据匹配方法,包括:获取药品名称数据;根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库;对所述药品名称标注数据通过比较算法生成相同药品名称数据组。本发明专利技术实施例还提供了对应的装置,本发明专利技术实施例通过预置字典对药品名称数据进行分词,将分词获得的药品名称标注数据进行比较计算,以获取相同名称数据组,提高了相同药品名称数据获取的成功率,减少了计算量。

【技术实现步骤摘要】
【专利摘要】本申请提供了一种药品名称数据匹配方法,包括:获取药品名称数据;根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库;对所述药品名称标注数据通过比较算法生成相同药品名称数据组。本专利技术实施例还提供了对应的装置,本专利技术实施例通过预置字典对药品名称数据进行分词,将分词获得的药品名称标注数据进行比较计算,以获取相同名称数据组,提高了相同药品名称数据获取的成功率,减少了计算量。【专利说明】—种药品名称数据匹配方法和装置
本申请涉及数据匹配
,特别是涉及一种药品名称数据匹配方法和装置。
技术介绍
在医药行业中,存在大量的医药名称,可能同一类型的药因为剂量、药名等细微的差异会产生大量数据,事实上企业很难确保其所积累数据的质量,其原因是多种多样的,如:录入错误、完整性约束缺失、信息的多种描述方式等。在一些医药批发等类似行业中,需要对药品的名称进行确切识别,以方便用户获知同类型药品。 为了解决上述应用中的问题,现有技术提出一种记录匹配方法,主要包括:首先对药品名称数据进行分词获取名称词;然后将相近名称词的药品名称数据经过比较算法获得相同名称数据组展示给操作员。现有技术中利用开源的分词工具对药品名称进行分词,对于常见的如“小儿复方赖氨酸颗粒”确实可以分为“小儿I复方I赖氨酸I颗粒”,可是对于“注射用阿莫西林钠”这种不常见的药品名称,其分词结果为“注射用I阿莫西林I钠”将原本是一种化学物质(阿莫西林钠)分成了两种化学物质的组合(阿莫西林I钠)。这种情况将导致“阿莫西林”与“阿莫西林钠”这两种化学物质混淆,影响最终的比较结果。 在现有的技术方案中,由于在分词过程中多半采用固定分词方式难以获取针对药品名称数据精确的特征词,以至于无法精确比较,无法完成对药品名称数据的相同类型确定。
技术实现思路
本申请所要解决的技术问题是提供一种药品名称数据匹配方法和装置,能够针对药品名称更快的提供相同药品名称数据组。 为了解决上述问题,本申请公开了一种药品名称数据匹配方法,包括: 获取药品名称数据; 根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库; 对所述药品名称标注数据通过比较算法生成相同药品名称数据组。 进一步,所述根据预置字典对所述药品名称数据进行分词生成药品名称标注数据包括: 根据预置字典中包含的前缀词字库、成分词字库、药效词字库和剂型词字库对药品名称数据进行分词,形成的药品名称标注数据包括前缀词、成分词、药效词和剂型词。 进一步,所述对药品名称标注数据通过比较算法生成相同药品名称数据组包括: 根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名称标注数据对应的药品名称数据判定为相同名称数据组。 进一步,所述根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词进行比较计算包括: 计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数据中的其他识别词与另一个药品名称中的成分词或药效词或其他识别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模糊相同。 进一步,所述根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词进行比较计算包括: 计算两个药品名称标注数据的成分词和药效词相似度,当所述相似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称数据为相同名称数据组。 本申请还提供了一种药品名称数据匹配装置,包括: 获取模块,用于获取药品名称数据; 分词模块,用于根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库; 比较模块,用于对所述药品名称标注数据通过比较算法生成相同药品名称数据组。 进一步,所述分词模块用于: 根据预置字典中包含的前缀词字库、成分词字库、药效词字库和剂型词字库对药品名称数据进行分词,所述药品名称标注数据至少包括前缀词、成分词、药效词和剂型词。 进一步,所述比较模块用于: 根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名称标注数据对应的药品名称数据判定为相同名称数据组。 进一步,所述比较模块用于: 计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数据中的其他识别词与另一个药品名称中的成分词或药效词或其他识别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模糊相同。 进一步,所比较模块用于: 计算两个药品名称标注数据的成分词和药效词相似度,当所述相似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称数据为相同名称数据组。 与现有技术相比,本申请包括以下优点:通过预置字典对药品名称数据进行分词,将分词获得的药品名称标注数据进行比较计算,以获取相同名称数据组,提高了相同药品名称数据获取的成功率,减少了计算量。 【专利附图】【附图说明】 图1是本专利技术一种药品名称数据匹配方法一实施例的流程图; 图2是本专利技术一种药品名称数据匹配方法一实施例中字典完善流程; 图3是本专利技术一种药品名称数据匹配方法一实施例中分词示意图; 图4是本专利技术一种药品名称数据匹配装置一实施例的结构示意图。 【具体实施方式】 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。 参照图1,示出了本申请一种药品名称数据匹配方法。 现有的药品名称数据的匹配方法中,针对分词步骤主要利用开源的分词工具对药品名称数据进行分词,由于药品名称数据的特殊性和开源的分词工具并不具备完整字典(相对于药品名称来说),因此通过常见开源的分词工具进行分词获取的药品名称标注数据并不精确,因此,一个相对于药品名称来说完整的字典对于药品名称的识别是至关重要的。在本专利技术实施例中将公开一种药品名称数据匹配方法。包括: 步骤S101、获取药品名称数据; 本专利技术实施例可以直接从现有保存药品名称数据的数据库中获取药品名称数据。 步骤S102、根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库。 在本专利技术实施例中预置的字典中针对药品名称数据提供了至少四个字库,包括前缀词字库、成分词字库、药效词字库和剂型词字库;四个字库中分别保存了尽量多的同类型的词,其中对四个类型的词区别如下: 前缀词:在药品名称数据中存在特殊的前缀信息,如“复方甘草片”这个药品名称中的“复方”就是体现规格的前缀、“小儿清热宁颗粒”中的“小儿”就是体现适用对象的前缀,这些前缀词在药品名称中确实担任重要作用,但在识别不同药品名称的时候容易造成混淆,如“小儿复方赖氨酸颗粒”、“小儿复方金银花颗粒”两个名称相本文档来自技高网
...

【技术保护点】
一种药品名称数据匹配方法,其特征在于,包括:获取药品名称数据;根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库;对所述药品名称标注数据通过比较算法生成相同药品名称数据组。

【技术特征摘要】

【专利技术属性】
技术研发人员:边旭贾西贝
申请(专利权)人:深圳市华傲数据技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1