一种医药流向数据清洗中的一种数据智能匹配方法组成比例

技术编号：28137233 阅读：17 留言：0更新日期：2021-04-21 19:08

本发明专利技术公开了一种医药流向数据清洗中的一种数据智能匹配方法，涉及大数据中数据清洗的数据匹配领域。该医药流向数据清洗中的一种数据智能匹配方法，包括数据收集模块，数据收集模块用于收集各个分部的系统中的数据，公共子串算法检索数据中的相同字符子串，公共字符子串生成正则表达式，如果能够匹配成功，那么这些数据就会被转换。该医药流向数据清洗中的一种数据智能匹配方法，通过使用算法学习人工处理结果，对结果进行推导，找出匹配规则，使用匹配规则处理其余待匹配数据，大大提高了人工处理匹配数据的效率，解决了在数据匹配领域，机器无法学习人工处理数据的结果，机器对数据匹配的处理效率低和处理正确性差的问题。匹配的处理效率低和处理正确性差的问题。匹配的处理效率低和处理正确性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种医药流向数据清洗中的一种数据智能匹配方法

[0001]本专利技术涉及大数据中数据清洗的数据匹配
，具体为一种医药流向数据清洗中的一种数据智能匹配方法。

技术介绍

[0002]数据应用分析的基础是治理好企业所存储的各种脏数据，使它们能为分析所使用。药企现有系统收集存储的第一手数据多为脏数据，很多不准或者不全。这里面的主要原因是：同一件事物，如经销商、零售、医院等，经不同的人员，录入各类系统时，有着不同的表述，包括不同的简称、俗称、缩写、起名等。由此导致不同线上线下渠道汇总来的同一个终端取名各异，企业内部数据与商品销售流量数据无法打通，导致药企内部数据统计分析费时费力。数据匹配服务，就是帮助药企对脏数据进行标准化，和已有的主数据进行匹配或者补充。
[0003]在实际应用中，对于海量医药数据的清洗，基于传统的数据匹配技术，会产生大量的人工处理审核数据，在人工处理过程，机器无法参与学习，导致人工处理效率低下。例如下面的数据样例：
[0004]1)万盛达州通川区双龙店；
[0005]2)万盛达州通川区魏兴店；
[0006]3)万盛达州通川区青宁店。
[0007]经过人工处理后，上面三个实体名称匹配下面的标准名称：
[0008]1)万盛达州通川区双龙店
‑‑
>四川省万盛药业连锁有限公司双龙连锁店；
[0009]2)万盛达州通川区魏兴店
‑‑
>四川省万盛药业连锁有限公司魏兴连锁店；
[0010]...

【技术保护点】

【技术特征摘要】
1.一种医药流向数据清洗中的一种数据智能匹配方法，包括数据收集模块，其特征在于：所述数据收集模块用于收集各个分部的系统中的数据，将其收集到主系统当中。2.根据权利要求1所述的一种医药流向数据清洗中的一种数据智能匹配方法，其特征在于：所述数据收集模块将收集到的各个分部数据传输到储存模块当中，储存模块将这些未经处理的数据单独储存在一起。3.根据权利要求2所述的一种医药流向数据清洗中的一种数据智能匹配方法，其特征在于：所述数据储存模块包括收集A处的数据和收集B处的数据。4.根据权利要求3所述的一种医药流向数据清洗中的一种数据智能匹配方法，其特征在于：所述储存模块将数据储存之后，将人工处理的匹配数据，导入到规则识别模块当中。5.根据权利要求4所述的一种医药流向数据清洗中的一种数据智能匹配方法，其特征在于：所述规则识别模块包括公共子串算法，正则表达式，所述公共子串算法检索数据中的相同字符子串，所述公共字符子串生成正则表达式，正则表达式生成相应的数据转换规则。6.根据权利要求5所述的一种医药流向数据清洗中的一种数据智能匹配方法，其特征在于：所述公共子串算法所检索出的字符子串有多个。7.根据权利要求6所述的一种医药流向数据清洗中的一种数据智能匹配方法，其特征在于：所述数据经过所述公共子串算法所检索出的字符子串有多个，然后生成多个正则表达式，每个正则表达式为一个规则，从不同地方所收集的待处理数据经过正则表达式的检索筛选，其中匹配正则表达式...

【专利技术属性】
技术研发人员：吴乃超，
申请(专利权)人：未名企鹅北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人