一种针对历史线下门店录入数据的清洗及去重方法技术

技术编号:34949559 阅读:14 留言:0更新日期:2022-09-17 12:26
本发明专利技术提供一种针对历史线下门店录入数据的清洗及去重方法,其特征在于:包括以下步骤:S1:设计数据清洗模型,并兼容多个门店终端系统的清洗需求;S2:通过该数据清洗模型,对历史线下门店录入数据进行清洗,输出清洗后的数据集及清洗规范:S3:针对数据清洗模型处理后的有效门店数据做原始数据集去重处理:S4:构建门店池,将处理后的历史门店数据引入,结合门店编码做关联反馈,同时返回是否重复的结果到系统前端展示,因此,发明专利技术此俩个模型旨在解决真假门店的有效信息、创建门店唯一授权以及门店赋码;清洗模型是能够让整个门店形成一个门店池约束规范;去重模型是能够让门店唯一性识别且能快速返回授权通过等信息。识别且能快速返回授权通过等信息。识别且能快速返回授权通过等信息。

【技术实现步骤摘要】
一种针对历史线下门店录入数据的清洗及去重方法


[0001]本专利技术属于数据处理
,尤其涉及一种针对历史线下门店录入数据的清洗及去重方法。

技术介绍

[0002]蒙牛集团常温事业部,主要负责常温产品渠道下的销售业务。部门采购了很多业务系统,包含:牛人搭档系统、牛掌柜系统、智网1.0系统、店仓系统,系统主要是围绕整个部门的网点门店数据,智网、牛人搭档、牛掌柜等系统间同一网点无唯一标识,无法实现业务联动。需要使用机器学习的方法做自动化去重处理。
[0003]目前的主要问题是:
[0004]多个门店录入系统,独立数据未连接;
[0005]多个系统历史门店创建基础数据,不符合蒙牛业务规范,导致门店有大量重复,不可使用;
[0006]多个系统间同一网点无唯一标识,无法实现业务联动;
[0007]门店拜访信息不准确,导致各个系统下单不准确,财务结账效率低,另外,下单不准确指的是:业务通过唯一性的门店做订货发货的订单分发,但是目前,门店不唯一,有重复录入、虚拟不存在的门店在数据里,导致无法精准下单,影响的是业务员拜访的情况,从而影响考核问题。
[0008]财务结账效率低指的是:门店不存在,导致订单不准确,销售金额和利润等等数值均不准确,结果导致财务考核拜访业务员的时候,效率低,需要一一去核对确认。。

技术实现思路

[0009]为了多个业务系统间同一网点无唯一标识,无法实现跨业务层的联动,同时,无法解决数据中台的无效门店,进而影响到集团门店的进收货业务以及常温渠道业务门店拜访考核业务的问题。
[0010]本专利技术的设计思路是,提出两个模型旨在解决真假门店的有效信息、创建门店唯一授权以及门店赋码,新建门店池,将处理后的历史门店数据引入,结合门店编码做关联反馈;针对门店清洗模块,进行清洗模型规范,系统约束规范;针对门店去重模块,进行去重算法模型,返回唯一门店,并赋码,形成门店唯一编码。流入门店池,同时返回是否重复的结果到系统前端展示。
[0011]为了实现上述目的,本专利技术所采用的具体技术方案如下:
[0012]一种针对历史线下门店录入数据的清洗及去重方法,包括以下步骤:
[0013]S1:设计数据清洗模型,并兼容多个门店终端系统的清洗需求;
[0014]S2:通过该数据清洗模型,对历史线下门店录入数据进行清洗,输出清洗后的数据集及清洗规范:
[0015]所述清洗规范包括标准输入规则以及校验规则,标准输入规则包含多个字段,不
满足校验规则的数据被识别为无效数据,不参与数据清洗;
[0016]S3:针对数据清洗模型处理后的有效门店数据做原始数据集去重处理:
[0017]通过相似度处理算法进行门店唯一性识别,并赋码,形成门店唯一编码;
[0018]S4:构建门店池,将处理后的历史门店数据引入,结合门店编码做关联反馈,同时返回是否重复的结果到系统前端展示。
[0019]作为优选,所述数据清洗模型的输入与输出方法包括以下步骤:
[0020]1)有效无效判定
[0021]基于校验规则对输入数据进行有效/无效判定;
[0022]输出无效数据及原因;
[0023]并将有效数据流入下层,继续清洗。
[0024]作为优选,所述步骤S2原始数据集去重处理包括以下步骤:
[0025]1)基于行政区域进行初筛
[0026]若行政区域由高到低唯一,则该门店唯一,并输出唯一的门店;
[0027]并将该唯一门店的数据流入下层,继续清洗;
[0028]4)对上述处理的数据进行二筛
[0029]2)首先通过分词过滤对在整个历史门店数据池里,某一词语出现的频次,进行由高到低排序,去掉常用的词语,确定需要做权重配比的多个分词短文本作为标签;
[0030]对初步过滤后的分词短文本,基于余弦相似度和决策树算法综合处理每一家门店的相似度值;
[0031]输出多个维度的余弦相似度;
[0032]5)通过模型调参来确定总相似度阈值
[0033]得到两两门店间的特征向量集,并设定总相似度来判定门店是否重复;
[0034]若总相似度低于阈值0.8,则判定门店不重复,否则验证不通过,验证结束;
[0035]最后结合CARD算法进行门店唯一性判断;
[0036]具体的,分别求得对应的字段相似度值,然后通过1,1,1,1,计算总相似度值,最后通过CARD算法确认唯一性,CARD算法其实是做了一个二分类,即:0,1(0是不重复,1是重复),进而给到业务做0标签数据的业务大区核对。
[0037]作为优选,所述余弦相似度计算公式为:
[0038]其中,A:代表一个字段的向量值,B:代表另一个字段的向量值,分别按照向量A和向量B做余弦相似度。
[0039]作为优选,所述赋码流程包括以下步骤:
[0040]前期是将收集的各大区业务数据,即:SAP平台的数据做清洗去重。后续是将重复的门店数据给到业务大区做校验,并根据业务含义确定是否存在这样的门店,如不存在,则关闭,否则,待确认。同时,业务需要拿到不重复的数据做校验,因为在此之前做了部分的评估,同时定于阈值在0.7,经过判定,业务确认该阈值可以唯一性辨别90%的门店。后面,将
待确认的重复数据和不重复的数据同时给到MDG的负责人,即:给到蒙牛主数据平台,重新给这些门店做唯一性赋码,即:该编码是蒙牛编码,后续,将带有编码的门店总数据下发到SAP,同时也返回到数据中台做门店池积累汇总,由门店池统一返给前端采集平台,达到闭环效果。
[0041]作为优选,所述去重处理还包括模型的评估和测试;所述模型评估包括数据集评估和稳定性评估;
[0042]所述数据集评估是基于二分类模型中的预测值和实际值,按照分层结合简单随机抽样的方式,以混淆矩阵为前提,通过几个评价指标来体现;
[0043]所述稳定性评估是检查比较几个不同时间段的数据;
[0044]测试通过的门店,会封装为通用型API接口,一部分返回到门店池,另一部分返回给前端做创建门店唯一性授权。。
[0045]与现有技术相比,本专利技术具有如下有益效果:
[0046]1.设计清洗模型是能够让整个门店形成一个门店池约束规范,即:规则。
[0047]2.设计去重模型是能够让门店唯一性识别且能快速返回授权通过等信息。
附图说明
[0048]图1是本专利技术的门店赋码的逻辑框图。
[0049]图2是本专利技术清洗模型标准输入和校验规则的示意图。
[0050]图3是本专利技术初筛示意图。
[0051]图4为本专利技术二筛流程框图。
[0052]图5为本专利技术总相似度的模型调参流程示意图。
[0053]图6为本专利技术三层漏斗的流程框图。
[0054]图7为本专利技术链路逻辑处理示意图。
具体实施方式
[0055]为了使本
的人员更好本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对历史线下门店录入数据的清洗及去重方法,其特征在于:包括以下步骤:S1:设计数据清洗模型,并兼容多个门店终端系统的清洗需求;S2:通过该数据清洗模型,对历史线下门店录入数据进行清洗,输出清洗后的数据集及清洗规范:所述清洗规范包括标准输入规则以及校验规则,标准输入规则包含多个字段,不满足校验规则的数据被识别为无效数据,不参与数据清洗;S3:针对数据清洗模型处理后的有效门店数据做原始数据集去重处理:通过相似度处理算法进行门店唯一性识别,并赋码,形成门店唯一编码;S4:构建门店池,将处理后的历史门店数据引入,结合门店编码做关联反馈,同时返回是否重复的结果到系统前端展示。2.如权利要求1所述的一种针对历史线下门店录入数据的清洗及去重方法,其特征在于:所述数据清洗模型的输入与输出方法包括以下步骤:1)有效无效判定基于校验规则对输入数据进行有效/无效判定;输出无效数据及原因;并将有效数据流入下层,继续清洗。3.如权利要求1所述的一种针对历史线下门店录入数据的清洗及去重方法,其特征在于:所述步骤S2原始数据集去重处理包括以下步骤:1)基于行政区域进行初筛若行政区域由高到低唯一,则该门店唯一,并输出唯一的门店;并将该唯一门店的数据流入下层,继续清洗;2)对上述处理的数据进行二筛1)首先通过分词过滤对在整个历史门店数据池里,某一词语出现的频次,进行由高到低排序,去掉常用的词语,确定需要做权重配比的多个分词短文本作为标签;对初步过滤后的分词短文本,基于余弦相似度和决策树算法综合处理每一家门店的相似度值;输出多个维度的余弦相似度;3)通过模型调参来确定总相似度阈值得到两两门...

【专利技术属性】
技术研发人员:陈靖彭王凯歌郑文涛郑炯刘瑞宝张决董晓欢杨立吴含李海红刘彩宾薛蛟张大伟禹智媛王建王浩锦黄彬陈贤勇
申请(专利权)人:内蒙古蒙牛乳业集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1