遗漏数据确定方法、装置及计算机可读存储介质制造方法及图纸

技术编号:39307827 阅读:23 留言:0更新日期:2023-11-12 15:55
本申请实施例提供一种遗漏数据确定方法、装置及计算机可读存储介质,该方法包括:获取多个初始频繁项集;确定多个初始频繁项集中的每个初始频繁项集的待处理参数;根据每个初始频繁项集的待处理参数,对多个初始频繁项集进行筛选处理,得到至少一个目标频繁项集;其中,至少一个目标频繁项集包括第一目标频繁项集,第一目标频繁项集包括子节点数据以及与子节点数据关联的至少一个父节点数据;对于数据集合包括的每个数据组,若存在一数据组包括子节点以及与子节点数据关联的父节点数据,则将该数组包括的数据与第一目标频繁项集包括的父节点数据进行比较,确定得到该数据组中的遗漏数据。本申请实施例能够在数据采集时准确地找出遗漏数据。出遗漏数据。出遗漏数据。

【技术实现步骤摘要】
遗漏数据确定方法、装置及计算机可读存储介质


[0001]本申请涉及计算机
,具体涉及遗漏数据确定方法、装置及计算机可读存储介质。

技术介绍

[0002]随着物流行业的发展,为保证快递货物的运输效率,通常要对交通道路和周围环境进行数据采集,例如交通标牌的类别数据、建筑物的位置数据等,以便于提前获取全面的路况信息。
[0003]然而,由于海量数据采集的过程中难免会因数据遗漏导致数据采集不全面、不准确,若重复进行数据采集或检查不仅效率低,还无法保证一定能够获取到遗漏数据。
[0004]因此,现有数据采集方式存在无法有效地获取和确定遗漏数据的缺陷。

技术实现思路

[0005]本申请实施例提供一种遗漏数据确定方法、装置及计算机可读存储介质,本申请实施例可以在数据采集过程中快速、准确地确定遗漏数据。
[0006]本申请实施例提供一种遗漏数据确定方法,所述方法包括:
[0007]获取多个初始频繁项集,其中,所述多个初始频繁项集由对数据集合包括的多项数据组进行预设处理获取;
[0008]确定多个初始频繁项集中的每个初始频繁项集的待处理参数;
[0009]根据每个初始频繁项集的待处理参数,对多个所述初始频繁项集进行筛选处理,得到至少一个目标频繁项集;其中,所述至少一个目标频繁项集包括第一目标频繁项集,所述第一目标频繁项集包括子节点数据以及与所述子节点数据关联的至少一个父节点数据;
[0010]对于所述数据集合包括的每个数据组,若存在一数据组包括所述子节点以及与所述子节点数据关联的父节点数据,则将该数据组包括的数据与所述第一目标频繁项集包括的父节点数据进行比较,确定得到该数据组中的遗漏数据。
[0011]可选地,所述获取多个初始频繁项集包括:
[0012]获取数据集合;其中,所述数据集合中包括以第一预设条件区分的多项数据组;
[0013]对于所述多项数据组中的每项数据组,计算每项所述数据组中每个数据的待比较参数;
[0014]对于每项所述数据组包括的每个数据,若该数据对应的待比较参数满足预设参数要求,则在该数据所属的数据组中保留该数据,以得到多项初筛数据组;
[0015]确定所述多项初筛数据组所对应的项头表以及目标树结构,并根据所述项头表与所述目标树结构,得到多个初始频繁项集。
[0016]可选地,所述计算每项所述数据组中每个数据的待比较参数,包括:
[0017]对于每项数据组中每个数据,获取该数据的数据类别在所述数据集合中出现的次数;
[0018]获取所述数据集合中包括的所述多项数据组的总项数;
[0019]根据该数据的数据类别在所述数据集合中出现的次数以及所述数据集合中包括的所述多项数据组的总项数,得到该数据的支持度,将该数据的支持度设置为该数据的待比较参数。
[0020]可选地,所述将该数组包括的数据与所述第一目标频繁项集包括的父节点数据进行比较,确定得到该数据组中的遗漏数据,包括:
[0021]将该数组包括的数据的数据类别与所述第一目标频繁项集包括的父节点数据的数据类别进行比较,确定得到所述数据组与所述第一目标频繁项集的区别父节点数据的数据类别;其中,所述区别父节点数据为该数据组中未包含所述第一目标频繁项集中的父节点数据,所述第一目标频繁项集包括所述区别父节点数据的数据类别,所述数据组未包括所述区别父节点数据的数据类别;
[0022]确定所述区别父节点数据的数据类别为该数据组中的遗漏数据。
[0023]可选地,所述待处理参数包括置信度和提升度,所述根据每个初始频繁项集的待处理参数,对多个所述初始频繁项集进行筛选处理,得到至少一个目标频繁项集,包括:
[0024]根据每个所述初始频繁项集的置信度以及提升度,从多个所述初始频繁项集中选取置信度大于第一预设阈值且提升度大于第二预设阈值的初始频繁项集设置为目标频繁项集;
[0025]其中,所述目标频繁项集包括多个数据,将所述多个数据中的数据类别在所述数据集合出现次数最小的数据确定为所述子节点数据,将所述子节点数据之外的数据确定为所述父节点数据。
[0026]可选地,所述待处理参数包括置信度,所述方法还包括:
[0027]以置信度递减的顺序对所述至少一个目标频繁项集进行排序,得到每个所述目标频繁项集的优先级;
[0028]根据每个所述目标频繁项集的优先级,将每个所述目标频繁项集与所述数据集合包括的每个数据组进行对比。
[0029]本申请实施例还提供一种遗漏数据确定装置,所述装置包括:
[0030]初始频繁项集获取模块,用于获取多个初始频繁项集,其中,所述多个初始频繁项集由对数据集合包括的多项数据组进行预设处理获取;
[0031]待处理参数获取模块,用于确定多个初始频繁项集中的每个初始频繁项集的待处理参数;
[0032]目标频繁项集获取模块,用于根据每个初始频繁项集的待处理参数,对多个所述初始频繁项集进行筛选处理,得到至少一个目标频繁项集;其中,所述至少一个目标频繁项集包括第一目标频繁项集,所述第一目标频繁项集包括子节点数据以及与所述子节点数据关联的至少一个父节点数据;
[0033]遗漏数据获取模块,对于所述数据集合包括的每个数据组,若存在一数据组包括所述子节点以及与所述子节点数据关联的父节点数据,则用于将该数组包括的数据与所述第一目标频繁项集包括的父节点数据进行比较,确定得到该数据组中的遗漏数据。
[0034]可选地,所述初始频繁项集获取模块进一步用于:
[0035]获取数据集合;其中,所述数据集合中包括以第一预设条件区分的多项数据组;
[0036]对于所述多项数据组中的每项数据组,计算每项所述数据组中每个数据的待比较参数;
[0037]对于每项所述数据组包括的每个数据,若该数据对应的待比较参数满足预设参数要求,则在该数据所属的数据组中保留该数据,以得到多项初筛数据组;
[0038]确定所述多项初筛数据组所对应的项头表以及目标树结构,并根据所述项头表与所述目标树结构,得到多个初始频繁项集。
[0039]本申请实施例还提供一种电子设备,所述电子设备包括:
[0040]一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现如上所述的遗漏数据确定方法中的步骤。
[0041]本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行如上所述的遗漏数据确定方法中的步骤。
[0042]上述遗漏数据确定方法、装置及计算机可读存储介质,在初始频繁项集所具有的关联规则的基础上,通过对多个初始频繁项集进一步筛选得到至少一个目标频繁项集,以根据至少一个目标频繁项集具有的关联规则对现有数据与遗漏数据之间的关联进行更深层挖掘处理,从而能够得到遗漏数据与现有数据之间更紧密的关联关系,并基于该关联关系快速、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种遗漏数据确定方法,其特征在于,所述方法包括:获取多个初始频繁项集,其中,所述多个初始频繁项集由对数据集合包括的多项数据组进行预设处理获取;确定多个初始频繁项集中的每个初始频繁项集的待处理参数;根据每个初始频繁项集的待处理参数,对多个所述初始频繁项集进行筛选处理,得到至少一个目标频繁项集;其中,所述至少一个目标频繁项集包括第一目标频繁项集,所述第一目标频繁项集包括子节点数据以及与所述子节点数据关联的至少一个父节点数据;对于所述数据集合包括的每个数据组,若存在一数据组包括所述子节点,则将该数据组包括的数据与所述第一目标频繁项集包括的父节点数据进行比较,确定得到该数据组中的遗漏数据。2.根据权利要求1所述的方法,其特征在于,所述获取多个初始频繁项集包括:获取数据集合;其中,所述数据集合中包括以第一预设条件区分的多项数据组;对于所述多项数据组中的每项数据组,计算每项所述数据组中每个数据的待比较参数;对于每项所述数据组包括的每个数据,若该数据对应的待比较参数满足预设参数要求,则在该数据所属的数据组中保留该数据,以得到多项初筛数据组;确定所述多项初筛数据组所对应的项头表以及目标树结构,并根据所述项头表与所述目标树结构,得到多个初始频繁项集。3.根据权利要求2所述的方法,其特征在于,所述计算每项所述数据组中每个数据的待比较参数,包括:对于每项数据组中每个数据,获取该数据的数据类别在所述数据集合中出现的次数;获取所述数据集合中包括的所述多项数据组的总项数;根据该数据的数据类别在所述数据集合中出现的次数以及所述数据集合中包括的所述多项数据组的总项数,得到该数据的支持度,将该数据的支持度设置为该数据的待比较参数。4.根据权利要求1所述的方法,其特征在于,所述将该数组包括的数据与所述第一目标频繁项集包括的父节点数据进行比较,确定得到该数据组中的遗漏数据,包括:将该数组包括的数据的数据类别与所述第一目标频繁项集包括的父节点数据的数据类别进行比较,确定得到所述数据组与所述第一目标频繁项集的区别父节点数据的数据类别;其中,所述区别父节点数据为该数据组中未包含所述第一目标频繁项集中的父节点数据,所述第一目标频繁项集包括所述区别父节点数据的数据类别,所述数据组未包括所述区别父节点数据的数据类别;确定所述区别父节点数据的数据类别为该数据组中的遗漏数据。5.根据权利要求1所述的方法,其特征在于,所述待处理参数包括置信度和提升度,所述根据每个初始频繁项集的待处理参数,对多个所述初始频繁项集进行筛选处理,得到至少一个目标频繁项集,包括:根据每个所...

【专利技术属性】
技术研发人员:江胜
申请(专利权)人:丰图科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1