一种数据更新方法、装置、设备及介质制造方法及图纸

技术编号:33211309 阅读:15 留言:0更新日期:2022-04-27 16:47
本申请涉及数据处理技术,提供一种数据更新方法、装置、设备及介质,所述方法包括:获取数据源的增量实体数据;从存量实体数据中确定出相关存量实体数据;确定相关存量实体数据所属的存量连通体,将同一个存量连通体所包含的相关存量实体数据作为实际相关存量实体数据;合并增量实体数据和实际相关存量实体数据,得到扩展增量实体数据;根据扩展增量实体数据的关键项/组合项构建扩展增量实体数据所属的增量连通体;对增量连通体中的扩展增量实体数据进行筛选,得到实际增量实体数据;将实际增量实体数据以对应的唯一数据ID为索引更新至存量实体列表中。通过上述方法不仅可以及时的更新数据,而且可以提升数据使用过程中的稳定性和准确性。和准确性。和准确性。

【技术实现步骤摘要】
一种数据更新方法、装置、设备及介质


[0001]本专利技术涉及数据处理领域,具体涉及一种数据更新方法、装置、设备及介质。

技术介绍

[0002]数据的质量将直接严重影响后续数据的应用和处理。对于工商类数据的加工而言,数据的准确性、完整性、及时性直接影响到用户的决策正确与否。
[0003]目前业内对数据的更新、纠错大部分集中在数据表的统一化处理或者更新数据表上面,数据更新、纠错侧重于对数据表的更新,无法准确的做到数据的错误识别和更新。

技术实现思路

[0004]本专利技术提供一种数据更新方法、装置、设备及介质,其主要目的在于解决现有技术中数据更新不准确的问题。
[0005]为实现上述目的,本专利技术提供一种数据更新方法,包括以下步骤:
[0006]获取数据源的增量实体数据,所述增量实体数据包括关键项和组合项;
[0007]从存量实体数据中确定出相关存量实体数据,其中,所述相关存量实体数据指与增量实体数据具有相同组合项或关键项的存量实体数据;
[0008]确定所述相关存量实体数据所属的存量连通体,其中,每一条所述相关存量实体数据对应一个所述存量连通体,一个所述存量连通体中包括多条所述相关存量实体数据,将同一个所述存量连通体所包含的相关存量实体数据作为实际相关存量实体数据;其中,每个所述存量连通体包含至少两个节点,每个节点表示一条实际相关存量实体数据;在同一个存量连通体中,任意两个相邻节点具有相同的关键项或组合项;
[0009]合并所述增量实体数据和所述实际相关存量实体数据,得到扩展增量实体数据;
[0010]根据所述扩展增量实体数据的关键项或组合项构建扩展增量实体数据所属的增量连通体;其中,每一条所述扩展增量实体数据对应一个所述增量连通体,一个所述增量连通体中包括多条所述扩展增量实体数据,每个所述增量连通体包括至少两个节点,每个节点表示一条扩展增量实体数据,在同一个增量连通体中,任意两个相邻节点具有相同的关键项或组合项;
[0011]对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据;其中,所述实际增量实体数据的唯一数据ID为增量连通体中的多条扩展增量实体数据的唯一数据ID中最小的唯一数据ID;
[0012]将所述实际增量实体数据以对应的唯一数据ID为索引更新至存量实体列表中。
[0013]可选地,所述对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据,包括:
[0014]确定筛选字段,所述筛选字段包括需要筛选的至少一个关键项或/和至少一个组合项;
[0015]利用设定的筛选规则对同一个所述增量连通体中的多条扩展增量实体数据的关
键项或/和组合项对应的字段内容进行筛选,得到筛选字段对应的字段内容;
[0016]对所述筛选字段对应的字段内容进行组合,得到实际增量实体数据。
[0017]可选地,所述将所述实际增量实体数据以对应的数据ID为索引更新至存量实体列表中,包括:
[0018]判断所述存量实体列表中是否存在与实际增量实体数据具有相同唯一数据 ID的存量实体数据;
[0019]若所述存量实体列表中存在与实际增量实体数据具有相同唯一数据ID的存量实体数据,则将所述实际增量实体数据以覆盖所述存量实体数据的方式存入所述存量实体列表中,
[0020]若所述存量实体列表中不存在与实际增量实体数据具有相同唯一数据ID 的存量实体数据,则将所述实际增量实体数据作为新增数据存入所述存量实体列表中。
[0021]可选地,所述数据更新方法,还包括:对不同数据源的增量实体数据进行预处理,所述预处理包括:格式转换和内容转换;
[0022]所述格式转换用于对增量实体数据的格式进行转换,使不同格式的增量实体数据的格式统一;
[0023]所述内容转换用于实现不同增量实体数据的内容统一。
[0024]可选地,若不同数据源中具有多个相同增量实体数据,则在对增量实体数据进行预处理时,设定各个筛选策略的优先级,对优先级最高的数据源中的增量实体数据进行预处理。
[0025]可选地,在对增量实体数据进行预处理时,将所述数据预处理分解为多个子任务,通过Spark集群的中心管理节点将所述多个子任务分配给多个计算节点,其中,每个计算节点获取一个子任务,任意两个计算节点所获取的子任务不同。
[0026]为实现上述目的,本专利技术提供一种数据更新装置,包括:
[0027]数据获取模块,用于获取数据源的增量实体数据,所述增量实体数据包括关键项和组合项;
[0028]第一数据确定模块,用于从存量实体数据中确定出相关存量实体数据,其中,所述相关存量实体数据指与增量实体数据具有相同组合项或关键项的存量实体数据;
[0029]第二数据确定模块,用于确定所述相关存量实体数据所属的存量连通体,其中,每一条所述相关存量实体数据对应一个所述存量连通体,一个所述存量连通体中包括多条所述相关存量实体数据,将同一个所述存量连通体所包含的相关存量实体数据作为实际相关存量实体数据;其中,每个所述存量连通体包含至少两个节点,每个节点表示一条实际相关存量实体数据;在同一个存量连通体中,任意两个相邻节点具有相同的关键项或组合项;
[0030]数据合并模块,用于合并所述增量实体数据和所述实际相关存量实体数据,得到扩展增量实体数据;
[0031]连通体构建模块,用于根据所述扩展增量实体数据的关键项或组合项构建扩展增量实体数据所属的增量连通体;其中,每一条所述扩展增量实体数据对应一个所述增量连通体,一个所述增量连通体中包括多条所述扩展增量实体数据,每个所述增量连通体包括至少两个节点,每个节点表示一条扩展增量实体数据,在同一个增量连通体中,任意两个相邻节点具有相同的关键项或组合项;
[0032]数据筛选模块,用于对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据;其中,所述实际增量实体数据的唯一数据ID为增量连通体中的多条扩展增量实体数据的唯一数据ID中最小的唯一数据ID;
[0033]数据更新模块,用于将所述实际增量实体数据以对应的唯一数据ID为索引更新至存量实体列表中。
[0034]可选地,所述数据筛选模块包括:
[0035]筛选字段确定子模块,用于确定筛选字段,所述筛选字段包括需要筛选的至少一个关键项或/和至少一个组合项;
[0036]筛选子模块,用于利用设定的筛选规则对同一个所述增量连通体中的多条扩展增量实体数据的关键项或/和组合项对应的字段内容进行筛选,得到筛选字段对应的字段内容;
[0037]组合子模块,用于对所述筛选字段对应的字段内容进行组合,得到实际增量实体数据。
[0038]为实现上述目的,本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据更新方法,其特征在于,包括以下步骤:获取数据源的增量实体数据,所述增量实体数据包括关键项和组合项;从存量实体数据中确定出相关存量实体数据,其中,所述相关存量实体数据指与增量实体数据具有相同组合项或关键项的存量实体数据;确定所述相关存量实体数据所属的存量连通体,其中,每一条所述相关存量实体数据对应一个所述存量连通体,一个所述存量连通体中包括多条所述相关存量实体数据,将同一个所述存量连通体所包含的相关存量实体数据作为实际相关存量实体数据;其中,每个所述存量连通体包含至少两个节点,每个节点表示一条实际相关存量实体数据;在同一个存量连通体中,任意两个相邻节点具有相同的关键项或组合项;合并所述增量实体数据和所述实际相关存量实体数据,得到扩展增量实体数据;根据所述扩展增量实体数据的关键项或组合项构建扩展增量实体数据所属的增量连通体;其中,每一条所述扩展增量实体数据对应一个所述增量连通体,一个所述增量连通体中包括多条所述扩展增量实体数据,每个所述增量连通体包括至少两个节点,每个节点表示一条扩展增量实体数据,在同一个增量连通体中,任意两个相邻节点具有相同的关键项或组合项;对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据;其中,所述实际增量实体数据的唯一数据ID为增量连通体中的多条扩展增量实体数据的唯一数据ID中最小的唯一数据ID;将所述实际增量实体数据以对应的唯一数据ID为索引更新至存量实体列表中。2.根据权利要求1所述的数据更新方法,其特征在于,所述对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据,包括:确定筛选字段,所述筛选字段包括需要筛选的至少一个关键项或/和至少一个组合项;利用设定的筛选规则对同一个所述增量连通体中的多条扩展增量实体数据的关键项或/和组合项对应的字段内容进行筛选,得到筛选字段对应的字段内容;对所述筛选字段对应的字段内容进行组合,得到实际增量实体数据。3.根据权利要求1所述的数据更新方法,其特征在于,所述将所述实际增量实体数据以对应的数据ID为索引更新至存量实体列表中,包括:判断所述存量实体列表中是否存在与实际增量实体数据具有相同唯一数据ID的存量实体数据;若所述存量实体列表中存在与实际增量实体数据具有相同唯一数据ID的存量实体数据,则将所述实际增量实体数据以覆盖所述存量实体数据的方式存入所述存量实体列表中;若所述存量实体列表中不存在与实际增量实体数据具有相同唯一数据ID的存量实体数据,则将所述实际增量实体数据作为新增数据存入所述存量实体列表中。4.根据权利要求1所述的数据更新方法,其特征在于,所述数据更新方法,还包括:对不同数据源的增量实体数据进行预处理,所述预处理包括:格式转换和内容转换;所述格式转换用于对增量实体数据的格式进行转换,使不同格式的增量实体数据的格式统一;
所述内容转换用于实现不同增量实体数据的内容统一。5.根据权利要求4所述的数据更新方法,其特特征在...

【专利技术属性】
技术研发人员:齐金凤李琪姜兴凯
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1