【技术实现步骤摘要】
一种数据更新方法、装置、设备及介质
[0001]本专利技术涉及数据处理领域,具体涉及一种数据更新方法、装置、设备及介质。
技术介绍
[0002]数据的质量将直接严重影响后续数据的应用和处理。对于工商类数据的加工而言,数据的准确性、完整性、及时性直接影响到用户的决策正确与否。
[0003]目前业内对数据的更新、纠错大部分集中在数据表的统一化处理或者更新数据表上面,数据更新、纠错侧重于对数据表的更新,无法准确的做到数据的错误识别和更新。
技术实现思路
[0004]本专利技术提供一种数据更新方法、装置、设备及介质,其主要目的在于解决现有技术中数据更新不准确的问题。
[0005]为实现上述目的,本专利技术提供一种数据更新方法,包括以下步骤:
[0006]获取数据源的增量实体数据,所述增量实体数据包括关键项和组合项;
[0007]从存量实体数据中确定出相关存量实体数据,其中,所述相关存量实体数据指与增量实体数据具有相同组合项或关键项的存量实体数据;
[0008]确定所述相关存量实体数据所属的存量连通体,其中,每一条所述相关存量实体数据对应一个所述存量连通体,一个所述存量连通体中包括多条所述相关存量实体数据,将同一个所述存量连通体所包含的相关存量实体数据作为实际相关存量实体数据;其中,每个所述存量连通体包含至少两个节点,每个节点表示一条实际相关存量实体数据;在同一个存量连通体中,任意两个相邻节点具有相同的关键项或组合项;
[0009]合并所述增量实体数据和所述实际相 ...
【技术保护点】
【技术特征摘要】
1.一种数据更新方法,其特征在于,包括以下步骤:获取数据源的增量实体数据,所述增量实体数据包括关键项和组合项;从存量实体数据中确定出相关存量实体数据,其中,所述相关存量实体数据指与增量实体数据具有相同组合项或关键项的存量实体数据;确定所述相关存量实体数据所属的存量连通体,其中,每一条所述相关存量实体数据对应一个所述存量连通体,一个所述存量连通体中包括多条所述相关存量实体数据,将同一个所述存量连通体所包含的相关存量实体数据作为实际相关存量实体数据;其中,每个所述存量连通体包含至少两个节点,每个节点表示一条实际相关存量实体数据;在同一个存量连通体中,任意两个相邻节点具有相同的关键项或组合项;合并所述增量实体数据和所述实际相关存量实体数据,得到扩展增量实体数据;根据所述扩展增量实体数据的关键项或组合项构建扩展增量实体数据所属的增量连通体;其中,每一条所述扩展增量实体数据对应一个所述增量连通体,一个所述增量连通体中包括多条所述扩展增量实体数据,每个所述增量连通体包括至少两个节点,每个节点表示一条扩展增量实体数据,在同一个增量连通体中,任意两个相邻节点具有相同的关键项或组合项;对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据;其中,所述实际增量实体数据的唯一数据ID为增量连通体中的多条扩展增量实体数据的唯一数据ID中最小的唯一数据ID;将所述实际增量实体数据以对应的唯一数据ID为索引更新至存量实体列表中。2.根据权利要求1所述的数据更新方法,其特征在于,所述对增量连通体中的扩展增量实体数据按设定筛选规则进行筛选,并对筛选结果进行组合,得到实际增量实体数据,包括:确定筛选字段,所述筛选字段包括需要筛选的至少一个关键项或/和至少一个组合项;利用设定的筛选规则对同一个所述增量连通体中的多条扩展增量实体数据的关键项或/和组合项对应的字段内容进行筛选,得到筛选字段对应的字段内容;对所述筛选字段对应的字段内容进行组合,得到实际增量实体数据。3.根据权利要求1所述的数据更新方法,其特征在于,所述将所述实际增量实体数据以对应的数据ID为索引更新至存量实体列表中,包括:判断所述存量实体列表中是否存在与实际增量实体数据具有相同唯一数据ID的存量实体数据;若所述存量实体列表中存在与实际增量实体数据具有相同唯一数据ID的存量实体数据,则将所述实际增量实体数据以覆盖所述存量实体数据的方式存入所述存量实体列表中;若所述存量实体列表中不存在与实际增量实体数据具有相同唯一数据ID的存量实体数据,则将所述实际增量实体数据作为新增数据存入所述存量实体列表中。4.根据权利要求1所述的数据更新方法,其特征在于,所述数据更新方法,还包括:对不同数据源的增量实体数据进行预处理,所述预处理包括:格式转换和内容转换;所述格式转换用于对增量实体数据的格式进行转换,使不同格式的增量实体数据的格式统一;
所述内容转换用于实现不同增量实体数据的内容统一。5.根据权利要求4所述的数据更新方法,其特特征在...
【专利技术属性】
技术研发人员:齐金凤,李琪,姜兴凯,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。