【技术实现步骤摘要】
数据处理方法及分布式处理系统
[0001]本说明书涉及数据库
,尤其涉及数据处理方法及分布式处理系统。
技术介绍
[0002]在数据库日常运行维护工作中,经常需要进行数据迁移,即将源数据集中的数据迁移到目标数据集。在进行数据迁移时,也会涉及对增量数据的迁移。
[0003]目前,在增量数据迁移完成后,需要进行数据比对以校验数据的一致性,即将增量数据与目标数据集进行比对,以确定目标数据集中是否存在该增量数据,从而得到增量数据与目标数据集之间的比对结果。
[0004]然而,增量数据与目标数据集之间的比对结果仅是根据目标数据集中是否存在该增量数据确定的,由于某些原因(例如,目标数据集未及时更新),容易出现误判目标数据集不存在该增量数据的问题,导致确定的比对结果不准确,从而造成确定的比对结果准确率低。
技术实现思路
[0005]为克服相关技术中存在的问题,本说明书提供了数据处理方法及分布式处理系统。
[0006]根据本说明书实施例的第一方面,提供一种数据处理方法,应用于分布式处理系统,所述分布式处理系统包括至少一个第一节点和至少一个比对装置;
[0007]所述方法包括:
[0008]所述第一节点获取增量数据、源数据集和目标数据集,并将所述增量数据、源数据集和目标数据集发送至目标比对装置;其中,所述目标数据集是对所述源数据集进行迁移得到的;所述增量数据指示在预设时间之后采集到的数据;所述目标比对装置为所有比对装置中的一个比对装置;
[0009]所述目标比对装置 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于分布式处理系统,所述分布式处理系统包括至少一个第一节点和至少一个比对装置;所述方法包括:所述第一节点获取增量数据、源数据集和目标数据集,并将所述增量数据、源数据集和目标数据集发送至目标比对装置;其中,所述目标数据集是对所述源数据集进行迁移得到的;所述增量数据指示在预设时间之后采集到的数据;所述目标比对装置为所有比对装置中的一个比对装置;所述目标比对装置获取所述增量数据和所述目标数据集之间的第一比对结果,并获取所述增量数据和所述源数据集之间的第二比对结果;其中,所述第一比对结果指示所述目标数据集中是否存在所述增量数据;所述第二比对结果指示所述源数据集中是否存在所述增量数据;所述目标比对装置根据所述第一比对结果和所述第二比对结果,生成与所述增量数据和所述目标数据集对应的第一目标比对结果;其中,所述第一目标比对结果指示所述增量数据在所述源数据集与所述目标数据集中的存在状态。2.根据权利要求1所述的方法,其特征在于,所述分布式处理系统还包括过滤器;所述过滤器存储有所述目标数据集对应的第一校验值;所述目标比对装置包括第二节点;所述方法还包括:所述第二节点从所述过滤器中获取所述目标数据集对应的第一校验值,并获取所述增量数据对应的第二校验值;所述第二节点将所述增量数据对应的第二校验值和所述目标数据集对应的第一校验值进行比对,以得到所述增量数据和所述目标数据集之间的第一比对结果。3.根据权利要求2所述的方法,其特征在于,所述第二校验值包括哈希值和消息摘要值;所述第一校验值包括哈希值;所述目标比对装置还包括状态保存单元,所述状态保存单元存储有所述目标数据集中的目标数据对应的键值对,所述键值对包括所述目标数据对应的哈希值以及所述目标数据对应的消息摘要值;所述第二节点将所述增量数据对应的第二校验值和所述目标数据集对应的第一校验值进行比对,以得到所述增量数据和所述目标数据集之间的第一比对结果,包括:所述第二节点判断所述目标数据集对应的哈希值中是否存在所述增量数据对应的哈希值;若不存在所述增量数据对应的哈希值,则确定所述第一比对结果为目标数据集不存在增量数据结果;若存在所述增量数据对应的哈希值,则从所述状态保存单元中获取哈希值为所述增量数据对应的哈希值的键值对,并将所述哈希值为所述增量数据对应的哈希值的键值对作为第一目标键值对;根据所述第一目标键值对中的消息摘要值和所述增量数据对应的消息摘要值确定所述第一比对结果。4.根据权利要求3所述的方法,其特征在于,所述第二节点根据所述第一目标键值对中的消息摘要值和所述增量数据对应的消息摘要值确定所述第一比对结果,包括:所述第二节点响应于存在消息摘要值为所述增量数据对应的消息摘要值的第一目标
键值对,确定所述第一比对结果为增量数据与目标数据不一致结果;响应于不存在消息摘要值为所述增量数据对应的消息摘要值的第一目标键值对,确定所述第一比对结果为增量数据与目标数据一致结果。5.根据权利要求3或4所述的方法,其特征在于,所述增量数据对应的哈希值是根据所述增量数据中的主键字段信息生成的,所述增量数据对应的消息摘要值是根据所述增量数据中的目标字段信息以及预设目标字段排列顺序生成的。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述目标比对装置获取所述增量数据对应的数据操作类型;在所述增量数据和所述源数据集之间的第二比对结果为第一预设比对结果和/或所述增量数据对应的数据操作类型为第一预设操作类型的情况下,将所述增量数据与所述源数据集进行比对,确定所述增量数据和所述源数据集之间的第二比对结果;其中,所述第一预设比对结果包括目标数据集不存在增量数据结果和/或增量数据与目标数据不一致结果;所述第一预设操作类型包括增加操作类型和/或修改操作类型。7.根据权利要求1所述的方法,其特征在于,所述目标比对装置根据所述第一比对结果和所述第二比对结果,生成与所述增量数据和所述目标数据集对应的第一目标比对结果,包括:所述目标比对装置基于第一预设结果生成规则,确定与所述第一比对结果和所述第二比对结果对应的比对结果,并将与所述第一比对结果和所述第二比对结果对应的比对结果作为所述第一目标比对结果;其中,所述第一目标比对结果为源数据集和目标数据集均缺失增量数据结果和/或目标数据集缺失增量数据且源数据集存在增量数据结果。8.根据权利要求2所述的方法,其特征在于,所述分布式处理系统还包括消息中间件、比对结果处理装置和结果存储数据库;所述方法还包括:所述目标比对装置将与所述增量数据和所述目标数据集对应的第一目标比对结果保存至消息中间件,以使所述比对结果处理装置根据所述消息中间件中的第一目标比对结果对所述结果存储数据库进行更新。9.根据权利要求8所述的方法,其特征在于,所述目标比对装置还包括回撤流生成单元;所述方法还包括:所述第二节点获取所述增量数据对应的数据操作类型;所述第二节点在所述第一目标比对结果为第二预设比对结果,且所述数据操作类型为第二预设操作类型的情况下,将所述增量数据写入至所述回撤流生成单元;所述回撤流生成单元生成所述增量数据对应的删除消息,并将所述增量数据对应的删除消息保存至所述消息中间件,以使所述比对结果处理装置对更新后的结果存储数据库中的所述删除消息对应的增量数据进行删除。10.根据权利要求3所述的方法,其特征在于,所述分布式处理系统还包括消息中间件;所述方法还包括:所述第二节点根据所述第二比对结果和所述增量数据对应的数据操作类型,生成与所述增量数据和所述源数据集对应的第二目标比对结果,并将所述第二目标比对结...
【专利技术属性】
技术研发人员:张俊鹏,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。