文件比对方法及其装置、介质以及分布式系统制造方法及图纸

技术编号:32459159 阅读:9 留言:0更新日期:2022-02-26 08:44
本申请涉及大数据处理技术领域,特别涉及一种文件比对方法及其装置、介质以及分布式系统。包括:获取待比对的第一文件和第二文件。根据第一文件和第二文件中的每条记录的主键,分别将第一文件、第二文件分成至少两组数据,其中,每组数据包含至少一条记录,主键用于标识第一文件以及第二文件中的每条记录。基于第一文件的至少两组数据以及第二文件的至少两组数据,将第一文件中的每组数据与第二文件中的每组数据进行比对,获得文件比对结果。可以理解的是,通过分别将第一文件、第二文件分成至少两组数据,可以使得分组后的第一文件和第二文件的比对任务可以在多个计算设备上并行完成,从而提高文件比对效率。从而提高文件比对效率。从而提高文件比对效率。

【技术实现步骤摘要】
文件比对方法及其装置、介质以及分布式系统


[0001]本申请涉及大数据处理
,特别涉及一种文件比对方法及其装置、介质以及分布式系统。

技术介绍

[0002]近几年,在移动互联网时代背景下,随着银行金融业的发展,银行的批量处理系统不断更新升级,在批量处理系统(比如跨行清算系统)运行时,往往生成大量的流水文件。因此,在批量处理系统的新版本上线前,会将旧系统运行时生成的文件与新系统运行时生成的文件进行内容比对,返回的比对结果为相同文件或不同文件,根据比对结果测试新系统的稳定性。
[0003]但是,由于旧系统运行时生成的文件与新系统运行时生成的文件的数据量很大(例如,新旧系统生成的文件大小可能达到数GB),文件比对的计算量也很大,则需要等待较长时间才能返回比对结果。并且,在对数据量很大的文件进行比对时,由于系统错误或网络问题等原因,在文件比对过程中文件比对失败,则将导致的大数据量文件需要全部重新进行比对,影响文件的比对效率。

技术实现思路

[0004]本申请实施例提供了一种文件对比方法及其装置、介质以及分布式系统。
[0005]第一方面,本申请实施例提供了一种文件对比方法,包括:获取待比对的第一文件和第二文件;根据第一文件和第二文件中的每条记录的主键,分别将第一文件、第二文件分成至少两组数据,其中,每组数据包含至少一条记录,主键用于标识第一文件以及第二文件中的每条记录;基于第一文件的至少两组数据以及第二文件的至少两组数据,将第一文件中的每组数据与所述第二文件中的每组数据进行比对,获得文件比对结果。可以理解的是,通过分别将第一文件、第二文件分成至少两组数据,可以使得分组后的第一文件和第二文件的比对任务可以在多个计算设备上并行完成,从而提高文件比对效率。
[0006]在上述第一方面的一种可能的实现中,上述方法还包括:方法应用于分布式系统,分布式系统包括管理节点和多个计算节点。
[0007]在上述第一方面的一种可能的实现中,上述方法还包括:管理节点用于获取待比对的第一文件和第二文件,并且方法还包括:管理节点根据多个计算节点的计算性能,向至少一个计算节点发送分组指令,其中分组指令用于指令将第一文件、第二文件分成至少两组数据。
[0008]在上述第一方面的一种可能的实现中,上述方法还包括:管理节点用于获取待比对的第一文件和第二文件的分组结果,并且方法还包括:管理节点根据多个计算节点的计算性能,向至少一个计算节点发送比对指令,其中比对指令用于指令将第一文件中的每组数据与第二文件中的每组数据进行比对,获得文件比对结果。
[0009]在上述第一方面的一种可能的实现中,上述方法还包括:根据第一文件和第二文
件中的每条记录的主键,分别将第一文件、第二文件分成至少两组数据,其中,每组数据包含至少一条记录,主键用于标识第一文件以及第二文件中的每条记录包括:主键包括字段信息;根据第一文件和第二文件中的每条记录的主键包含的字段信息,分别将第一文件、第二文件分成至少两组数据,其中,一组数据中的每条记录的主键包含的字段信息相同。
[0010]在上述第一方面的一种可能的实现中,上述方法还包括:字段信息包括以下至少一个:时间字段、关键词字段。
[0011]在上述第一方面的一种可能的实现中,上述方法还包括:根据第一文件和第二文件中的每条记录的主键,分别将第一文件、第二文件分成至少两组数据,其中,每组数据包含至少一条记录,主键用于标识第一文件以及第二文件中的每条记录包括:通过哈希算法计算第一文件和第二文件中的每条记录的主键对应的哈希值;根据第一文件和第二文件中的每条记录的主键对应的哈希值,分别将第一文件、第二文件分成至少两组数据,其中,一组数据中的每条记录的主键对应的哈希值相同。
[0012]在上述第一方面的一种可能的实现中,上述方法还包括:基于第一文件的至少两组数据以及第二文件的至少两组数据,将第一文件中的每组数据与第二文件中的每组数据进行一一比对,获得文件比对结果包括:根据第一文件的每组数据的长度,对第一文件中的至少两组数据进行排序,获得排序后的第一文件的至少两组数据,以及根据第二文件的每组数据的长度,对第二文件中的至少两组数据进行排序,获得排序后的第二文件的至少两组数据;将排序后的第一文件的至少两组数据中的每组数据与排序后的第二文件的至少两组数据中的每组数据进行一一比对,获得文件比对结果。
[0013]在上述第一方面的一种可能的实现中,上述方法还包括:第一文件和第二文件的文件类型包括以下至少一种:文本文件,表文件。
[0014]第二方面,本申请实施例提供了一种文件比对装置,包括:获取模块,用于获取待比对的第一文件、第二文件;分组模块,用于根据第一文件和第二文件中的每条记录的主键,分别将第一文件、第二文件分成至少两组数据,其中,每组数据包含至少一条记录,主键用于标识第一文件以及第二文件中的每条记录;比对模块,用于基于第一文件的至少两组数据以及第二文件的至少两组数据,将第一文件中的每组数据与第二文件中的每组数据进行比对,获得文件比对结果。
[0015]第三方面,本申请实施例提供了一种可读介质,可读介质上存储有指令,该指令在分布式系统上执行时使分布式系统执行第一方面以及第一方面可能的各实现中的文件对比方法。
[0016]第四方面,本申请实施例提供了一种分布式系统,包括:存储器,用于存储由分布式系统的一个或多个处理器执行的指令,以及处理器,是分布式系统的处理器之一,用于执行第一方面以及第一方面可能的各实现中的文件对比方法。
[0017]第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面以及第一方面可能的各实现中的文件对比方法。
附图说明
[0018]图1根据本申请的一些实施例,示出了一种分布式系统示意图;
[0019]图2根据本申请的一些实施例,示出了一种文件比对的流程图;
[0020]图3根据本申请的一些实施例,示出了一种文件比对的流程图;
[0021]图4根据本申请的一些实施例,示出了一种待比对文件拆分成多个子文件示意图;
[0022]图5根据本申请的一些实施例,示出了一种子文件分组示意图;
[0023]图6根据本申请的一些实施例,示出了一种文件比对装置示意图;
[0024]图7根据本申请的一些实施例,示出了一种分布式系统的框图;
[0025]图8根据本申请一些实施例,示出了一种片上系统(SoC)的框图。
具体实施方式
[0026]本申请的说明性实施例包括但不限于文件对比方法及其装置、介质以及分布式系统。
[0027]本申请所有实施方式对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0028]在详细披露本申请的具体实施方案的细节之前,为便于理解,这里先对本申请实施例使用的关键名词进行解释:
[0029]主键(PRIMARY KEY):由一个或多个字段组成,可以用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件比对方法,其特征在于,所述方法包括:获取待比对的第一文件和第二文件;根据所述第一文件和所述第二文件中的每条记录的主键,分别将所述第一文件、所述第二文件分成至少两组数据,其中,每组数据包含至少一条记录,所述主键用于标识所述第一文件以及所述第二文件中的每条记录;基于所述第一文件的至少两组数据以及所述第二文件的至少两组数据,将所述第一文件中的每组数据与所述第二文件中的每组数据进行比对,获得文件比对结果。2.根据权利要求1所述的方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括管理节点和多个计算节点。3.根据权利要求2所述的方法,其特征在于,所述管理节点用于获取待比对的第一文件和第二文件,并且所述方法还包括:所述管理节点根据所述多个计算节点的计算性能,向至少一个所述计算节点发送分组指令,其中所述分组指令用于指令将所述第一文件、所述第二文件分成至少两组数据。4.根据权利要求2所述的方法,其特征在于,所述管理节点用于获取所述待比对的第一文件和第二文件的分组结果,并且所述方法还包括:所述管理节点根据所述多个计算节点的计算性能,向至少一个所述计算节点发送比对指令,其中所述比对指令用于指令将所述第一文件中的每组数据与所述第二文件中的每组数据进行比对,获得文件比对结果。5.根据权利要求1所述的方法,其特征在于,根据所述第一文件和所述第二文件中的每条记录的主键,分别将所述第一文件、所述第二文件分成至少两组数据,其中,每组数据包含至少一条记录,所述主键用于标识所述第一文件以及所述第二文件中的每条记录包括:所述主键包括字段信息;根据所述第一文件和所述第二文件中的每条记录的主键包含的字段信息,分别将所述第一文件、所述第二文件分成至少两组数据,其中,一组数据中的每条记录的主键包含的字段信息相同。6.根据权利要求5所述的方法,其特征在于,所述字段信息包括以下至少一个:时间字段、关键词字段。7.根据权利要求1所述的方法,其特征在于,根据所述第一文件和所述第二文件中的每条记录的主键,分别将所述第一文件、所述第二文件分成至少两组数据,其中,每组数据包含至少一条记录,所述主键用于标识所述第一文件以及所述第二文件中的每条记...

【专利技术属性】
技术研发人员:杨超唐成山陈军
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1