数据的核对方法及装置制造方法及图纸

技术编号:33471946 阅读:22 留言:0更新日期:2022-05-19 00:49
本申请涉及大数据技术领域,尤其涉及数据的核对方法及装置。本申请的数据的核对方法包括:获取待处理数据文件的标识,待处理数据文件的标识包括待处理数据文件在第一分布式文件存储系统中的第一缓存路径和待处理数据文件在第二分布式文件存储系统中的第二缓存路径,第二分布式文件存储系统预先同步有所述第一分布式文件存储系统中的数据文件;根据第一缓存路径在第一分布式文件存储系统中获取第一数据信息;根据第二缓存路径在所述第二分布式文件存储系统中获取第二数据信息;核对第一数据信息和第二数据信息是否一致,得到目标核对结果。本申请提供的数据的核对方法可以有效检查出同步后的分布式文件存储系统间的数据异常,保障数据的安全性。保障数据的安全性。保障数据的安全性。

【技术实现步骤摘要】
数据的核对方法及装置


[0001]本申请涉及大数据
,尤其涉及数据的核对方法及装置。

技术介绍

[0002]随着大数据
的不断发展,分布式文件存储系统成为互联网中经常使用的技术。例如,将多个小文件合并成一个大文件存储在分布式文件存储系统中,将每个小文件在大文件中的位置信息作为索引写入分布式数据库中,可以减小文件数量,提高存储效率。
[0003]由于数据量的暴增和数据价值的增长,企业为实现数据的安全存储、高可用性和业务连续性,需要实现同城或异地的数据灾备,也即需要将原始的分布式文件存储系统中的数据通过复制、同步等手段存储到其他的分布式文件存储系统中。在目前相关技术中,已有各类的分布式文件存储系统同步方法,可以实现分布式文件存储系统间的数据复制。
[0004]然而,现有技术中的分布式文件存储系统同步方法,仅关注分布式文件存储系统间的同步操作本身,缺失后续的定期数据核对机制,无法及时发现同步后的数据存在的诸如数据丢失、篡改、误删、同步异常等问题。
[0005]因此,如何有效检查出同步后的分布式文件存储系统间的数据异常成为亟待解决的技术问题。

技术实现思路

[0006]本申请提供数据的核对方法及装置,用以及时有效检查出同步后的分布式文件存储系统间的数据异常。
[0007]第一方面,本申请提供一种数据的核对方法,应用于服务器,所述方法包括:获取待处理数据文件的标识,所述待处理数据文件的标识包括所述待处理数据文件在第一分布式文件存储系统中的第一缓存路径和所述待处理数据文件在第二分布式文件存储系统中的第二缓存路径,所述第二分布式文件存储系统预先同步有所述第一分布式文件存储系统中的数据文件;根据所述第一缓存路径在所述第一分布式文件存储系统中获取第一数据信息,所述第一数据信息包括至少一个第一子文件和所述至少一个第一子文件的第一索引,所述第一索引用于指示所述至少一个第一子文件在所述第一数据信息中的位置;根据所述第二缓存路径在所述第二分布式文件存储系统中获取第二数据信息,所述第二数据信息包括至少一个第二子文件和所述至少一个第二子文件的第二索引,所述第二索引用于指示所述至少一个第二子文件在所述第二数据信息中的位置;核对所述第一数据信息和所述第二数据信息是否一致,得到目标核对结果。
[0008]该方法中,通过获取待处理数据文件的标识,进而得到第一数据信息和第二数据信息,核对第一数据信息和第二数据信息,得到最终的核对结果,该核对方法可以及时有效检查出同步后的分布式文件存储系统间的数据异常,进而方便后续对数据进行及时修复,保障数据安全一致。
[0009]结合第一方面,在一种可能的实现方式中,所述核对所述第一数据信息和所述第
二数据信息是否一致,得到目标核对结果,包括:针对所述至少一个第一子文件和所述至少一个第二子文件,核对所述第一子文件的字节和所述第二子文件的字节是否一致,得到第一核对结果;核对所述第一索引对应的子文件与所述第一子文件是否一致,得到第二核对结果;核对所述第二索引对应的子文件与所述第二子文件是否一致,得到第三核对结果;核对所述第一索引和所述第二索引是否一致,得到第四核对结果;根据所述第一核对结果、第二核对结果、第三核对结果和第四核对结果,确定所述目标核对结果。
[0010]该实现方式中,通过文件核对、索引

文件核对和索引核对的方式得到相应的核对结果,并综合确定最后的目标核对结果,这样的核对方式得到的核对结果更加精细、准确,进而方便后续对数据进行修复等操作。
[0011]结合第一方面,在一种可能的实现方式中,所述根据所述第一核对结果、第二核对结果、第三核对结果和第四核对结果,确定所述目标核对结果,包括:若所述第一核对结果、所述第二核对结果、所述第三核对结果和所述第四核对结果均为核对一致,则确定所述目标核对结果为核对一致;若所述第一核对结果、所述第二核对结果、所述第三核对结果和所述第四核对结果中的任意一项为核对不一致,则确定所述目标核对结果为核对不一致。
[0012]该实现方式中,综合各种中间过程得到的核对结果,确定最终的核对结果的方式,得到的核对结果更加准确。
[0013]结合第一方面,在一种可能的实现方式中,所述方法还包括:记录所述目标核对结果和所述记录所述目标核对结果的操作时间。
[0014]该实现方式中,记录最终的目标核对结果和时间等信息,方便后续人员查看和对数据进行修复等操作,进而保障了数据的一致性和安全性。
[0015]结合第一方面,在一种可能的实现方式中,在所述获取待处理数据文件的标识之前,所述方法还包括:根据所述至少一个第一子文件的第一索引和所述至少一个第二子文件的第二索引,更新预设的索引清单,所述索引清单中存储有所述第一分布式文件存储系统的第一原始索引和所述第二分布式文件存储系统的第二原始索引。
[0016]该实现方式中,根据最新的第一分布式文件存储系统的第一索引和所述第二分布式文件存储系统的第二索引,更新数据库中对应的索引记录信息,可以有效保证数据库中信息的准确性,进而保证后续核对数据信息的有效性和准确性,最终保障同步后的分布式文件存储系统间的数据的一致性和安全性。
[0017]结合第一方面,在一种可能的实现方式中,所述根据所述至少一个第一子文件的第一索引和所述至少一个第二子文件的第二索引,更新预设的索引清单,包括:针对所述至少一个第一子文件的第一索引和所述至少一个第二子文件的第二索引,比对所述第一索引与所述第一原始索引;在所述第一索引与所述第一原始索引不一致的情况下,将所述第一原始索引更新为所述第一索引;比对所述第二索引与所述第二原始索引;在所述第二索引与所述第二原始索引不一致的情况下,将所述第二原始索引更新为所述第二索引。
[0018]该实现方式中,通过比对分布式文件存储系统中的当前索引与原始索引是否一致,在不一致的情况下,将数据库中的原始索引进行更新,保证数据库中信息的准确性,进而保证后续核对数据信息的有效性和准确性。
[0019]第二方面,本申请提供一种数据的核对装置,所述装置包括:获取模块,用于获取待处理数据文件的标识,所述待处理数据文件的标识包括所述待处理数据文件在第一分布
式文件存储系统中的第一缓存路径和所述待处理数据文件在第二分布式文件存储系统中的第二缓存路径,所述第二分布式文件存储系统预先同步有所述第一分布式文件存储系统中的数据文件;所述获取模块还用于根据所述第一缓存路径在所述第一分布式文件存储系统中获取第一数据信息,所述第一数据信息包括至少一个第一子文件和所述至少一个第一子文件的第一索引,所述第一索引用于指示所述至少一个第一子文件在所述第一数据信息中的位置;所述获取模块还用于根据所述第二缓存路径在所述第二分布式文件存储系统中获取第二数据信息,所述第二数据信息包括至少一个第二子文件和所述至少一个第二子文件的第二索引,所述第二索引用于指示所述至少一个第二子文件在所述第二数据信息中的位置;核对模块,用于核对所述第一数据信息和所述第二数据信息是否一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据的核对方法,其特征在于,应用于服务器,所述方法包括:获取待处理数据文件的标识,所述待处理数据文件的标识包括所述待处理数据文件在第一分布式文件存储系统中的第一缓存路径和所述待处理数据文件在第二分布式文件存储系统中的第二缓存路径,所述第二分布式文件存储系统预先同步有所述第一分布式文件存储系统中的数据文件;根据所述第一缓存路径在所述第一分布式文件存储系统中获取第一数据信息,所述第一数据信息包括至少一个第一子文件和所述至少一个第一子文件的第一索引,所述第一索引用于指示所述至少一个第一子文件在所述第一数据信息中的位置;根据所述第二缓存路径在所述第二分布式文件存储系统中获取第二数据信息,所述第二数据信息包括至少一个第二子文件和所述至少一个第二子文件的第二索引,所述第二索引用于指示所述至少一个第二子文件在所述第二数据信息中的位置;核对所述第一数据信息和所述第二数据信息是否一致,得到目标核对结果。2.根据权利要求1所述的方法,其特征在于,所述核对所述第一数据信息和所述第二数据信息是否一致,得到目标核对结果,包括:针对所述至少一个第一子文件和所述至少一个第二子文件,核对所述第一子文件的字节和所述第二子文件的字节是否一致,得到第一核对结果;核对所述第一索引对应的子文件与所述第一子文件是否一致,得到第二核对结果;核对所述第二索引对应的子文件与所述第二子文件是否一致,得到第三核对结果;核对所述第一索引和所述第二索引是否一致,得到第四核对结果;根据所述第一核对结果、第二核对结果、第三核对结果和第四核对结果,确定所述目标核对结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一核对结果、第二核对结果、第三核对结果和第四核对结果,确定所述目标核对结果,包括:若所述第一核对结果、所述第二核对结果、所述第三核对结果和所述第四核对结果均为核对一致,则确定所述目标核对结果为核对一致;若所述第一核对结果、所述第二核对结果、所述第三核对结果和所述第四核对结果中的任意一项为核对不一致,则确定所述目标核对结果为核对不一致。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:记录所述目标核对结果和所述记录所述目标核对结果的操作时间。5.根据权利要求1所述的方法,其特征在于,在所述获取待处理数据文件的标识之前,所述方法还包括:根据所述至少一个第一子...

【专利技术属性】
技术研发人员:李俊谦张艺袁一张志海
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1