数据同步方法和装置制造方法及图纸

技术编号:12347985 阅读:53 留言:0更新日期:2015-11-18 19:54
本发明专利技术提供一种数据同步方法和装置,能够实现hadoop集群内部或hadoop集群间的数据统一,具有简便易行等等优点。其中数据同步方法包括:判断hadoop集群的数据同步类型,数据同步类型包括集群内部数据拷贝、集群内部地址共享、和集群间数据拷贝;根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务;在执行数据质量核对任务时检查到存在数据不一致的情况下,执行最近一次数据同步任务。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别地涉及一种数据同步方法和装置
技术介绍
目前很多大型IT企业推出了云平台、大数据平台、云计算、云存储、数据集市等服务,为不同企业之间或企业内部各业务部门之间的实现了数据共享与数据传输功能。图1示出了在大数据平台、云服务等环境中集群内部和集群之间的数据进行同步的过程。但是同步之后缺少数据质量核对的工作,可能存在数据不一致性问题,具体地:当数据共享方数据发送变化时,数据订阅方已经同步的数据就会与数据共享方不一致。数据订阅方难以察觉数据共享方数据发生变化,待发现后往往已经造成巨大损失。数据不一致性问题发生后,数据订阅方没有及时再次获取最新数据,造成数据订阅方连锁性数据错误。综上,现有技术中,数据不一致性问题发生后,缺少及时的通知机制,也缺少及时的、自动化、智能化的数据差异处理机制,带来了巨大损失。
技术实现思路
有鉴于此,本专利技术提供一种数据同步方法和装置,能够实现hadoop集群内部或hadoop集群间的数据统一,具有简便易行等等优点。为实现上述目的,根据本专利技术的一个方面,提供了一种数据同步方法。本专利技术的数据同步方法包括:判断hadoop集群的数据同步类型,所述数据同步类型包括集群内部数据拷贝、集群内部地址共享、和集群间数据拷贝;根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务;在执行所述数据质量核对任务时检查到存在数据不一致的情况下,再次执行最近一次数据同步任务。可选地,所述根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务的步骤包括:在所述判断结果为集群内部数据拷贝的情况下,核对同一集群下不同用户间的数据拷贝任务中拷贝的数据源和数据目标HDFS文件的数量和文件大小是否一致,同时核对hive数据仓库的元存储表的元数据信息是否一致;在所述判断结果为集群内部地址共享的情况下,核对hive数据仓库中不同用户的元存储表的元数据信息是否一致;在所述判断结果为集群间数据拷贝的情况下,核对数据源集群和数据目标集群各自对应的HDFS文件的数量和文件大小是否一致,同时核对数据源集群和数据目标集群中各自对应的hive数据仓库的元存储表的元数据信息是否一致。可选地,在根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务之后,还包括:保存执行所述数据质量核对任务得到的数据质量结果,所述数据质量结果包括如下的一种或几种:数据同步任务标识、数据质量核对任务标识、数据源文件大小、目标数据文件大小、数据同步任务执行时间、数据核对任务执行时间。可选地,按照预设周期执行所述数据质量核对任务。为实现上述目的,根据本专利技术的另一方面,提供了一种数据同步装置。本专利技术的数据同步装置包括:判断模块,用于判断hadoop集群的数据同步类型,所述数据同步类型包括集群内部数据拷贝、集群内部地址共享、和集群间数据拷贝;核对模块,用于根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务;同步模块,用于在所述核对模块检查到存在数据不一致的情况下,再次执行最近一次数据同步任务。可选地,所述核对模块还用于:在所述判断结果为集群内部数据拷贝的情况下,核对同一集群下不同用户间的数据拷贝任务中拷贝的数据源和数据目标HDFS文件的数量和文件大小是否一致,同时核对hive数据仓库的元存储表的元数据信息是否一致;在所述判断结果为集群内部地址共享的情况下,核对hive数据仓库中不同用户的元存储表的元数据信息是否一致;在所述判断结果为集群间数据拷贝的情况下,核对数据源集群和数据目标集群各自对应的HDFS文件的数量和文件大小是否一致,同时核对数据源集群和数据目标集群中各自对应的hive数据仓库的元存储表的元数据信息是否一致。可选地,还包括:保存模块,用于保存所述核对模块得到的数据质量结果,所述数据质量结果包括如下的一种或几种:数据同步任务标识、数据质量核对任务标识、数据源文件大小、目标数据文件大小、数据同步任务执行时间、数据核对任务执行时间。可选地,所述核对模块还用于按照预设周期执行所述数据质量核对任务。根据本专利技术的技术方案,首先判断数据同步类型,然后执行相应的数据质量核对任务,若存在数据不一致,则进行数据同步。因此,本专利技术的技术方案能够实现hadoop集群内部或hadoop集群间的数据统一,具有简便易行等等优点。【附图说明】附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是集群内部数据同步以及集群间数据同步的过程示意图;图2是根据本专利技术实施例的数据同步方法的基本步骤的示意图;图3是根据本专利技术实施例的数据同步装置的主要模块的示意图。【具体实施方式】以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识至IJ,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图2是根据本专利技术实施例的数据同步方法的基本步骤的示意图。如图2所示,该数据同步方法可以包括如下的步骤S21至步骤S23。步骤S21:判断hadoop集群的数据同步类型,数据同步类型包括集群内部数据拷贝(Cluster Internal Data Copy)、集群内部地址共享(Cluster Internal Data AddressSharing)、和集群间数据拷贝(Inter Cluster Data Copy)。集群内部数据拷贝是指在同一个集群内部实现不同用户间通过拷贝hive表的HDFS (Hadoop Distributed File System,分布式文件系统)数据文件实现数据共享。集群内部数据地址共享是指将同一集群下的某用户下hive中的数据文件位置共享给该集群中的另外一个用户,实现同一份数据,多用户使用的需求。此种方法通过授权一个用户hive表的Locat1n地址给另外一个用户。该方式下不同用户通过共用一份HDFS数据文件。为了数据安全性,需要对用户的操作权限进行区别对待。数据发布方拥有最高权限,订阅方只有数据读取权限。集群间数据拷贝是指不同集群之间实现数据拷贝,采用distcp(分布式复制)程序,从hadoop并行复制HDFS数据文件。步骤S22:根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务。具体过程可以如下:在判断结果为集群内部数据拷贝的情况下,核对同一集群下不同用户间的数据拷贝任务中拷贝的数据源和数据目标HDFS文件的数量和文件大小是否一致,同时核对hive数据仓库的元存储表的元数据信息是否一致。在判断结果为集群内部地址共享的情况下,核对hive数据仓库中不同用户的元存储表的元数据信息是否一致。在判断结果为集群间数据拷贝的情况下,核对数据源集群和数据目标集群各自对应的HDFS文件的数量和文件大小是否一致,同时核对数据源集群和数据目标集群中各自对应的hive数据仓库的元存储表的元数据信息是否一当前第1页1 2 本文档来自技高网...

【技术保护点】
一种数据同步方法,其特征在于,包括:判断hadoop集群的数据同步类型,所述数据同步类型包括集群内部数据拷贝、集群内部地址共享、和集群间数据拷贝;根据判断结果执行预先选择的对应于该判断结果的数据质量核对任务;在执行所述数据质量核对任务时检查到存在数据不一致的情况下,再次执行最近一次数据同步任务。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨泽森
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1