数据导出方法及其装置、电子设备以及存储介质制造方法及图纸

技术编号:29583049 阅读:16 留言:0更新日期:2021-08-06 19:40
本公开公开了一种数据导出方法,涉及云计算技术领域,尤其涉及分布式存储技术领域。具体实现方案为:接收数据导出指令,数据导出指令包括第一时间信息、第二时间信息和至少一个存储单元标识,其中至少一个存储单元标识与至少一个存储单元一一对应;根据第一时间信息,从至少一个存储单元导出在第一时间信息指示的第一时刻之前存储的存量数据;以及根据第二时间信息,从第二时间信息指示的第二时刻起,以预定时间间隔从至少一个存储单元导出至少一个存储单元存储的增量数据。本公开还公开了一种数据导出装置、电子设备以及存储介质。

【技术实现步骤摘要】
数据导出方法及其装置、电子设备以及存储介质
本公开涉及云计算
,尤其涉及分布式存储
更具体地,本公开提供了一种数据导出方法及其装置、电子设备以及存储介质。
技术介绍
云计算基于分布式存储提供大容量的存储和高效率的计算,分布式存储的核心功能是数据导出,导出的数据能够用于支持云上存储产品的功能以及用于数据分析。目前的数据导出方法在数据导出的完整性和/或实时性上存在缺陷,直接影响到存储系统的性能。因此,需要一种数据导出方法和设备,其能够实现具有更高的实时性和数据完整性的数据导出。
技术实现思路
提供了一种数据导出方法及其装置、电子设备以及存储介质。根据第一方面,提供了一种数据导出方法,包括:接收数据导出指令,数据导出指令包括第一时间信息、第二时间信息和至少一个存储单元标识,其中至少一个存储单元标识与至少一个存储单元一一对应;根据第一时间信息,从至少一个存储单元导出在第一时间信息指示的第一时刻之前存储的存量数据;以及根据第二时间信息,从第二时间信息指示的第二时刻起,以预定时间间隔从至少一个存储单元导出至少一个存储单元存储的增量数据,其中,增量数据是前一次从至少一个存储单元导出更新数据到当前时刻期间,至少一个存储单元被写入的数据。根据第二方面,提供了一种数据导出装置,包括:接收单元,用于接收数据导出指令,数据导出指令包括第一时间信息、第二时间信息和至少一个存储单元标识,其中至少一个存储单元标识与至少一个存储单元一一对应;第一导出单元,用于根据第一时间信息,从至少一个存储单元导出在第一时间信息指示的第一时刻之前存储的存量数据;以及第二导出单元,根据第二时间信息,从第二时间信息指示的第二时刻起,以预定时间间隔从至少一个存储单元导出至少一个存储单元存储的增量数据,其中,增量数据是前一次从至少一个存储单元导出更新数据到当前时刻导出更新数据期间,至少一个存储单元被写入的数据。根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开一个实施例的可以应用数据导出方法的示例性系统架构示意图;图2是根据本公开的一个实施例的数据导出方法的流程图;图3是根据本公开的另一个实施例的数据导出方法的示意图;图4是根据本公开的另一个实施例的数据导出方法的示意图;图5是根据本公开的一个实施例的存储单元中存储的数据的结构示意图;图6是根据本公开的一个实施例的已导出数据的结构示意图;图7是根据本公开的另一个实施例的数据导出方法的示意图;图8是根据本公开的另一个实施例的数据导出方法的示意图;图9是根据本公开的一个实施例的数据导出装置的框图;以及图10是根据本公开的一个实施例的数据导出方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。数据导出是分布式存储系统的核心功能。一般地,可以采用定期数据备份的方式,直接将底层数据备份成文件,然后解析文件产生数据流,但是这种方式实时性较差,需要定期执行备份操作,每次导出全量数据存在大量冗余。还可以采用数据双写的方式,例如,在数据写入到装置A的同时,将数据写入到导出装置B,然后从导出装置B进行导出,但是这种方式对系统侵入性较大,影响用户数据写入性能。此外,针对基于特定协议的分布式数据库(例如,mysql协议),可以使用专门的工具按照特定协议读取数据并导出,但是,这种方式依赖外部工具,且需要存储产品支持该特定协议,数据流转路径长,性能较差。因此,需要一种数据导出方法和设备,其能够以相对简单的方式实现具有更高的实时性和数据完整性的数据导出。本公开的实施例提出了一种数据导出方法和设备,通过存量数据导出与增量数据导出相结合的方式从分布式存储系统中导出数据。相比于相关技术中的数据导出方式能够以相对简单的方式实现具有更高的实时性和数据完整性的数据导出。图1是根据本公开一个实施例的可以应用数据导出方法的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。如图1所示,根据该实施例的系统架构100可以包括分布式存储系统110、调度装置120、数据导出装置130和数据中转装置140。分布式存储系统110包括多个存储单元111,存储单元111例如可以是分布式存储系统110中所部署的位于各个地域的存储节点(服务器)。位于各个地域的用户可以将数据写入到自身所在地的存储单元111中。调度装置120用于发起数据导出指令,管理数据导出进度以及调度数据导出任务。调度装置120可以按照存储库或存储表进行导出任务的划分,实时调控,实时生效,有利于数据导出的维护和扩展。数据导出装置130包括拉取单元131、排序单元132和聚合单元133。拉取单元131用于接收调度装置120发起的数据导出指令,响应于数据导出指令从存储单元111中捕获被写入的数据。排序单元132用于按照数据的写入时间顺序对捕获到的数据进行排序,聚合单元133用于根据数据特征对排序后的数据进行合并,输出多个数据集。数据中转装置140可以用于将数据导出装置130输出的多个数据集存储到云上存储产品的设备上,云上存储产品例如是共享存储服务Awss3(AmazonSimpleStorageService)。数据中转装置140还可以用于对多个数据集进行临时存储,并基于用户需求对临时存储的多个数据集进行分发。本公开实施例所提供的数据导出方法可以由数据导出装置130执行。图2是根据本公开的一个实施例的数据导出方法的流程图。如图2所示,该数据导出方法200可以包括操作S210~操作S230。在操作S210,接收数据导出指令。数据导出指令用于指示从分布式存储系统中导出被写入的数据,分布式存储系统包括多个存储单元,每个存储单元存本文档来自技高网
...

【技术保护点】
1.一种数据导出方法,包括:/n接收数据导出指令,所述数据导出指令包括第一时间信息、第二时间信息和至少一个存储单元标识,其中所述至少一个存储单元标识与至少一个存储单元一一对应;/n根据第一时间信息,从至少一个存储单元导出在第一时间信息指示的第一时刻之前存储的存量数据;以及/n根据第二时间信息,从第二时间信息指示的第二时刻起,以预定时间间隔从所述至少一个存储单元导出所述至少一个存储单元存储的增量数据,其中,所述增量数据是前一次从所述至少一个存储单元导出更新数据到当前时刻期间,所述至少一个存储单元被写入的数据。/n

【技术特征摘要】
1.一种数据导出方法,包括:
接收数据导出指令,所述数据导出指令包括第一时间信息、第二时间信息和至少一个存储单元标识,其中所述至少一个存储单元标识与至少一个存储单元一一对应;
根据第一时间信息,从至少一个存储单元导出在第一时间信息指示的第一时刻之前存储的存量数据;以及
根据第二时间信息,从第二时间信息指示的第二时刻起,以预定时间间隔从所述至少一个存储单元导出所述至少一个存储单元存储的增量数据,其中,所述增量数据是前一次从所述至少一个存储单元导出更新数据到当前时刻期间,所述至少一个存储单元被写入的数据。


2.根据权利要求1所述的方法,其中,所述至少一个存储单元中的每个存储单元包括第一存储区和第二存储区,第一存储区和第二存储区配置为同步存储被写入的数据;
所述从至少一个存储单元导出存量数据包括以打快照的方式从第一存储区导出存量数据;以及
所述从至少一个存储单元导出增量数据包括从第一存储区导出增量数据。


3.根据权利要求2所述的方法,还包括:
设置导出数据索引值,所述导出数据索引值指示了已导出增量数据的数据量;
根据当前导出的增量数据的数据量,将所述导出数据索引值增大对应数值,得到所述导出数据索引的当前值;
将所述当前值与预定阈值进行比较;以及
在所述当前值大于等于所述预定阈值的情况下,使得清除所述第二存储区中存储的数据,并将所述导出数据索引值复位。


4.根据权利要求1所述的方法,其中,所述第一时刻在第二时刻之后。


5.根据权利要求1所述的方法,其中,所述至少一个存储单元中存储的数据具有数据标签,所述数据标签包括数据标识和数据写入时刻。


6.根据权利要求5所述的方法,还包括:
获取在第一时刻导出的存量数据的数据标签;
获取在第一时刻和第二时刻之间导出的增量数据的数据标签;
将存量数据的数据标签与增量数据的数据标签进行比较;以及
根据比较结果,清除获取的存量数据与获取的增量数据之间的重复数据。


7.根据权利要求5所述的方法,还包括:
根据已导出数据的数据标签,确定已导出数据是否存在数据缺失;
在确定已导出数据存在数据缺失的情况下,从所述第二存储区导出缺失的数据。


8.根据权利要求5所述的方法,还包括:
根据已导出数据的数据写入时刻,按照时间顺序对导出的存量数据和增量数据进行排序,得到已排序数据;以及
根据已导出数据的数据标识,将所述已排序数据聚合为多个数据集,以便分发所述多个数据集。


9.一种数据导出装置,包括:
接收单元,用于接收数据导出指令,所述数据导出指令包括第一时间信息、第二时间信息和至少一个存储单元标识,其中所述至少一个存储单元标识与至少一个存储单元一一对应;
第一导出单元,用于根据第一时间信息,从至少一个存储单元导出在第一时间信息指示的第一时刻之前存储的存量数据;以及
第二导出单元,用于根据第二时间信息,从第二时间信息指示的第二时刻起,以预定时间间...

【专利技术属性】
技术研发人员:席涛王悦
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1