数据处理方法和装置制造方法及图纸

技术编号:28673145 阅读:21 留言:0更新日期:2021-06-02 02:49
本发明专利技术公开了一种数据处理方法和装置。该方法包括:获取第一分布式文件系统中各个数据的使用频率;将使用频率低于设定频率的数据确定为冷数据;将冷数据同步到第二分布式文件系统中,其中,第二分布式文件系统设置在第二服务器中预设的网络附属存储器,第一分布式文件系统设置在预设服务器;在同步完成之后,将冷数据从第一分布式文件系统中删除。通过本发明专利技术,达到了通过将使用频率低的数据单独存储以降低成本的效果。

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
很多公司都有自己的大数据部门,每天都有大量的数据产生,动辄就是几TB到几十个TB的增量。随着时间的推移,数据量越来越大。IT基础设置的成本也不断增高,同时集群规模和数据量的增大也导致系统稳定性和效率变差。目前多数企业单位的大数据架构都是基于hadoop技术进行搭建的,因其技术相对比较成熟和稳定。虽然该架构使用的是相对于专业数据服务器来说,较为低廉的pc机,但是也要求每份数据有多个副本,对于普遍的情况来说,一份数据配置2个副本。随着数据量和业务量的增加,It成本也是不断的增加。相近的技术方案是:使用时序数据库,对冷数据进行压缩归档保存,冷数据是指使用频率相对较低的历史数据。但是使用时序数据库,对冷数据进行压缩归档保存方式,有以下几个缺点:1、归档需要编写专门的应用程序,调用时序数据库的开发接口(api)进行数据的写入。增加了较大的开发成本;2、引进新的技术组件,增加大数据部门的学习和运维成本。3、归档的数据在需要使用(如查询)时,改变了原有用户的使用方式和习惯。4、归档的数据难以兼容原有的管理访问应用。针对相关技术中大数据存储管理成本高的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法和装置,以解决大数据存储管理成本高的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种数据处理方法,该方法包括:获取第一分布式文件系统中各个数据的使用频率;将使用频率低于设定频率的数据确定为冷数据;将所述冷数据同步到第二分布式文件系统中,其中,所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器,所述第一分布式文件系统设置在预设服务器;在同步完成之后,将所述冷数据从所述第一分布式文件系统中删除。进一步地,在将所述冷数据同步到第二分布式文件系统中之前,所述方法还包括:在所述第一分布式文件系统对应的数据仓库中创建外部表;将所述外部表的存储位置设置为所述第二分布式文件系统的目录名;根据所述外部表的存储位置修复所述数据仓库中表的分区。进一步地,在获取第一分布式文件系统中各个数据的使用频率之前,所述方法还包括:将所述网络附属存储器的存储空间划分为多个卷;将所述多个卷挂载到至少一台所述预设服务器中;在每台所述预设服务器中安装所述第二分布式文件系统,其中,所述第二分布式文件系统包含一个管理节点和多个数据节点;将所述数据节点中的数据存储位置配置为所述多个卷的挂载位置。进一步地,将所述网络附属存储器存储空间划分为多个卷包括:将预设网络存储空间划分为多个大小相同的卷;或将预设网络存储空间划分为多个大小相差不超过预设阈值的卷。进一步地,将所述冷数据同步到第二分布式文件系统中包括:通过分布式文件系统自带的分布式拷贝命令将所述冷数据同步到第二分布式文件系统中。进一步地,所述获取第一分布式文件系统中各个数据的使用频率,包括:周期性地获取第一分布式文件系统中各个数据的使用频率。进一步地,所述将使用频率低于设定频率的数据确定为冷数据,包括:将当前周期内使用频率低于设定频率的数据确定为冷数据;或者,将当前周期内及当前周期以前连续的一个或多个周期内使用频率低于设定频率的数据确定为冷数据。为了实现上述目的,根据本专利技术的另一方面,还提供了一种数据处理装置,该装置包括:获取单元,获取第一分布式文件系统中各个数据的使用频率;确定单元,用于将使用频率低于设定频率的数据确定为冷数据;同步单元,用于将所述冷数据同步到第二分布式文件系统中,其中,所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器,所述第一分布式文件系统设置在预设服务器;删除单元,用于在同步完成之后,将所述冷数据从所述第一分布式文件系统中删除。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序被处理器执行时执行本专利技术所述的数据处理方法。为了实现上述目的,根据本专利技术的另一方面,还提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行本专利技术所述的数据处理方法。本专利技术通过获取第一分布式文件系统中各个数据的使用频率;将使用频率低于设定频率的数据确定为冷数据;将冷数据同步到第二分布式文件系统中,其中,第二分布式文件系统设置在第二服务器中预设的网络附属存储器,第一分布式文件系统设置在预设服务器;在同步完成之后,将冷数据从第一分布式文件系统中删除,解决了大数据存储管理成本高的问题,进而达到了通过将使用频率低的数据单独存储以降低成本的效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的数据处理方法的流程图;图2是本实施例的方案部署结构图;图3是本实施例的数据安装同步使用的流程图;图4是根据本专利技术实施例的数据处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供了一种数据处理方法。图1是根据本专利技术实施例的数据处理方法的流程图,如图1所示,该方法包括以下步骤:步骤S102:获取第一分布式文件系统中各个数据的使用频率;步骤S104:将使用频率低于设定频率的数据确定为冷数据;步骤S106:将所述冷数据同步到第二分布式文件系统中,其中,所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器,所述第一分布式文件系统设置在预设服务器;步骤S108:在同步完成之后,将所述冷数据从所述第一分布式文件系统中删除。该实施例采用通过获取第一分布式文件系统中各个数据的使用频率;将使用频率低于设定频率的数据确定为冷数据;将冷数据同步本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取第一分布式文件系统中各个数据的使用频率;/n将使用频率低于设定频率的数据确定为冷数据;/n将所述冷数据同步到第二分布式文件系统中,其中,所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器,所述第一分布式文件系统设置在预设服务器;/n在同步完成之后,将所述冷数据从所述第一分布式文件系统中删除。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取第一分布式文件系统中各个数据的使用频率;
将使用频率低于设定频率的数据确定为冷数据;
将所述冷数据同步到第二分布式文件系统中,其中,所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器,所述第一分布式文件系统设置在预设服务器;
在同步完成之后,将所述冷数据从所述第一分布式文件系统中删除。


2.根据权利要求1所述的方法,其特征在于,在将所述冷数据同步到第二分布式文件系统中之前,所述方法还包括:
在所述第一分布式文件系统对应的数据仓库中创建外部表;
将所述外部表的存储位置设置为所述第二分布式文件系统的目录名;
根据所述外部表的存储位置修复所述数据仓库中表的分区。


3.根据权利要求1所述的方法,其特征在于,在获取第一分布式文件系统中各个数据的使用频率之前,所述方法还包括:
将所述网络附属存储器的存储空间划分为多个卷;
将所述多个卷挂载到至少一台所述预设服务器中;
在每台所述预设服务器中安装所述第二分布式文件系统,其中,所述第二分布式文件系统包含一个管理节点和多个数据节点;
将所述数据节点中的数据存储位置配置为所述多个卷的挂载位置。


4.根据权利要求3所述的方法,其特征在于,将所述网络附属存储器存储空间划分为多个卷包括:
将预设网络存储空间划分为多个大小相同的卷;或将预设网络存储空间划分为多个大小相差不超过预设阈值的卷。


5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:戚永峰
申请(专利权)人:青岛海尔科技有限公司海尔智家股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1