数据处理方法和装置制造方法及图纸

技术编号：28673145 阅读：21 留言：0更新日期：2021-06-02 02:49

本发明专利技术公开了一种数据处理方法和装置。该方法包括：获取第一分布式文件系统中各个数据的使用频率；将使用频率低于设定频率的数据确定为冷数据；将冷数据同步到第二分布式文件系统中，其中，第二分布式文件系统设置在第二服务器中预设的网络附属存储器，第一分布式文件系统设置在预设服务器；在同步完成之后，将冷数据从第一分布式文件系统中删除。通过本发明专利技术，达到了通过将使用频率低的数据单独存储以降低成本的效果。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及数据处理领域，具体而言，涉及一种数据处理方法和装置。
技术介绍
很多公司都有自己的大数据部门，每天都有大量的数据产生，动辄就是几TB到几十个TB的增量。随着时间的推移，数据量越来越大。IT基础设置的成本也不断增高，同时集群规模和数据量的增大也导致系统稳定性和效率变差。目前多数企业单位的大数据架构都是基于hadoop技术进行搭建的，因其技术相对比较成熟和稳定。虽然该架构使用的是相对于专业数据服务器来说，较为低廉的pc机，但是也要求每份数据有多个副本，对于普遍的情况来说，一份数据配置2个副本。随着数据量和业务量的增加，It成本也是不断的增加。相近的技术方案是：使用时序数据库，对冷数据进行压缩归档保存，冷数据是指使用频率相对较低的历史数据。但是使用时序数据库，对冷数据进行压缩归档保存方式，有以下几个缺点：1、归档需要编写专门的应用程序，调用时序数据库的开发接口(api)进行数据的写入。增加了较大的开发成本；2、引进新的技术组件，增加大数据部门的学习和运维成本。3、归档的数据在需要使用(如查询)时，改变了原有用户的使用方式和习惯。4、归档的数据难以兼容原有的管理访问应用。针对相关技术中大数据存储管理成本高的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法和装置，以解决大数据存储管理成本高的问题。为了实现上述目的，根据本专利技术的一个方面，提供了一种数据处理方法，该...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取第一分布式文件系统中各个数据的使用频率；/n将使用频率低于设定频率的数据确定为冷数据；/n将所述冷数据同步到第二分布式文件系统中，其中，所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器，所述第一分布式文件系统设置在预设服务器；/n在同步完成之后，将所述冷数据从所述第一分布式文件系统中删除。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取第一分布式文件系统中各个数据的使用频率；
将使用频率低于设定频率的数据确定为冷数据；
将所述冷数据同步到第二分布式文件系统中，其中，所述第二分布式文件系统设置在第二服务器中预设的网络附属存储器，所述第一分布式文件系统设置在预设服务器；
在同步完成之后，将所述冷数据从所述第一分布式文件系统中删除。

2.根据权利要求1所述的方法，其特征在于，在将所述冷数据同步到第二分布式文件系统中之前，所述方法还包括：
在所述第一分布式文件系统对应的数据仓库中创建外部表；
将所述外部表的存储位置设置为所述第二分布式文件系统的目录名；
根据所述外部表的存储位置修复所述数据仓库中表的分区。

3.根据权利要求1所述的方法，其特征在于，在获取第一分布式文件系统中各个数据的使用频率之前，所述方法还包括：
将所述网络附属存储器的存储空间划分为多个卷；
将所述多个卷挂载到至少一台所述预设服务器中；
在每台所述预设服务器中安装所述第二分布式文件系统，其中，所述第二分布式文件系统包含一个管理节点和多个数据节点；
将所述数据节点中的数据存储位置配置为所述多个卷的挂载位置。

4.根据权利要求3所述的方法，其特征在于，将所述网络附属存储器存储空间划分为多个卷包括：
将预设网络存储空间划分为多个大小相同的卷；或将预设网络存储空间划分为多个大小相差不超过预设阈值的卷。

5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：戚永峰，
申请(专利权)人：青岛海尔科技有限公司，海尔智家股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人