支持多数据库引擎的数据生命周期管理的实现方法技术

技术编号:21224613 阅读:36 留言:0更新日期:2019-05-29 05:21
本发明专利技术公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。

Implementation of Data Life Cycle Management Supporting Multi-database Engine

The invention discloses an implementation method of data life cycle management supporting multi-database engine, which includes: creating Hive tables, HBase tables and Elastic Search tables with lifecycle dependence on Hive metadata through Hive MetaStore services; storing SSD and HDD disks by HBase and Elastic Search clusters; periodically calling life cycle management services and reading Hive MetaS tables. The life cycle information and partition information of table metadata in tore service are calculated to determine whether there is expired partition data. If there is, the type of table is judged according to table metadata information, and the corresponding data life cycle management service is invoked according to different table data storage types. According to the rules in table metadata, the expired data is automatically deleted or migrated.

【技术实现步骤摘要】
支持多数据库引擎的数据生命周期管理的实现方法
本专利技术涉及计算机领域,尤其涉及一种支持多数据库引擎的数据生命周期管理的实现方法。
技术介绍
随着计算机的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展。在海量数据的存储应用中,Hive、HBase、ElasticSearch作为分布式的存储引擎,分别适用于对半结构化数据、非结构化数据、文本数据的存储,基本满足了大数据应用场景下的所有存储方式的需求。但海量数据对存储资源的需求日益增大,需要对数据进行生命周期的管理。数据生命周期管理认为数据是有生命周期,随着数据规模的增大,做好历史数据的维护管理,提高系统资源的使用效率,保障系统健康高效运行,实现数据生命周期管理,在数据中心管理平台的落地,使数据在生命周期的各个阶段实现资源利用和数据价值的最大化。因为随着时间的推移,遵循数据访问频率变化与数据量积累变化成反比这一客观规律,所以根据数据访问频率进行数据价值评估,对大量低价值的过期数据进行删除或采取低成本的数据存储方式,对近期热点数据使用高效的存储方式,使数据价值与存储的技术和管理相匹配。因此提出一种对数据进行生命周期管理实现方法成为亟待解决的问题。
技术实现思路
本专利技术实施例提供一种支持多数据库引擎的数据生命周期管理的实现方法,用以解决现有技术中的上述问题。本专利技术实施例提供一种支持多数据库引擎的数据生命周期管理的实现方法,包括:通过HiveMetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;对于HBase数据库引擎,在Hadoop集群HDFS文件系统层,指定SSD盘和HDD盘的访问目录,基于该Hadoop集群分别启动两个HBase集群,设置SSD盘目录的HBase集群作为存放热点数据的HBase集群,设置HHD盘目录的集群作为存放冷数据的HBase集群;对于ElasticSearch数据库引擎,分别安装两个ElasticSearch集群,一个集群的数据存储路径设置为SSD盘的路径,作为存放热点数据的ElasticSearch集群;一个集群数据存储路径设置为HDD盘的路径,作为存放冷数据的ElasticSearch集群;定期调用生命周期管理服务,读取HiveMetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。优选地,通过HiveMetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表具体包括:对于Hive数据仓库,通过HiveMetaStore服务创建Hive表,其中,Hive表包含有各字段信息以及建表元数据的TBLPROPERTIES信息;对于HBase数据表,通过Hive建表语句将HiveMetaStore服务中的建表信息关联HBase表,通过Spark服务读取HiveMetaStore的建表元数据进行HBase表的查询,其中,建表元数据的TBLPROPERTIES信息中的`dl.colddir`配置指定了存放冷数据的`hamster.node`,并设置有该表所对应的HBase集群信息`hmster.node`;对于ElasticSearch数据表,通过Hive建表语句将HiveMetaStore中的建表信息关联ElasticSearch表,通过Spark服务读取HiveMetaStore的建表元数据进行ElasticSearch表的查询,其中,建表元数据的TBLPROPERTIES信息中的`dl.colddir`配置指定了存放冷数据的`es.node`,并设置有该表所对应的ElasticSearch集群信息`es.node`。优选地,建表元数据的TBLPROPERTIES信息中包括生命周期配置信息,所述生命周期配置信息具体包括:数据的存储方式,数据的生命周期,数据到达生命周期后需要进行操作,和如果数据过期后要进行数据迁移的目的表路径。优选地,调用相应的数据生命周期管理程序,根据表元数据中规则,自动对过期的数据进行删除或迁移具体包括:对Hive表进行生命周期管理,如果该分区表的数据没有被占用则进行过期后操作类型的判断,如果为删除过期数据,则将该分区的数据直接删除,并更新表的分区元数据信息;如果为迁移过期数据,则将数据迁移至冷数据表,如果冷数据表不存在,则根据表的元数据信息首先创建冷数据表,然后进行数据迁移,并更新原表和冷数据表的分区元数据信息;对于HBase表进行生命周期管理,如果该分区表的数据没有被占用则进行过期后操作类型的判断,如果为删除过期数据,则将该分区的数据直接删除,并删除HBase1集群中的相应表,更新表的分区元数据信息;如果为迁移过期数据,则将数据迁移至HBase2集群中,并将迁移的分区加冷数据标识后缀,更新分区元数据信息;对于ElasticSearch表进行生命周期管理,如果该分区表的数据没有被占用则进行过期后操作类型的判断,如果为删除过期数据,则将该分区的数据直接删除,并删除ES1集群中的相应索引,更新表的分区元数据信息;如果为迁移过期数据,则将数据迁移至ES2集群中,并将迁移的分区加冷数据标识后缀,更新分区元数据信息。优选地,对Hive表进行生命周期管理具体包括:如果HiveMetaStore中读取到的表元数据信息指定了表的存储方式为`hive`,Hive表按照时间分区进行数据的存储,Hive表的每一个分区对应HDFS中一个目录,并在HiveMetaStore中存有相应分区的元数据,读取该表的分区信息和生命周期值,进行判断,如果该分区过期,判断该分区是否被占用,如果没有被占用进行如下操作:如果`dl.operator`=`delete`,则直接删除该分区目录,并更新MetaStore中的分区元数据;如果`dl.operator`=`transfer`,则判断是否存在`dl.colddir`对应的冷数据表,如果不存在,则创建相应的冷数据表,将对应的过期分区的目录迁移至冷数据表目录下,并更新原表和冷数据的分区元数据;如果冷数据表存在,则直接进行迁移并更新分区元数据信息。优选地,对于HBase表进行生命周期管理具体包括:如果HiveMetaStore中的读取到表元数据信息指定了表的存储方式为`hbase`,则表按照时间分区进行数据存储,`hbase`存储方式的相应分区对应一个HBase表,表名带时间后缀,读取该表的分区信息和生命周期值,进行判断,如果该分区过期,判断该分区是否被占用,如果没有被占用进行如下操作:如果`dl.operator`=`delete`,则直接删除该分区对应的HBase表,并更新MetaStore中的分区元数据信息;如果`dl.operator`=`transfer`,将对应的过期分区的HBase表迁移到`dl.colddir`对应的HBase集群中,并修改分区元数据信息,将分区名字更新为带冷数据标识的名字。优选地,对于ElasticSearch表进行生命周期管理具体包括:如果本文档来自技高网...

【技术保护点】
1.一种支持多数据库引擎的数据生命周期管理的实现方法,其特征在于,包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;对于HBase数据库引擎,在Hadoop集群HDFS文件系统层,指定SSD盘和HDD盘的访问目录,基于该Hadoop集群分别启动两个HBase集群,设置SSD盘目录的HBase集群作为存放热点数据的HBase集群,设置HHD盘目录的集群作为存放冷数据的HBase集群;对于ElasticSearch数据库引擎,分别安装两个ElasticSearch集群,一个集群的数据存储路径设置为SSD盘的路径,作为存放热点数据的ElasticSearch集群;一个集群数据存储路径设置为HDD盘的路径,作为存放冷数据的ElasticSearch集群;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。...

【技术特征摘要】
1.一种支持多数据库引擎的数据生命周期管理的实现方法,其特征在于,包括:通过HiveMetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;对于HBase数据库引擎,在Hadoop集群HDFS文件系统层,指定SSD盘和HDD盘的访问目录,基于该Hadoop集群分别启动两个HBase集群,设置SSD盘目录的HBase集群作为存放热点数据的HBase集群,设置HHD盘目录的集群作为存放冷数据的HBase集群;对于ElasticSearch数据库引擎,分别安装两个ElasticSearch集群,一个集群的数据存储路径设置为SSD盘的路径,作为存放热点数据的ElasticSearch集群;一个集群数据存储路径设置为HDD盘的路径,作为存放冷数据的ElasticSearch集群;定期调用生命周期管理服务,读取HiveMetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。2.如权利要求1所述的方法,其特征在于,通过HiveMetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表具体包括:对于Hive数据仓库,通过HiveMetaStore服务创建Hive表,其中,Hive表包含有各字段信息以及建表元数据的TBLPROPERTIES信息;对于HBase数据表,通过Hive建表语句将HiveMetaStore服务中的建表信息关联HBase表,通过Spark服务读取HiveMetaStore的建表元数据进行HBase表的查询,其中,建表元数据的TBLPROPERTIES信息中的`dl.colddir`配置指定了存放冷数据的`hamster.node`,并设置有该表所对应的HBase集群信息`hmster.node`;对于ElasticSearch数据表,通过Hive建表语句将HiveMetaStore中的建表信息关联ElasticSearch表,通过Spark服务读取HiveMetaStore的建表元数据进行ElasticSearch表的查询,其中,建表元数据的TBLPROPERTIES信息中的`dl.colddir`配置指定了存放冷数据的`es.node`,并设置有该表所对应的ElasticSearch集群信息`es.node`。3.如权利要求2所述的方法,其特征在于,建表元数据的TBLPROPERTIES信息中包括生命周期配置信息,所述生命周期配置信息具体包括:数据的存储方式,数据的生命周期,数据到达生命周期后需要进行操作,和如果数据过期后要进行数据迁移的目的表路径。4.如权利要求1所述的方法,其特征在于,调用相应的数据生命周期管理程序,根据表元数据中规则,自动对过期的数据进行删除或迁移具体包括:对Hive表进行生命周期管理,如果该分区表的数据没有被占用则进行过期后操作类型的判断,如果为删除过期数据,则将该分区的数据直接删除,并更新表的分区元数据信息;如果为迁移过期数据,则将数据迁移至冷数据表,如果冷数据表不存在,则根据表的元数据信息首先创建冷数据表,然后进行数据迁移,并更新原表和冷数据表的分区元数据信息;对于HBase表进行生命周期管理,如果该分区表的数据没有被占用则进行过期后操作类型的判断,如果为删除过期数据,则将该分区的数据直接删除,并删除HBase1集群中的相应表,更新表的分区元数据信息;...

【专利技术属性】
技术研发人员:刘欣然张鸿马秉楠吕雁飞惠榛孟宪文
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1