【技术实现步骤摘要】
本专利技术涉及分布式数据库HBase以及分布式文件系统HDFS领域,特别涉及一种针对海量非结构化数据的资源管理方法。
技术介绍
HDFS的全称为HadoopDistributedFilesystem,是Hadoop的旗舰级文件系统。其思想来源于Google文件系统(GoogleFileSystem,GFS),并适合一次写入、多次读取的访问模式,满足城市多源数据应用场景。它是一个适合存储大文件的分布式文件系统,可以作为Hadoop和Spark的数据源。HBase是基于谷歌Bigtable开发的开源分布式数据库,它不是传统的关系型数据库,其最初的宗旨就是解决传统关系型数据库在处理大规模海量数据时理论以及实践上的不足问题。由于HBase的底层数据是存储在HDFS上,故HBase同样具有高容错性。HBase的主要特点有:1)高可扩展性。在存储容量上,HBase实现了线性水平扩展。当数据量达到一定阀值时,HBase将对数据进行水平分割,并将分割块分配到集群的上千个服务器中。当数据的规模到达集群的极限时,HBase还支持扩大集群数量,实现不停机动态无缝扩容。2)高性能。HBase的设计初衷就是要满足用户高并发的海量数据查询。它有两点机制来保障高效的并发查询。一是数据分割。HBase将数据分割到集群的每个节点,当用户查询数据时,每个节点可同时返回相应的数据块,实现并发查询。二是缓存机制。HBase设计了高效的缓存机制,特别设置 ...
【技术保护点】
一种针对海量非结构化数据的资源管理方法,其特征在于,包括以下步骤:步骤a:根据非结构化数据文件的大小确定其存储方式,当所述非结构化数据文件大小超过给定阈值时,将其存入HDFS文件系统,并在HBase上创建的数据表中存储其基本信息及在HDFS上的路径;当所述非结构化数据文件大小小于等于给定阈值时,将所述文件序列化并直接存储在HBase数据库中;步骤b:根据所述非结构化数据构建元数据表和数据索引表,并利用所述元数据表构建元数据索引表;步骤c:当查询元数据时,根据要查找的元数据的主题或标签对所述元数据索引表进行查找,以获得对应的数据表;以及步骤d:当查询非结构化数据记录时,根据所述数据索引表的命名规则找到数据表对应的数据索引表,之后在所述数据索引表中查找所述非结构化数据记录的语义标签,获得所要查找的数据记录的主键,然后根据所述主键在所述数据表中快速定位数据。
【技术特征摘要】
1.一种针对海量非结构化数据的资源管理方法,其特征在于,包括以下步骤:
步骤a:根据非结构化数据文件的大小确定其存储方式,当所述非结构化数据文
件大小超过给定阈值时,将其存入HDFS文件系统,并在HBase上创建的数据表中存储
其基本信息及在HDFS上的路径;当所述非结构化数据文件大小小于等于给定阈值时,
将所述文件序列化并直接存储在HBase数据库中;
步骤b:根据所述非结构化数据构建元数据表和数据索引表,并利用所述元数据
表构建元数据索引表;
步骤c:当查询元数据时,根据要查找的元数据的主题或标签对所述元数据索引
表进行查找,以获得对应的数据表;以及
步骤d:当查询非结构化数据记录时,根据所述数据索引表的命名规则找到数据
表对应的数据索引表,之后在所述数据索引表中查找所述非结构化数据记录的语义标
签,获得所要查找的数据记录的主键,然后根据所述主键在所述数据表中快速定位数
据。
2.根据权利要求1所述的方法,其特征在于,步骤a中,所述给定阈值为1MB,
进一步包括以下步骤:
步骤a1:首先在HBase上创建所要上传数据的数据表;
步骤a2:选择所要上传的数据文件;
步骤a3:判断所述数据文件大小;
步骤a4:若文件大小超过1MB,就将其存入HDFS,并在HBase表中存储其基本信
息及在HDFS上的路径,否则进入步骤a5;以及
步骤a5:将文件序列化并直接存储在HBase数据库中。
3.根据权利要求2所述的方法,其特征在于,步骤b进一步包括:
步骤b1:对所有非结构化数据都在HBase数据库上创建元数据表和数据索引表,
所述元数据表中包括所述非结构化数据的元数据信息;
步骤b2:根据所述元数据表中元数据信息创建元数据索引表。
4.根据权利要求3所述的方法,其特征在于,所述元数据信息是用于描述非结构
化数据属性的信息,用来支持包括指示存储位置、资源查找、文件记录的功能,所述
元数据信息包括下述字段:表名、主题、标签以及文件格式;在所述元数据信息表中
以表名作为行键,用于通过表名进行查找。
5.根据权利要求4所述的方法,其特征在于,所述主题字段是对城市...
【专利技术属性】
技术研发人员:张善海,熊贵喜,蔡朝辉,杜博文,凌萍,谢志普,
申请(专利权)人:博康智能网络科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。