一种混合存储介质的数据查询方法和装置制造方法及图纸

技术编号:15123538 阅读:331 留言:0更新日期:2017-04-10 02:02
本发明专利技术提供一种混合存储介质的数据查询方法和装置。所述混合存储介质的数据查询方法,包括:获取待查询数据表;在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。本发明专利技术能够实现统一对混合存储介质上的数据进行查询。

【技术实现步骤摘要】

本专利技术涉及数据存储领域,特别是指一种混合存储介质的数据查询方法和装置
技术介绍
目前,企业级数据仓库一般采用数据库系统作为底层基础架构。在大数据背景下,很多企业开始尝试使用Hadoop(分布式计算)之类的新一代数据仓库技术进行构建。作为数据库和数据仓库领域的通用标准语言SQL(结构化查询语言),也顺势被移植到了Hadoop上面。最典型也是当前最广泛应用的是Apache(世界使用排名第一的Web服务器软件)社区的Hive(数据仓库工具)工具,能够使用类似SQL的语言HiveQL对Hadoop里存储的大量数据进行查询。在实际应用过程中,客户需要对大量数据进行汇集和转移,而原始数据往往位于Oracle(甲骨文公司)这样的传统数据库中。一般来讲,客户和项目实施方会根据数据的逻辑定义去确定数据转移到Hadoop平台中的存储格式,然后花大量时间进行数据ETL(数据从来源端经过萃取、转置、加载至目的端的过程)工作。对于TB(万亿字节)级别数据,针对国内普遍数据中心还处于千兆网的环境前提下,轻则1-2天,重则需要更长的时间甚至数周,而数据在搬运后还需要各种清洗加工,这对于希望能快速建模,探索大数据价值的公司来说,无疑是极大的时间成本。
技术实现思路
本专利技术要解决的技术问题是,提供一种混合存储介质的数据查询方法和装置,能够实现统一对混合存储介质上的数据进行查询。一方面,提供一种混合存储介质的数据查询方法,包括:获取待查询数据表;在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。所述地址信息还包括:端口。所述的方法,还包括:根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。所述获取待查询数据表的步骤之前,所述方法还包括:获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址,形成各数据表的地址信息;建立各数据表与所述各数据表的地址信息之间的对应关系。另一方面,提供一种混合存储介质的数据查询装置,包括:第一获取模块,获取待查询数据表;第二获取模块,在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;查找模块,根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。所述地址信息还包括:端口。所述的装置,还包括:读取模块,根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。所述的装置,还包括:第三获取模块,获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;形成模块,根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址,形成各数据表的地址信息;建立模块,建立各数据表与所述各数据表的地址信息之间的对应关系。本专利技术的上述技术方案的有益效果如下:本专利技术通过对地址信息的建立,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址,能够实现统一对混合存储介质上的数据进行查询。附图说明图1为本专利技术所述的一种混合存储介质的数据查询方法的流程示意图;图2为本专利技术所述的一种混合存储介质的数据查询装置的连接示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。如图1所示,为本专利技术所述的一种混合存储介质的数据查询方法,包括:步骤10A,获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;步骤10B,根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址,形成各数据表的地址信息;步骤10C,建立各数据表与所述各数据表的地址信息之间的对应关系。其中上述步骤为准备步骤,为后续处理作准备。本专利技术构建了混合存储介质的存储记录方式,定义了不同的存储类型,然后记录了数据在不同存储类型上的分布。具体来说,以二维表为最小管理单位,元数据会记录每个表分布的存储介质,以及在该存储介质具体的存储地址。举例来讲,一个数据表,可能会分布在关系数据库中,那么地址信息会记录表名、数据库地址、数据库名称这样的三元组;如果分布在HDFS中,那么地址信息会记录表名、HDFS一任意节点的地址、HDFS的URL这样的三元组;更进一步的,这个表也可以同时存在HDFS和传统数据库里。因此每个数据表会对应一个存储列表,里面有一系列的存储节点,而这些不同类型的存储节点都有定义好的一致的地址、表示方式和读写接口。步骤11,获取待查询数据表;步骤12,在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。步骤13,根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。可选的,所述地址信息还包括:端口,便于后续对数据库的读取。端口也就是数据库的读取接口。相应的,所述的方法,还包括:步骤14,根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。如图2所示,为本专利技术所述的一种混合存储介质的数据查询装置,包括:第一获取模块21,获取待查询数据表;第二获取模块22,在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一本文档来自技高网...

【技术保护点】
一种混合存储介质的数据查询方法,其特征在于,包括:获取待查询数据表;在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。

【技术特征摘要】
1.一种混合存储介质的数据查询方法,其特征在于,包括:
获取待查询数据表;
在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述
地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表
在所述存储介质中的存储地址;
根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质
的所述存储地址处,查找所述待查询数据表。
2.根据权利要求1所述的方法,其特征在于,
当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据
库名称;
当所述存储介质为分布式文件系统HDFS时,所述地址信息包括:节点地
址和文件路径。
3.根据权利要求2所述的方法,其特征在于,所述地址信息还包括:存
储介质的端口。
4.根据权利要求3所述的方法,其特征在于,还包括:
根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查
询数据表。
5.根据权利要求3所述的方法,其特征在于,所述获取待查询数据表的
步骤之前,所述方法还包括:
获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地
址;
根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存
储地址,形成各数据表的地址信息;
建立各数据表与所述各数据表的地址信息之间的对应关系。
6...

【专利技术属性】
技术研发人员:刘诚忠查锐杜芳吴健冯是聪吴明辉
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1