本发明专利技术涉及数据系统技术领域,具体的讲是一种基于空间关联的分布式数据装置、方法及系统。其中,存储方法包括将具有空间特性的数据划分为多个网格,所述网格具有该网格所在空间中的数据;根据网格空间位置的关联关系,将所述网格中的数据存储于复数个存储节点。本发明专利技术的有益效果在于对于巨量的各种类型空间数据,可以实现高并行度的数据写入和读取,保证按照空间属性分割的数据可以均衡的、保持空间关联的、安全的存储到各个节点,同时,系统具有极大的扩展能力,而且系统扩展与性能是线性相关的,系统不会出现大量闲置节点,或者I/O瓶颈节点,实现了分布式系统设计的初衷。
【技术实现步骤摘要】
一种基于空间关联的分布式数据装置、方法及系统
本专利技术涉及数据系统
,具体的讲是一种基于空间关联的分布式数据装置、方法及系统。
技术介绍
分布式数据系统经过多年发展,目前已经成为海量数据高效率、高可用性、高性价比存储和应用的重要解决方式,其在推动云计算和大数据应用上具有举足轻重的作用。分布式数据系统的核心思想是分散数据的存储,将数据分割成标准的子集,使用多节点存储数据的各个子集,并将数据子集的位置信息存储到主节点。在读取数据时,每个存储节点只负责提供自己的数据子集,由客户端接口组件负责重组各个数据子集,最终提交数据文件或记录。通过数据的分割存储和分散读取,可以大大的降低单一节点的I/o压力,实现多节点的并行读取,整个数据系统的性能将会得到极大提升,能够适应现今数据急剧增长和应用需求不断提高的挑战。现有技术中实现的分布式数据系统主要的处理对象是数据文件或数据记录,本质上仍然是一种文件系统或者数据库存储系统的扩展。因此,当前分布式数据系统更多的实现是分布式文件系统,文件作为系统的基本处理单元,形成文件子集分散存储到各个节点。分布式文件系统的数据分割完全是基于物理切分的,数据子集关联的依据是文件中的位置。同时,在分布式文件系统中,数据文件之间是没有属性关联关系的,数据文件及其数据子集的存储位置按照随机规则进行分配。系统对于文件的整体读写具有较好的性能,但是按照数据属性,对文件部分读取或者多文件关联读取时,存储节点很难维持合理的负载均衡,会出现少量节点承担大部分I/o压力,大量节点空闲的情况,极大地影响系统性能。现有技术一提供了一种分布式文件系统,例如Hadoop分布式文件系统(HDFS),它被设计成适合运行在通用硬件上的分布式文件系统,HDFS能提供高吞吐量的数据访问,非常适合大规模数据的存储和应用。HDFS以文件为存储单元,将文件按照固定数据块容量(64MB)进行物理分割,采用多拷贝复制方式,将数据块分散存储到存储节点。HDFS主要由一个名字节点和多个数据节点组成,名字节点负责维护文件名检索、确定数据块与数据节点的映射、接受数据读写请求,按照数据流的方式提供数据。但是本案专利技术人发现现有技术一至少存在以下不足:首先HDFS系统是文件系统的分布式实现,其处理主体仍然是各个独立的文件,因而不能称为真正的数据系统;其次,面对具有明显属性关联的数据,如空间、时间、层次等属性的数据类型,HDFS系统无法识别这些属性信息,无法按照属性关联方式分割数据,建立数据块间的关联,造成数据分布的不合理;再次,由于HDFS系统没有按照数据属性分割存储数据,当按照某种属性特征进行数据读取时,无法提供合理的负载均衡,部分节点的I/O压力过大,造成整体性能的下降;最后,HDFS数据访问是基于文件的,无法基于属性特征进行数据访问,无法提供基于属性的数据查询、合并、裁剪等操作,无法按照属性关联读取和重组多个文件的数据。现有技术二提供一种GoogleBigTable (BigTable: A Distributed Storage Systemfor Structured Data)的分布式数据库系统,可以实现海量数据记录在成百上千节点的存储。BigTable基于一种Key/Value白勺存储结构,引入了列族(即Column Family)的概念,即一条记录由Key和一个或多个列族组成,存储时按列族存储。每个BigTable的数据表由多个Tablet组成,Tablet是一个数据记录集合的单元,一般限定数据容量为100-200MB,由Tablet Server负责管理Tablet位置信息。BigTable建立了一个B+树的Tablet索引结构,采用Google Chubby服务进行高可用和访问锁控制,用户访问通过Chubby连接到RootTablet,然后定位到具体的Tablet,最后通过Key得到相应的列族。BigTable非常适合巨大数据量的非结构化或半结构化数据的存储,可以提供较好的分布式并行读写性能。但是本案专利技术人发现现有技术二至少存在以下不足:首先BigTable的Key/Value结构只具有单一的关键字,而且一般为字符串,无法用于具有多维属性结构的关键字描述,例如具有空间位置、时间属性和层次属性的空间数据;其次BigTable存储数据是按照到达顺序或者随机方式进行分配的,以此形成不同的Tablet,会造成空间关联数据存储的不合理,数据访问会频繁的指向一个Tablet,从而失去分布式系统的优势;再次,BigTable的数据记录通过Key是无法判断属性关联的,例如空间相邻、时间顺序、层次关系等,因而在数据查询读取时,无法按照属性特征进行任务分配和处理,造成系统性能的不均衡。
技术实现思路
本专利技术正是考虑到当前分布式文件系统的缺陷和不足,针对具有空间属性的数据类型,设计和实现了一种基于空间关联的分布式数据装置、方法及系统。整个数据系统将不存在文件概念,系统使用标准空间参数建立不同的数据空间,输入数据按照匹配的数据空间进行网格化分割,通过网格散列计算得到分布序列编码,以此编码为依据将网格化的数据块存储到分布节点中。这个分布式系统将成为一个真正的面向数据的系统,而不是简单的文件系统,系统中的数据和数据块完全依据自身的空间属性进行分割和分布,数据读取可以涉及到数据空间的任意区域,系统自动的按照空间范围拼接和裁剪数据,形成最终结果,以数据流或者文件的方式提供。本专利技术实施例提供了一种基于空间关联的分布式数据存储方法,包括,将具有空间特性的数据划分为多个网格,所述网格具有该网格所在空间的数据;根据网格空间位置的关联关系,将所述网格中的数据存储于复数个存储节点。根据本专利技术实施例所述一种基于空间关联的分布式数据存储方法的一个进一步的方面,所述空间特性的数据包括一维空间数据,二维空间数据,三维空间数据或者多维空间数据。根据本专利技术实施例所述一种基于空间关联的分布式数据存储方法的再一个进一步的方面,数据空间作为具有相同空间属性数据的容器,由多个范围一致的空间网格组成,所述每个网格均具有时间轴,按照时间片的方式存储不同时段内的数据,在每个时间片内还包括至少一个物理层,数据按照物理层分为多个数据块。根据本专利技术实施例所述一种基于空间关联的分布式数据存储方法的另一个进一步的方面,根据网格空间位置的关联关系将所述网格中的数据存储于复数个存储节点中进一步包括,将空间位置距离近的数据存储于分散的存储节点中。根据本专利技术实施例所述一种基于空间关联的分布式数据存储方法的另一个进一步的方面,所述根据网格的空间位置将所述网格中的数据存储于复数个存储节点之前还包括,将所述多个网格进行从维度空间到一维序列的转换,得到能够体现网格之间空间关系的序列编码。根据本专利技术实施例所述一种基于空间关联的分布式数据存储方法的另一个进一步的方面,所述将所述多个网格进行从维度空间到一维序列的转换方法进一步包括希尔伯特曲线、行序曲线或Z序曲线。根据本专利技术实施例所述一种基于空间关联的分布式数据存储方法的另一个进一步的方面,在得到能够体现网格之间空间关系的序列编码之后还包括,将所述序列编码与存储节点做映射,根据所述映射将空间位置距离近的数据存储于分散的存储节点中。本专利技术实施例还提供了本文档来自技高网...
【技术保护点】
一种基于空间关联的分布式数据存储方法,其特征在于包括,将具有空间特性的数据划分为多个网格,所述网格具有该网格所在空间的数据;根据网格空间位置的关联关系,将所述网格中的数据存储于复数个存储节点。
【技术特征摘要】
1.一种基于空间关联的分布式数据存储方法,其特征在于包括, 将具有空间特性的数据划分为多个网格,所述网格具有该网格所在空间的数据; 根据网格空间位置的关联关系,将所述网格中的数据存储于复数个存储节点。2.根据权利要求1所述的一种基于空间关联的分布式数据存储方法,其特征在于,所述空间特性的数据包括一维空间数据,二维空间数据,三维空间数据或者多维空间数据。3.根据权利要求1所述的一种基于空间关联的分布式数据存储方法,其特征在于,数据空间作为具有相同空间属性数据的容器,由多个范围一致的空间网格组成,所述每个网格均具有时间轴,以时间片的形式存储不同时段内的数据,在每个时间片内还包括至少一个物理层,数据按照物理层分为多个数据块。4.根据权利要求1所述的一种基于空间关联的分布式数据存储方法,其特征在于,根据网格空间位置的关联关系,将所述网格中的数据存储于复数个存储节点中,进一步包括,将空间位置距离近的数据存储于分散的存储节点中。5.根据权利要求1所述的一种基于空间关联的分布式数据存储方法,其特征在于,所述根据网格的空间位置的关联关系,将所述网格中的数据存储于复数个存储节点之前还包括,将所述多个网格进行从维度空间到一维序列的转换,得到能够体现网格之间空间关系的序列编码。6.根据权利要求5所述的一种基于空间关联的分布式数据存储方法,其特征在于,所述将所述多个网格进行从维度空间到一维序列的转换方法进一步包括希尔伯特曲线、行序曲线或Z序曲线。7.根据权利要求5所述的一种基于空间关联的分布式数据存储方法,其特征在于,在得到能够体现网格之间空间关系的序列编码之后还包括,将所述序列编码与存储节点做映射,根据所述映射将空间位置距离近的数据存储于分散的存储节点中。8.一种基于空间关联的分布式数据并行读取方法,其特征在于包括, 根据读取具有空间特性数据的读取请求,确定覆盖所述读取请求的网格; 根据所述覆盖的网格,确定存储所述网格中数据的存储节点; 从所述确定的存储节点并行读取请求的数据。9.根据权利要求8所述的一种基于空间关联的分布式数据并行读取方法,其特征在于,在从所述确定的存储节点获取所述读取请求的数据之后还包括,根据所述读取请求中的空间范围对所述覆盖网格的数据进行拼接和裁剪,获得精确的读取请求的数据。10.一种基于...
【专利技术属性】
技术研发人员:罗敬宁,
申请(专利权)人:罗敬宁,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。