基于hadoop的海量瓦片小文件存储管理方法技术

技术编号：11829121 阅读：128 留言：0更新日期：2015-08-05 12:36

本发明专利技术提供一种基于hadoop的海量瓦片小文件存储管理方法，通过希尔伯特曲线排序再利用Hadoop本身自带的Sequence File技术对栅格瓦片数据进行序列化压缩存储；在生成瓦片压缩块的时候实现多台服务器多线程并行压缩及生成瓦片索引信息，提高海量文件入库存储速度；对块文件名的规则命名管理，能对海量、多源、多版本栅格小瓦片提供高效存储、快速读取及高性能栅格数据服务；设计了ITMS（Improved Tile Map Service），解决传输原始数据和应对实时数据处理请求造成的延迟与带宽占用，以满足项目数据检索与传输要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及hadoop分布式平台上进行栅格数据存储管理方法，特别是海量、多源、多版本栅格小文件的存储管理方法。
技术介绍
随着GIS技术的快速发展，地图数据急剧增长，相应的瓦片数据量大、数据源多、版本多，如何高效存储管理海量地图瓦片数据成为难题。云计算的出现提供了一个新的思路。近几年来，为了解决大规模数据的存储和管理的问题，许多公司和机构提出了一系列基于"云计算"技术的可扩展的大规模数据管理方案。目前主流的开源项目Hadoop是一个包含了海量数据存储和计算的分布式系统架构，可以在廉价PC Server上部署大规模结构化存储的集群。目前已有较多针对小文件数据存储和管理的研宄，并已提出了一系列解决方法，这些方法中普遍采用的是对小文件进行合并成大文件，再使用分层索引的方法来管理这些合并后的大文件。专利号为CN201310398165. 4公开了一种海量瓦片数据的存储方法及读取方法，该方法根据获取的瓦片数据的分层信息生成一级索引文件的数据块；将一级索引文件的数据块进一步划分为数据网格，得到每个单元格在数据块中的位置坐标；根据位置坐标和分块信息生成对应瓦片数据的二级索引文件；按照先到先存的方式将瓦片数据存储；在每次进行目标瓦片数据存储写入时，将对应生成的一级索引文件和二级索引文件存储。这种技术方案存在以下缺点： (1) 现有的小文件存储和管理方法多基于分层索引来管理数据，分层索引带来的问题是要额外耗费精力来开发一种Hadoop集群小文件存储机制来保证小文件合并后的块文件索引与对应的这个块一起传输到同一个DataNo...
<a href="http://www.xjishu.com/zhuanli/55/CN104820714.html" title="基于hadoop的海量瓦片小文件存储管理方法原文来自X技术">基于hadoop的海量瓦片小文件存储管理方法</a>

【技术保护点】
一种基于hadoop的海量瓦片小文件存储管理方法，其特征在于：包括以下步骤：步骤S1:对欲存储的文件的大小进行判断，如果单个文件小于20M的将其进行序列化压缩再入库存储，如果单个文件大于等于20M就直接入库存储；步骤S2：引入了希尔伯特曲线对存储的文件进行排序；步骤S3：对存储的文件进行压缩及生成瓦片索引信息；步骤S4：对瓦片文件进行分类、命名；步骤S5：建立瓦片信息索引表；步骤S6：提供一改进型地理数据块服务ITMS，通过所述ITMS提供的对多类型预生成地理数据单元块进行异步访问；步骤S7：将Memcached作为一个缓存区域，若请求的瓦片数据在缓存列表中，则直接返回该瓦片数据，否则去HBase中查询；将缓存查询结果字符串索引保存到缓存列表中，并将被请求过的数据瓦片保存在内存中。

【技术特征摘要】

【专利技术属性】
技术研发人员：汤振立，陈强，林承华，梁曼舒，罗富财，吴丹，
申请(专利权)人：国家电网公司，国网福建省电力有限公司，国网福建省电力有限公司电力科学研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人