一种基于LevelDB的海量数据离线批量加载方法技术

技术编号：27265642 阅读：17 留言：0更新日期：2021-02-06 11:29

本发明专利技术公开了一种基于LevelDB的海量数据离线批量加载（BulkLoad）方法。该方法包含以下步骤：使用Mapdeuce程序将数据文件转换为LevelDB存储文件（SST文件）格式，再生成元数据current和manifest文件，并将SST文件移动到指定的路径下，从而实现了海量数据快速离线批量加载到LevelDB中。本发明专利技术将HBase Bulkload方法引入到LevelDB中，该方法在大量离线数据入库的情况下，比LevelDB原生的Put接口有着更高的入库性能。的入库性能。的入库性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LevelDB的海量数据离线批量加载方法

[0001]本专利技术涉及一种海量数据离线批量加载（BulkLoad）到数据库的方法，特别一种基于LevelDB的海量数据离线批量加载（BulkLoad）方法。

技术介绍

[0002]随着大数据时代的发展，数据的增长速度越来越快。大量的数据，对数据库的实时存储提出了更高的要求。很多场景下，不仅有当日的实时数据需要入库，还有大量的离线数据也需要快速入库。
[0003]LevelDB是Google设计开发的Key-Value存储引擎，它应用于海量数据快速写入并且写多读少的场景，其底层文件为SST文件，元数据文件有Current文件和manifest文件，底层存储使用了LSM tree的思想，在入库的同时进行LSM tree的compaction。Compaction的作用是对数据进行压缩和排序，保证数据按key的字典序排列，删除掉一些不再有效的数据，减少文件数量等，它是一个比较耗费系统资源的操作，同时也会带来LevelDB的写放大问题。如果使用LevelDB的原生接口同时入库大量的实时数据和离线数据，Compaction会给系统带来比较大的压力，最终迫使LevelDB减慢数据入库的速度，达不到业务应用快速入库的要求。

技术实现思路

[0004]本专利技术为了解决现有技术存在的问题，提出了一种基于LevelDB的海量数据离线批量加载（BulkLoad）方法。本方法借鉴了HBase的BulkLoad方法，使用Mapdeuce程序将数据文件转换为Leve...

【技术保护点】

【技术特征摘要】
1.一种基于LevelDB的海量数据离线批量加载（BulkLoad）方法，其步骤如下：步骤1. 使用Mapreduce将数据文件转换为SST文件步骤1.1. 实现SST文件的输出类SstOutputFormat,继承于基类FileOutputFormat；实现基类FileOutputFormat的抽象方法getRecordWriter，返回一个RecordWriter对象，用于SST格式文件的输出；返回该对象时，使用LevelDB的写数据至磁盘的LogWriter对象重写RecordWriter的write和close方法；步骤1.2. Map阶段：根据输入数据，调用LevelDB的K-V组织方式，封装K-V，并作为Map阶段的输出；步骤1.3. Reduce阶段：实现K-V比较器，对Map阶段传递过来的K-V进行排序，并将有序的K-V写到输出流；步骤1.4. 设置MapReduce JOB信息，根据输入数据的大小估算Reduce的个数，每个Reduce数据大小为SST文件的大小；步骤2：生成LevelDB的元数据文件步骤2.1. 生成CU...

【专利技术属性】
技术研发人员：冯凌峰，
申请(专利权)人：冯凌峰，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人