基于Hadoop的电信业务小文件存储系统及方法技术方案

技术编号：11740273 阅读：136 留言：0更新日期：2015-07-16 00:10

本发明专利技术公开一种基于Hadoop的电信业务小文件存储系统及方法，包括数据采集单元、数据传输单元和HDFS，数据传输单元和HDFS之间设有文件预处理单元，包括主服务器和分布式并行小文件处理服务器，分布式并行小文件处理服务器根据文件类型的不同存储相应的小文件。当用户文件通过数据传输单元上传至文件预处理单元时，主服务器判断该文件的大小，将小文件存至分布式并行小文件处理服务器，利用SequenceFile 容器对小文件进行合并和建立索引。本发明专利技术算法简单，存储和读取文件方便快捷，速度快，效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电信大数据存储领域，具体是。
技术介绍
随着通信技术的不断发展，电信业务所产生的数据量在以爆炸性的速度持续增长。以中国移动为例，2014年其日均产生1TB的话单数据量、100TB的信令数据量，而且随着4G的大规模建设，未来的电信业务数据量增长将更加迅猛。此外，随着电信行业业务的多元化，数据种类也越来越丰富，各种业务每天都会产生大量的结构化数据(上网记录、话单、系统日志)、半结构化数据(HTML文件、XML文件)、非结构化数据(图片、音频、视频)，这些海量异构数据对于存储系统的兼容性、容量及性能均提出了极高的要求，传统的1E架构(由IBM的小型机、Oracle的数据库、EMC的存储设备组成)已难以满足。Hadoop是一个由Apache基金会所开发的分布式系统基础架构，用户可利用Hadoop集群的优势开发分布式程序来进行高速运算和存储。HDFS为海量数据提供了访问和存储方法，Hadoop的出现很好的解决了大数据的存储问题。目前，中国移动、中国电信、中国联通均相继部署了基于Hadoop的分布式数据处理系统。然而通过实际应用我们发现，电信业务所产生的上网记录、图片等文件大小仅为几十到上百字节，海量小文件(文件尺寸小于HDFS规定的块大小)对于Hadoop的性能带来严重影响。具体来讲，HDFS将每个文件、块(block)或目录的元数据信息均以对象的形式存储在NameNode的内存中，每个元数据对象约占150个字节的内存空间，如果存储一亿个小文件，则NameNode大约需要14GB的内存空间，这些海量的元数据信息将会对NameNode的内存空间...

【技术保护点】
基于Hadoop的电信业务小文件存储系统，包括依次相连的数据采集单元、数据传输单元和HDFS，其特征在于，所述数据传输单元和HDFS之间还设有文件预处理单元，包括主服务器和分布式并行小文件处理服务器，分布式并行小文件处理服务器根据处理文件的类型分为非结构化小文件处理服务器、半结构化小文件处理服务器和结构化小文件处理服务器；所述主服务器用来判断要存储的文件的大小，分布式并行小文件处理服务器用于对小文件进行存储和合并。

【技术特征摘要】

【专利技术属性】
技术研发人员：孟庆民，闫怀礼，朱卫平，曾桂根，吴晓富，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人