一种Hadoop在线扩容的方法技术

技术编号:13243631 阅读:43 留言:0更新日期:2016-05-15 04:16
本发明专利技术公开了一种Hadoop在线扩容的方法,所述方法具体技术方案包括:1)Hadoop集群的搭建和维护;2)Ceph集群的搭建和维护;3)Hadoop集群与Ceph集群的融合;4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:a.格式化待扩展节点的硬盘;b.对待扩展节点的硬盘进行分区;c.激活该节点;d.将该系统中节点信息通知各个节点。本发明专利技术方法能够在不影响Hadoop集群当前的运行状态下,而实现存储空间的扩展。

【技术实现步骤摘要】

本专利技术涉及分布式文件系统
,具体涉及。
技术介绍
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。因此存储时Hadoop集群的一个重要功能,而在实际生产中,经常遇到Hadoop容量报警,而当前业务无法暂停的情况。
技术实现思路
本专利技术要解决的技术问题是:本专利技术提供,能够实现Hadoop的在线扩容,极大的解决了上述问题。本专利技术所采用的技术方案为: ,所述方法具体技术方案包括: DHadoop集群的搭建和维护; 2)Ceph集群的搭建和维护; 3)Hadoop集群与Ceph集群的融合; 4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容: a.格式化待扩展节点的硬盘; b.对待扩展节点的硬盘进行分区; c.激活该节点; d.将该系统中节点信息通知各个节点。所述Hadoop集群与Ceph集群的融合过程如下: 1)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下; 2)将该文件夹配置到该节点的数据目录下; 3)重启HDFS。将ceph挂载到Hadoop节点时,需要Hadoop集群重启,以后进行扩容不需要重启。HDFS, Hadoop Distributed File System, Hadoop分布式文件系统。所述方法具体实现步骤如下: 1)准备千兆交换机一台,4台服务器构成1+3的Hadoop集群,其中一台Namenode,3台Datanode,Hadoop集群搭建完毕,运行正常,在Namenode节点,执行命令:hadoop fs -df -h,记录系统容量值; 2)准备4台服务器,搭建Ceph集群,Ceph集群搭建完毕,运行正常; 3)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下; 4)将该文件夹配置到该节点的数据目录下;5)重启HDFS; 6)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容: a.格式化待扩展节点的硬盘; b.对待扩展节点的硬盘进行分区; c.激活该节点; d.将该系统中节点信息通知各个节点。进入Namenode节点,执行命令:hadoop fs -df _h,记录系统此时容量,对比步骤I)中的值,能够得出Hadoop的总容量增加了该节点的容量。本专利技术的有益效果为: 本专利技术方法能够在不影响Hadoop集群当前的运行状态下,实现存储空间的扩展。【附图说明】图1为Hadoop集群架构示意图; 图2为ceph集群架构示意图。【具体实施方式】下面通过说明书附图,结合【具体实施方式】对本专利技术进一步说明: 实施例1: ,其特征在于,所述方法具体技术方案包括: I )Hadoop集群的搭建和维护,如图1所示; 2)Ceph集群的搭建和维护,如图2所示; 3)Hadoop集群与Ceph集群的融合; 4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容: a.1cfs-deploy disk zap Serverl:/dev/sdb (ServerI 即需要扩容的节点名称)格式化待扩展节点的硬盘;b.1cfs-deploy —overwrite-conf osd prepare Serverl: /dev/sdb 对待扩展节点的硬盘进行分区;c.1cfs-deploy osd activate Serverl: / dev/sdb I 激活该节点; d.1cfs-deploy admin Serverl Server2 Server3 Server4 将该系统中节点信息通知各个节点。此时,Hadoop节点的总容量增加了该节点的容量,从而不影响Hadoop集群当前的运行状态,而实现存储空间的扩展。实施例2: 在实施例1的基础上,本实施例所述Hadoop集群与Ceph集群的融合过程如下: 1)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下; 2)将该文件夹配置到该节点的数据目录下,即将/mnt/ceph添加到udf s.datanode.data.dir'中; 3)重启HDFS。将ceph挂载到Hadoop节点时,需要Hadoop集群重启,以后进行扩容不需要重启。Hadoop分布式文件系统(HDFS) Hadoop Distributed File System。实施例3: 在实施例1或2的基础上,本实施例所述方法具体实现步骤如下: 1)准备千兆交换机一台,4台服务器构成1+3的Hadoop集群,其中一台Namenode,3台Datanode,Hadoop集群搭建完毕,运行正常,在Namenode节点,执行命令:hadoop fs -df -h,记录系统容量值; 2)准备4台服务器,搭建Ceph集群,Ceph集群搭建完毕,运行正常; 3)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下; 4)将该文件夹配置到该节点的数据目录下,即将/mnt/ceph添加到udf s.datanode.data.dir'中;5)重启HDFS; 6)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容: a.1cfs-deploy disk zap Serverl:/dev/sdb (ServerI 即需要扩容的节点名称)格式化待扩展节点的硬盘;b.1cfs-deploy —overwrite-conf osd prepare Serverl: /dev/sdb 对待扩展节点的硬盘进行分区;c.1cfs-deploy osd activate Serverl: / dev/sdb I 激活该节点; d.1cfs-deploy admin Serverl Server2 Server3 Server4 将该系统中节点信息通知各个节点。实施例4: 在实施例3的基础上,本实施例中,进入Namenode节点,执行命令:hadoop fs -df -h,记录系统此时容量,对比步骤I)中的值,能够得出Hadoop的总容量增加了该节点的容量。以上实施方式仅用于说明本专利技术,而并非对本专利技术的限本文档来自技高网...

【技术保护点】
一种Hadoop在线扩容的方法,其特征在于,所述方法具体技术方案包括:1)Hadoop集群的搭建和维护;2)Ceph集群的搭建和维护;3)Hadoop集群与Ceph集群的融合;4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:a.格式化待扩展节点的硬盘;b.对待扩展节点的硬盘进行分区;c.激活该节点;d.将该系统中节点信息通知各个节点。

【技术特征摘要】

【专利技术属性】
技术研发人员:范荣盛
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1