一种实现lustre元数据服务器冗余的方法技术

技术编号:8685717 阅读:238 留言:0更新日期:2013-05-09 05:16
本发明专利技术提供一种实现lustre元数据服务器冗余的方法,通过在2台单独的服务器上部署mds元数据服务器和mdt元数据存储,使用drbd实现mdt的数据实时同步,使用heartbeat实现mdt的故障切换,实现lustre文件系统元数据服务器mds和元数据存储mdt的故障切换和冗余功能。通过lustre元数据服务器的冗余功能,能够满足当一个元数据主服务器宕掉后,元数据从服务器主动接替元数据服务器的工作,并能够保证元数据存储数据的一致性,使计算作业能够继续计算。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体地说是。
技术介绍
在hpc高性能计算环境中,数据量的飞速增长和计算作业对I/O带宽的要求日益增加,NFS文件系统已经不能满足网络文件系统的需求,lustre作为一款开源的并行文件系统,其强大的扩展性能已经广泛应用于高性能计算集群环境中。但随着lustre对容量和带宽能够满足计算I/O带宽需求的同时,lustre服务器的压力也逐渐增大,元数据服务器作为存储lustre元数据的设备,压力越大,故障率也越来越高。为了避免单点元数据服务器岩机带来整个lustre文件系统的岩机,使用heartbeat和drbd软件来实现lustre元数据服务器mds和元数据存储mdt的冗余功能。
技术实现思路
本专利技术的技术任务是解决现有技术的不足,提供实现lustre元数据服务器冗余的方法。本专利技术的技术方案是按以下方式实现的,系统物理环境软硬件架构包括: 2台元数据服务器mds,分别使用自身磁盘做mdt, 2台mdt之间使用drbd通过以太网做数据同步; 2台以上存储服务器oss,采用自身磁盘或挂载存储做ost ; 2台以上lustre客户端服务器,客户端通过以太网或infiniband网络挂载lustre文件系统; 操作系统:Redhat Iinux 并行文件系统:lustre并行文件系统; MDT同步工具:开源软件drbd,通过以太网实现mdt的数据实时同步; MDS自动切换工具:开源软件heartbeat,通过心跳线监测对方mds的健康状况; 元数据服务器切换确认:当主服务器宕掉后,heartbeat探测到对方设备异常,自动启用元数据从服务器,待切换完成后,在lustre客户端服务器上,使用Ifs df命令确认文件系统依旧正常,lustre文件系统依旧正常读写,且保持数据完整性和数据一致性; 具体步骤如下: 第一步:打破原有架构,部署2台单独的mds服务器,同时搭配7台oss服务器; 第二步:lustre客户端采用冗余挂载方式同时挂载2台mds服务器: mount -t lustre mdslitcpO:mds2itcp0:/lustre /lustre/ 第三步:2台mds服务器之间采用以太网进行互联,采用drbd软件,实现2台mds服务器的sdb数据同步;第四步:2台mds服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的drbd资源是否正常; 第五步:当主服务器出现宕机后,从服务器检测到对方的drbd资源异常,自动接管drbd资源; 第五步=Iustre客户端发现连接不到主mds服务器后,自动寻找从mds服务器;第六步:lustre客户端挂载正常,可以使用Ifs df命令确认lustre文件系统正常,作业不受影响。经过以上调整后,lustre稳定运行,当需要针对mds服务器进行维护的时候,mds服务器自动切换,保证了 lustre并行文系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。 本专利技术具有以下突出的有益效果:本方法适用于HPC集群环境中lustre并行文件系统元数据服务器mds和元数据存储mdt的双机冗余功能。附图说明 图1是系统硬件结构不意 图2是Lustre元数据服务器故障切换示意 图3是Lustre元数据服务器故障切换流程图。具体实施例方式下面结合附图对本专利技术的方法作进一步详细说明。故障描述: 国内某重点大学的高性能计算集群,主要应用于海洋环境类科研项目计算。计算作业多采用耦合模式,每天作业产生的计算数据大约2TB左右,I/O带宽要求大约2GB/S。前期该集群采用了某厂商定制的lustre文件系统,采用单点mds服务器(同时做oss服务器),另外搭配7台oss服务器。由于mds节点I/O压力较大,多次出现mds岩机现象。由于mds宕机导致正在运算的作业停掉,很多作业已经运算了几个月,所有的功劳功亏一篑。处理过程如下:为了定位故障原因,解决客户问题。采用系统监控工具对服务器的压力进行了测试分析,最后定位是由于mds服务器压力过大导致的mds宕机。于是针对现有集群进行重新的调整; 第一步:打破原有架构,部署2台单独的mds服务器,同时搭配7台oss服务器; 第二步:lustre客户端采用冗余挂载方式同时挂载2台mds服务器: mount -t lustre mdslitcpO:mds2itcp0:/lustre /lustre/ 第三步:2台mds服务器之间采用以太网进行互联,采用drbd软件,实现2台mds服务器的sdb数据同步; 第四步:2台mds服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的drbd资源是否正常; 第五步:当主服务器出现宕机后,从服务器检测到对方的drbd资源异常,自动接管drbd资源; 第五步=Iustre客户端发现连接不到主mds服务器后,自动寻找从mds服务器;第六步:lustre客户端挂载正常,可以使用Ifs df命令确认lustre文件系统正常,作业不受影响。经过以上调整后,lustre稳定运行,当需要针对mds服务器进行维护的时候,mds服务器自动切换,保证了 lustre并行文系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。除本专利技术的说明书公开的技术特征外均为本专业技术人员的公职技术。本文档来自技高网...

【技术保护点】
一种实现lustre元数据服务器冗余的方法,其特征在于,系统物理环境软硬件架构包括:2台元数据服务器mds,分别使用自身磁盘做mdt,2台mdt之间使用drbd通过以太网做数据同步;2台以上存储服务器oss,采用自身磁盘或挂载存储做ost;2台以上lustre客户端服务器,客户端通过以太网或infiniband网络挂载lustre文件系统;操作系统:Redhat?linux并行文件系统:lustre并行文件系统;MDT同步工具:开源软件?drbd,通过以太网实现mdt的数据实时同步;MDS自动切换工具:开源软件heartbeat,通过心跳线监测对方mds的健康状况;元数据服务器切换确认:当主服务器宕掉后,heartbeat探测到对方设备异常,自动启用元数据从服务器,待切换完成后,在lustre客户端服务器上,使用lfs?df?命令确认文件系统依旧正常,lustre文件系统依旧正常读写,且保持数据完整性和数据一致性;具体步骤如下:第一步:打破原有架构,部署2台单独的mds服务器,同时搭配7台oss服务器;第二步:lustre客户端采用冗余挂载方式同时挂载2台mds服务器:mount??t?lustre?mds1@tcp0:mds2@tcp0:/lustre?/lustre/第三步:2台mds服务器之间采用以太网进行互联,采用?drbd软件,实现2台mds服务器的sdb数据同步;第四步:2台mds服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的drbd资源是否正常;第五步:当主服务器出现宕机后,从服务器检测到对方的drbd资源异常,自动接管drbd资源;第五步:lustre客户端发现连接不到主mds服务器后,自动寻找从mds服务器;第六步:lustre客户端挂载正常,可以使用lfs?df命令确认lustre文件系统正常,作业不受影响;经过以上调整后,lustre稳定运行,当需要针对mds服务器进行维护的时候,mds服务器自动切换,保证了lustre并行文系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。...

【技术特征摘要】
1.一种实现lustre元数据服务器冗余的方法,其特征在于,系统物理环境软硬件架构包括: 2台元数据服务器mds,分别使用自身磁盘做mdt, 2台mdt之间使用drbd通过以太网做数据同步; 2台以上存储服务器oss,采用自身磁盘或挂载存储做ost ; 2台以上lustre客户端服务器,客户端通过以太网或infiniband网络挂载lustre文件系统; 操作系统:Redhat Iinux 并行文件系统:lustre并行文件系统; MDT同步工具:开源软件drbd,通过以太网实现mdt的数据实时同步; MDS自动切换工具:开源软件heartbeat,通过心跳线监测对方mds的健康状况; 元数据服务器切换确认:当主服务器宕掉后,heartbeat探测到对方设备异常,自动启用元数据从服务器,待切换完成后,在lustre客户端服务器上,使用Ifs df命令确认文件系统依旧正常,lustre文件系统依旧正常读写,且保持数据完整性和数据一致性; 具体步骤如下: 第一步:打破原有架构,部署2...

【专利技术属性】
技术研发人员:陈良华陈哲
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1