一种处理用户空间文件系统故障的方法和装置制造方法及图纸

技术编号:32902540 阅读:11 留言:0更新日期:2022-04-07 11:52
本发明专利技术提供一种处理用户空间文件系统故障的方法、系统、设备和存储介质,方法包括:动态获取集群中所有计算节点的列表,并根据列表向所有计算节点分发守护程序;通过守护程序检测计算节点的管理进程状况是否正常,响应于计算节点的管理进程状况正常,通过守护程序检测计算节点的用户空间文件系统挂载点是否失效;响应于计算节点的用户空间文件系统挂载点正常,通过守护程序检测能否通过用户空间文件系统挂载点访问分布式文件系统文件;以及响应于不能通过用户空间文件系统挂载点访问分布式文件系统文件,取消用户空间文件系统挂载点并重新挂载。本发明专利技术能够极大的提升Hadoop集群运维效率,减少计算资源浪费,提升用户对Hadoop集群的满意度。集群的满意度。集群的满意度。

【技术实现步骤摘要】
一种处理用户空间文件系统故障的方法和装置


[0001]本专利技术涉及大数据领域,更具体地,特别是指一种处理用户空间文件系统故障的方法、系统、设备和存储介质。

技术介绍

[0002]面对海量非结构化数据处理任务,单机算力难以应对,如采用多机并行运算,则需应用厂商自行开发分布式文件系统和调度框架,这样做一方面难度比较大,会耗费大量人力物力,另一方面会使应用厂商无法专注于数据处理算法开发,所以面对这种场景,大部分应用厂家会选择基于开源架构的Hadoop来作为底层的平台,应用程序基于Hadoop的分布式文件系统(Hdfs)和分布式调度框架(Yarn)来处理海量非结构化数据。
[0003]Hadoop主推的开发语言是Java,但是传统的非结构化数据处理算法为了追求极致的性能多是采用C语言来进行开发,Hdfs对C语言的支持非常有限,所以会采用Fuse(Filesystem in Userspace,用户空间文件系统)挂载Hdfs至Hadoop计算节点,通过Fuse实现像操作本地文件系统一样操作分布式文件系统。
[0004]在此类使用场景中,Yarn负责所有Hadoop计算节点的计算资源(CPU、内存)管理,但是Yarn无法管理Fuse占用的计算资源,导致数据处理子任务与Fuse经常出现资源争抢的情况,导致Fuse假死或者挂载点失效,最终导致分配到该节点的所有计算任务均失败。
[0005]因Yarn自身调度算法问题,无法预知出现资源争抢的节点,通常情况下,只能在大批量计算任务失败后,手动处理Fuse挂载点异常,重新提交数据处理任务,导致Hadoop平台维护任务繁重,也导致Hadoop集群的计算资源严重浪费。

技术实现思路

[0006]有鉴于此,本专利技术实施例的目的在于提出一种处理用户空间文件系统故障的方法、系统、计算机设备及计算机可读存储介质,本专利技术通过在Hadoop集群的所有计算节点中部署用户空间文件系统守护程序,能够识别用户空间文件系统挂载点失效或者卡死的异常场景,并自动修复用户空间文件系统挂载点,极大的提升Hadoop集群运维效率,减少计算资源浪费,提升用户对Hadoop集群的满意度。
[0007]基于上述目的,本专利技术实施例的一方面提供了一种处理用户空间文件系统故障的方法,包括如下步骤:动态获取集群中所有计算节点的列表,并根据所述列表向所有计算节点分发守护程序;通过所述守护程序检测所述计算节点的管理进程状况是否正常,响应于所述计算节点的管理进程状况正常,通过所述守护程序检测所述计算节点的用户空间文件系统挂载点是否失效;响应于所述计算节点的用户空间文件系统挂载点正常,通过所述守护程序检测能否通过所述用户空间文件系统挂载点访问分布式文件系统文件;以及响应于不能通过所述用户空间文件系统挂载点访问分布式文件系统文件,取消所述用户空间文件系统挂载点并重新挂载。
[0008]在一些实施方式中,方法还包括:监控所有计算节点的守护程序运行状态,并响应
于有守护程序运行异常对所述守护程序进行重启;以及响应于所述守护程序运行异常且重启次数达到阈值,使用新的守护程序替换所述守护程序。
[0009]在一些实施方式中,方法还包括:动态获取分布式文件系统的健康状况,并响应于所述分布式文件系统出现异常,终止所有计算节点的守护程序并取消所有计算节点的用户空间文件系统挂载。
[0010]在一些实施方式中,方法还包括:响应于所述计算节点的用户空间文件系统挂载点失效,将所述用户空间文件系统进行重新挂载。
[0011]本专利技术实施例的另一方面,提供了一种处理用户空间文件系统故障的系统,包括:分发模块,配置用于动态获取集群中所有计算节点的列表,并根据所述列表向所有计算节点分发守护程序;第一检测模块,配置用于通过所述守护程序检测所述计算节点的管理进程状况是否正常,响应于所述计算节点的管理进程状况正常,通过所述守护程序检测所述计算节点的用户空间文件系统挂载点是否失效;第二检测模块,配置用于响应于所述计算节点的用户空间文件系统挂载点正常,通过所述守护程序检测能否通过所述用户空间文件系统挂载点访问分布式文件系统文件;以及执行模块,配置用于响应于不能通过所述用户空间文件系统挂载点访问分布式文件系统文件,取消所述用户空间文件系统挂载点并重新挂载。
[0012]在一些实施方式中,系统还包括监控模块,配置用于:监控所有计算节点的守护程序运行状态,并响应于有守护程序运行异常对所述守护程序进行重启;以及响应于所述守护程序运行异常且重启次数达到阈值,使用新的守护程序替换所述守护程序。
[0013]在一些实施方式中,系统还包括第二监控模块,配置用于:动态获取分布式文件系统的健康状况,并响应于所述分布式文件系统出现异常,终止所有计算节点的守护程序并取消所有计算节点的用户空间文件系统挂载。
[0014]在一些实施方式中,系统还包括第二执行模块,配置用于:响应于所述计算节点的用户空间文件系统挂载点失效,将所述用户空间文件系统进行重新挂载。
[0015]本专利技术实施例的又一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。
[0016]本专利技术实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
[0017]本专利技术具有以下有益技术效果:通过在Hadoop集群的所有计算节点中部署用户空间文件系统守护程序,能够识别用户空间文件系统挂载点失效或者卡死的异常场景,并自动修复用户空间文件系统挂载点,极大的提升Hadoop集群运维效率,减少计算资源浪费,提升用户对Hadoop集群的满意度。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0019]图1为本专利技术提供的处理用户空间文件系统故障的方法的实施例的示意图;
[0020]图2为本专利技术提供的处理用户空间文件系统故障的系统的实施例的示意图;
[0021]图3为本专利技术提供的处理用户空间文件系统故障的计算机设备的实施例的硬件结构示意图;
[0022]图4为本专利技术提供的处理用户空间文件系统故障的计算机存储介质的实施例的示意图。
具体实施方式
[0023]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。
[0024]需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理用户空间文件系统故障的方法,其特征在于,包括如下步骤:动态获取集群中所有计算节点的列表,并根据所述列表向所有计算节点分发守护程序;通过所述守护程序检测所述计算节点的管理进程状况是否正常,响应于所述计算节点的管理进程状况正常,通过所述守护程序检测所述计算节点的用户空间文件系统挂载点是否失效;响应于所述计算节点的用户空间文件系统挂载点正常,通过所述守护程序检测能否通过所述用户空间文件系统挂载点访问分布式文件系统文件;以及响应于不能通过所述用户空间文件系统挂载点访问分布式文件系统文件,取消所述用户空间文件系统挂载点并重新挂载。2.根据权利要求1所述的方法,其特征在于,方法还包括:监控所有计算节点的守护程序运行状态,并响应于有守护程序运行异常对所述守护程序进行重启;以及响应于所述守护程序运行异常且重启次数达到阈值,使用新的守护程序替换所述守护程序。3.根据权利要求1所述的方法,其特征在于,方法还包括:动态获取分布式文件系统的健康状况,并响应于所述分布式文件系统出现异常,终止所有计算节点的守护程序并取消所有计算节点的用户空间文件系统挂载。4.根据权利要求1所述的方法,其特征在于,方法还包括:响应于所述计算节点的用户空间文件系统挂载点失效,将所述用户空间文件系统进行重新挂载。5.一种处理用户空间文件系统故障的系统,其特征在于,包括:分发模块,配置用于动态获取集群中所有计算节点的列表,并根据所述列表向所有计算节点分发守护程序;第一检测模块,配置用于通过所述守护程序检测所述计算节点的管理进程状况是否正常,响应于所述计算节点的管理进程状况正常,通过所述...

【专利技术属性】
技术研发人员:吴广远
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1