一种HADOOP计算慢节点的自动监控方法及系统技术方案

技术编号:38030134 阅读:11 留言:0更新日期:2023-06-30 10:56
本公开了一种HADOOP计算慢节点的自动监控方法及系统。自动监控方法通过HTTP方式获取映射操作输出的分布式文件,保存到分布式文件系统集群的NameNode中;将分布式文件通过信道写入到客户端,并将分布式文件传输时间和读写时间存储到分布式文件系统集群的NameNode中;基于HADOOP、分布式文件传输时间和读写时间计算分布式文件的慢结点,存储慢结点到所述分布式文件系统集群的NameNode的Datanode中;定期从分布式文件系统集群的NameNode的DataNode中获取每个慢结点的资源,同时获取资源管理器的整个集群队列资源和使用占比;根据每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,及预设资源阈值对慢结点进行规避。能够识别和监控慢结点,且在慢节点识别的基础上,有效的规避慢节点。有效的规避慢节点。有效的规避慢节点。

【技术实现步骤摘要】
一种HADOOP计算慢节点的自动监控方法及系统


[0001]本专利技术属于大数据集群离线
,特别涉及一种HADOOP计算慢节点的自动监控方法及系统。

技术介绍

[0002]HADOOP集群支持离线的存储和计算,每天可能都会大量的任务运行在YARN(Yet Another Resource Negotiator,另一种资源协调者)上,任务可能会被拆分为多个Map Task(映射操作)和Reduce Task(归约任务)并行运行,Task(任务)完成的时间取决于运行最久的Task(任务)。然而,数据从map task输出到reduce task输入的Shuffle过程往往是很耗时的过程,因为会涉及到网络数据传输,通常分配到Task的节点如果网络慢,磁盘读写慢都会很大程度影响Task运行时间,致使整个任务的运行时间增长。
[0003]随着HADOOP集群中机器使用时间变长,机器变得老旧,集群内部常常会出现“性能退化”的节点,节点的磁盘读写速度降低、网络传输速度变慢。HADOOP集群规模扩大到一定数量时,比如上千个节点时,慢节点发现成本大大增加,发现难度也不断提高。绝大多数时候,慢节点都藏匿于众多健康节点中,只有当用户Task(任务)存在较大时延,且排除Task自身原因,比如数据倾斜,队列拥堵之外,才发现可能是该节点网络,读写磁盘慢,导致Task运行较其他Task慢很多,致使整个任务链延时很多,最终可能导致很多SLA(Service

Level Agreement,服务等级协议)任务时间无法得到保障。
[0004]针对YARN中的这种计算慢节点,从提升运维自动化的角度出发,提炼出当前慢节点监控与处理存在的主要问题有:(1)慢节点监控中,考虑到HADOOP集群的节点数量众多,在不耗费过多系统资源的基础上,在大规模集群环境下及时准确识别并筛选出慢节点存在较大挑战。(2)Task运行慢的原因很多,就如何判断是因为节点慢造成,排除其他原因,比较复杂。(3)如何获取这种运行慢的节点的信息,如何让任务不再分配到这些慢的节点,又能保障集群的资源不被缩减太多,达到一种平衡是一种技术挑战。
[0005]随着HADOOP集群规模总是越来越大,人工运维成本不断上升,HADOOP集群的运行维护工作量也变得巨大,日常工作内容也变得繁冗复杂,为了保障SLA的任务,不让每天都有一些随机的任务“拖后腿”,亟需一种及时的发现计算慢的节点,有效排除任务运行到慢节点的方法。

技术实现思路

[0006]本专利技术克服了现有技术的不足之一,提供了一种HADOOP慢计算节点自动监控与处理,能够及时、准确识别慢节点,善慢节点自动化规避流程,使HADOOP任务在资源不吃紧的情况下避免分配到慢节点,降低人工干预风险,自动化根据策略排除慢节点,权衡资源与排除节点的平衡。
[0007]根据本公开的一方面,提出了一种HADOOP计算慢节点的自动监控方法,所述方法包括:
[0008]通过HTTP方式获取映射操作输出的分布式文件,保存所述分布式文件系统集群的NameNode中;
[0009]将分布式文件系统集群的NameNode中分布式文件通过信道写入到客户端,并将所述分布式文件传输时间和读写时间存储到所述分布式文件系统集群的NameNode中;
[0010]基于HADOOP、所述分布式文件传输时间和读写时间计算分布式文件的慢结点,存储所述分布式文件的慢结点到所述分布式文件系统集群的NameNode的Datanode中;
[0011]定期从所述分布式文件系统集群的NameNode的DataNode中获取每个慢结点的资源,同时获取资源管理器的整个集群队列资源和使用占比;
[0012]根据所述每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,以及预设资源阈值对所述慢结点进行规避。
[0013]在一种可能的实现方式中,所述通过HTTP方式获取映射操作的分布式文件,保存分布式文件系统集群的NameNode中,包括:
[0014]通过HTTP方式请求映射操作所在的分布式文件任务驱动器获取所述映射操作输出的分布式文件,保存分布式文件系统集群的NameNode中;其中,所述映射操作用于将输入的分布式文件的键值转换为键值对,输出基于键值对存储的分布式文件。
[0015]在一种可能的实现方式中,所述获取每个慢结点的资源之后,包括:根据所述慢结点的慢的时间程度进行排序。
[0016]在一种可能的实现方式中,所述根据所述每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,以及预设资源阈值对所述慢结点进行规避,包括:
[0017]当a%>=threadhold时,不对所述慢结点做任何处理;
[0018]当a%<threadhold,且c*(1

threadhold)>(d0c+d1c+...dxc)时,将所述慢结点从所述分布式文件中去除;
[0019]其中,a%为资源管理器的整个集群队列资源的使用占比,threadhold为预设资源阈值,c为资源管理器的整个集群队列资源,d0c、d1c、...、dxc为每个慢结点的资源。
[0020]在一种可能的实现方式中,所述慢结点包括网络慢结点和磁盘慢结点。
[0021]在一种可能的实现方式中,基于HADOOP、分布式文件传输时间和读写时间计算分布式文件的慢结点,包括:
[0022]HADOOP监控每一个映射操作是否成功完成,基于所述分布式文件传输时间和读写时间计算分布式文件的慢结点。
[0023]根据本公开的一方面,提出了一种HADOOP计算慢节点的自动监控系统,所述系统包括:
[0024]第一获取模块,用于通过HTTP方式获取映射操作的分布式文件,保存所述输出文件到分布式文件系统集群的NameNode中;
[0025]写入模块,用于将分布式文件系统集群的NameNode中分布式文件通过信道写入到客户端,并将所述分布式文件传输时间和读写时间存储到所述分布式文件系统集群的NameNode中;
[0026]计算模块,用于基于HADOOP、所述分布式文件传输时间和读写时间计算分布式文件的慢结点,存储所述分布式文件的慢结点到所述分布式文件系统集群的NameNode的Datanode中;
[0027]第二获取模块,用于定期从所述分布式文件系统集群的NameNode的DataNode中获取每个慢结点的资源,同时获取资源管理器的整个集群队列资源和使用占比;
[0028]规避模块,用于根据所述每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,以及预设资源阈值对所述慢结点进行规避。
[0029]根据本公开的一方面,提出了一种电子设备,所述设备包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
[0030]根据本公开的一方面,提出了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种HADOOP计算慢节点的自动监控方法,其特征在于,所述方法包括:通过HTTP方式获取映射操作输出的分布式文件,保存所述分布式文件到分布式文件系统集群的NameNode中;将分布式文件系统集群的NameNode中分布式文件通过信道写入到客户端,并将所述分布式文件传输时间和读写时间存储到所述分布式文件系统集群的NameNode中;基于HADOOP、所述分布式文件传输时间和读写时间计算分布式文件的慢结点,存储所述分布式文件的慢结点到所述分布式文件系统集群的NameNode的Datanode中;定期从所述分布式文件系统集群的NameNode的DataNode中获取每个慢结点的资源,同时获取资源管理器的整个集群队列资源和使用占比;根据所述每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,以及预设资源阈值对所述慢结点进行规避。2.根据权利要求1所述的自动监控方法,其特征在于,所述通过HTTP方式获取映射操作输出的分布式文件,保存所述分布式文件到分布式文件系统集群的NameNode中,包括:通过HTTP方式请求映射操作所在的分布式文件任务驱动器获取所述映射操作输出的分布式文件,保存到分布式文件系统集群的NameNode中;其中,所述映射操作用于将输入的分布式文件的键值转换为键值对,输出基于键值对存储的分布式文件。3.根据权利要求1所述的自动监控方法,其特征在于,所述获取每个慢结点的资源之后,包括:根据所述慢结点的慢的时间程度进行排序。4.根据权利要求1所述的自动监控方法,其特征在于,所述根据所述每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,以及预设资源阈值对所述慢结点进行规避,包括:当a%>=threadhold时,不对所述慢结点做任何处理;当a%<threadhold,且c*(1

threadhold)>(d0c+d1c+...dxc)时,将所述慢结点从所述...

【专利技术属性】
技术研发人员:王忠伟
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1