一种云平台故障处理方法及装置制造方法及图纸

技术编号:32784919 阅读:48 留言:0更新日期:2022-03-23 19:44
本申请公开一种云平台故障处理方法及装置,本申请通过获取宿主机发送的告警信息,根据预设规则确定告警信息的告警类型,告警类型包括容器故障类型和宿主机故障类型,当告警信息为容器故障类型时,则执行容器故障处理机制,当告警信息为宿主机故障类型时,则执行宿主机故障处理机制,将执行容器故障处理机制或执行宿主机故障处理机制的处理结果填入告警单。本申请方案通过确定宿主机发送的告警信息的故障类型,来确定对故障宿主机的处理机制,并将处理结果填入到告警单中,相比于现有技术需要人工处理不同的故障情况,本方案减少了处理故障的人力成本,减少了人员反应时间进一步减少了时间成本,提高了宿主机故障处理效率。提高了宿主机故障处理效率。提高了宿主机故障处理效率。

【技术实现步骤摘要】
一种云平台故障处理方法及装置


[0001]本申请涉及云平台领域,特别是一种云平台故障处理方法及装置。

技术介绍

[0002]随着互联网技术的发展,为了实现更多的数据处理能力,作为发展方向的云平台技术使得有限的资源能够实现更多的作用,一个云平台可以控制多台宿主机运行不同特性的在线业务,提高在线业务的处理能力。
[0003]然而现在市场上的云平台技术在出现宿主机故障时,可能是物理机的硬件故障或者是业务容器在运行时发生的故障,对于故障的处理则需要运维人员快速响应以减少故障的影响,不同的故障处理时间也不同,因此需要大量的人力和时间成本,以保证故障能得到及时的处理,如何提高故障处理效率是人们关注的问题。

技术实现思路

[0004]有鉴于此,本申请提供了一种云平台故障处理方法及装置,用于提高宿主机的故障处理效率。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种云平台故障处理方法,包括:
[0007]获取宿主机发送的告警信息;
[0008]根据预设规则确定所述告警信息的告警类型,所述告警类型包括容器故障类型和宿主机故障类型;
[0009]当所述告警信息为容器故障类型时,则执行容器故障处理机制;
[0010]当所述告警信息为宿主机故障类型时,则执行宿主机故障处理机制;
[0011]将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。
[0012]可选地,所述当所述告警信息为容器故障类型时,则执行容器故障处理机制,包括:
[0013]确定所述告警信息中包含的故障容器数量;
[0014]若所述故障容器数量为预设阈值内,则逐个对所述故障容器进行替换新容器的操作;
[0015]若所述故障容器数量超过预设阈值,则对所有容器进行滚动重启容器的操作。
[0016]可选地,所述逐个对所述故障容器进行替换新容器的操作,包括:
[0017]在所述故障容器对应的前置网关切断业务流量;
[0018]生成一个同业务的新容器并连接所述前置网关的业务流量。
[0019]可选地,所述逐个对所述故障容器进行替换新容器的操作,还包括:
[0020]获取所述故障容器的信息数据,所述信息数据包括进程堆栈、内存使用、日志、指标信息。
[0021]可选地,所述对所有容器进行滚动重启容器的操作,包括:
[0022]根据需求将总的容器按数量分成若干容器组;
[0023]当一容器组重启完毕再开始下一容器组重启操作,依次不重复重启容器组直至所有容器组重启完毕。
[0024]可选地,所述执行宿主机故障处理机制,包括:
[0025]调用所述告警信息对应的故障宿主机下线接口,将所述故障宿主机标记为下线状态;
[0026]关闭所述故障宿主机中处于运行状态的容器,并在所述处于运行状态的容器对应的前置网关切断业务流量;
[0027]利用后台任务关闭所述故障宿主机。
[0028]可选地,在利用后台任务关闭所述故障宿主机之前,还包括:
[0029]若所述故障宿主机中的容器无法在设定时间段内关闭,则利用后台任务强制删除所述故障宿主机中的容器,同时回收对应容器的ip及清理对应前置网关中的容器ip记录。
[0030]一种云平台故障处理装置,包括:
[0031]信息获取单元,获取宿主机发送的告警信息;
[0032]类型确定单元,用于根据预设规则确定所述告警信息的告警类型,所述告警类型包括容器故障类型和宿主机故障类型;
[0033]容器故障单元,用于当所述告警信息为容器故障类型时,则执行容器故障处理机制;
[0034]宿主机故障单元,用于当所述告警信息为宿主机故障类型时,则执行宿主机故障处理机制;
[0035]告警单填入单元,用于将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。
[0036]可选地,所述容器故障单元,包括:
[0037]数量确定单元,用于确定所述告警信息中包含的故障容器数量;
[0038]容器替换单元,用于当所述故障容器数量为预设阈值内时,则逐个对所述故障容器进行替换新容器的操作;
[0039]滚动重启单元,用于当所述故障容器数量超过预设阈值时,则对所有容器进行滚动重启容器的操作。
[0040]可选地,所述容器替换单元,包括:
[0041]流量切断单元,用于在所述故障容器对应的前置网关切断业务流量;
[0042]新容器生成单元,用于生成一个同业务的新容器并连接所述前置网关的业务流量。
[0043]从上述的技术方案可以看出,本申请实施例提供的一种云平台故障处理方案,通过获取宿主机发送的告警信息,根据预设规则确定告警信息的告警类型,告警类型包括容器故障类型和宿主机故障类型,当告警信息为容器故障类型时,则执行容器故障处理机制,当告警信息为宿主机故障类型时,则执行宿主机故障处理机制,将执行容器故障处理机制或执行宿主机故障处理机制的处理结果填入告警单。本申请方案通过确定宿主机发送的告警信息的故障类型,来确定对故障宿主机的处理机制,并将处理结果填入到告警单中,相比
于现有技术需要人工处理不同的故障情况,本方案减少了处理故障的人力成本,减少了人员反应时间进一步减少了时间成本,提高了宿主机故障处理效率。
附图说明
[0044]图1为本申请实施例提供的一种云平台故障处理系统架构图;
[0045]图2为本申请实施例提供的一种云平台故障处理方法流程图;
[0046]图3为本申请实施例提供的另一种云平台故障处理方法流程图;
[0047]图4为本申请实施例提供的又一种云平台故障处理方法流程图;
[0048]图5为本申请实施例提供的一种云平台故障处理装置的结构示意图;
[0049]图6为本申请实施例提供的一种云平台故障处理设备的硬件结构框图。
具体实施方式
[0050]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0051]为了使本申请的技术方案更加清楚明白,图1示出了本申请实施例提供的实现云平台故障处理的一种系统架构图,如图1所示该系统架构可以包括服务端10、宿主机20。其中,服务端10可以是设置于网络侧的服务设备,服务端20与宿主机20通过网络进行数据交互,服务端10可以是单台服务器实现,也可以是多台服务器组成的服务器集群实现。在本申请实施例中,服务端10能够获取宿主机20发送的告警信息,并基于该告警信息执行合适的故障处理机制,处理宿主机20的故障问题。
[0052]宿主机20可以是具有数据处理功能的服务器或终端,能够支持故障处理机制的操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云平台故障处理方法,其特征在于,包括:获取宿主机发送的告警信息;根据预设规则确定所述告警信息的告警类型,所述告警类型包括容器故障类型和宿主机故障类型;当所述告警信息为容器故障类型时,则执行容器故障处理机制;当所述告警信息为宿主机故障类型时,则执行宿主机故障处理机制;将所述执行容器故障处理机制或所述执行宿主机故障处理机制的处理结果填入告警单。2.根据权利要求1所述的方法,其特征在于,所述当所述告警信息为容器故障类型时,则执行容器故障处理机制,包括:确定所述告警信息中包含的故障容器数量;若所述故障容器数量为预设阈值内,则逐个对所述故障容器进行替换新容器的操作;若所述故障容器数量超过预设阈值,则对所有容器进行滚动重启容器的操作。3.根据权利要求2所述的方法,其特征在于,所述逐个对所述故障容器进行替换新容器的操作,包括:在所述故障容器对应的前置网关切断业务流量;生成一个同业务的新容器并连接所述前置网关的业务流量。4.根据权利要求3所述的方法,其特征在于,还包括:获取所述故障容器的信息数据,所述信息数据包括进程堆栈、内存使用、日志、指标信息。5.根据权利要求2所述的方法,其特征在于,所述对对所有容器进行滚动重启容器的操作,包括:根据需求将总的容器按数量分成若干容器组;当一容器组重启完毕再开始下一容器组重启操作,依次不重复重启容器组直至所有容器组重启完毕。6.根据权利要求1所述的方法,其特征在于,所述执行宿主机故障处理机制,包括:调用所述告警信息对应的故障宿主机下线接口,将所述故障宿主机标记为下线状态;关闭所述...

【专利技术属性】
技术研发人员:何颖鹏
申请(专利权)人:唯品会广州软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1