一种服务器集群故障的监测系统、方法、装置及介质制造方法及图纸

技术编号:32662815 阅读:13 留言:0更新日期:2022-03-17 11:13
本申请公开了一种服务器集群故障的监测系统、方法、装置及介质,监测系统包括活动服务器和备用服务器;活动服务器BMC芯片与备用服务器BMC芯片通信连接;活动服务器BMC芯片包括第一私有内存,备用服务器BMC芯片包括第一共享内存;活动服务器BMC芯片用于将活动服务器的数据信息写入第一私有内存,同时将数据信息发送至备用服务器BMC芯片;备用服务器BMC芯片用于将数据信息写入第一共享内存,以根据数据信息判断活动服务器是否发生故障。通过活动服务器BMC芯片和备用服务器BMC芯片间的互连,实现备用服务器对活动服务器的实时故障监测,降低故障转移时间,增强服务器集群的容错能力,减小由活动服务器故障引起的损失。减小由活动服务器故障引起的损失。减小由活动服务器故障引起的损失。

【技术实现步骤摘要】
一种服务器集群故障的监测系统、方法、装置及介质


[0001]本申请涉及大数据处理
,特别是涉及一种服务器集群故障的监测方法、系统、装置及介质。

技术介绍

[0002]随着业务发展和数据的不断积累,高性能的单台服务器无法处理大量的数据和高并发用户的集中访问。并且单台服务器的容错能力十分有限,当服务器发生故障时,会发生业务被迫中断及数据丢失等损失。为提升服务器整体计算能力和容错能力,服务器集群应运而生。服务器集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个服务器发生故障整个系统仍可正常运行。目前,故障转移群集是针对具有长期运行的内存状态或具有大型的、频繁更新的数据状态的应用程序而设计,其典型的应用范围包括文件服务器,打印服务器,数据库服务器。主要是用于搭建高可用性架构。多台群集服务器(称为节点)之间由物理电缆和软件连接,如果其中一个节点出现故障,另外一个节点就会通过故障转移进程替代开始提供服务。
[0003]故障转移进程的首要步骤是确定活动服务器不再正常工作。通常,系统使用心跳机制来做到这一点,即通过活动服务器以定义好的时间间隔将指定信号发送到备用服务器或备用服务器向活动服务器发送请求并等待活动服务器返回响应。以心跳机制确定活动服务器故障需要一定的时间间隔,并且为了确定活动服务器确实发生故障,备用服务器可能需要设置更长的时间间隔来等待活动服务器的发送信号或响应。再者,当活动服务器的某些硬件参数(如风扇转速、机箱温度等)超过阈值时,系统仍可以正常运行一段时间,CPU不能在第一时间掌握这些故障信息,这时备用服务器仍然接收到活动服务器一切正常的信号,并不能及时地准确地掌握活动服务器的运行情况。
[0004]因此,如何提高服务器集群故障监测的及时性以有效降低活动服务器故障而带来的损失是本领域技术人员亟需要解决的问题。

技术实现思路

[0005]本申请的目的是提供一种服务器集群故障的监测系统、方法、装置及介质,用于提高服务器集群故障监测的及时性以有效降低活动服务器故障而带来的损失。
[0006]为解决上述技术问题,本申请提供一种服务器集群故障的监测系统,包括活动服务器和备用服务器;
[0007]活动服务器BMC芯片与备用服务器BMC芯片通信连接;
[0008]所述活动服务器BMC芯片包括第一私有内存,所述备用服务器BMC芯片包括第一共享内存;
[0009]所述活动服务器BMC芯片用于将所述活动服务器的数据信息写入所述第一私有内存,并同时将所述数据信息发送至所述备用服务器BMC芯片;
[0010]所述备用服务器BMC芯片用于将所述数据信息写入所述第一共享内存,以便实时
读取所述第一共享内存中的所述数据信息,并根据所述数据信息判断所述活动服务器是否发生故障。
[0011]优选地,所述活动服务器BMC芯片还包括第二共享内存,所述备用服务器BMC芯片还包括第二私有内存。
[0012]本申请还提供一种服务器集群故障的监测方法,应用于所述的活动服务器BMC芯片,包括:
[0013]获取活动服务器的数据信息;
[0014]将所述数据信息写入第一私有内存,同时将所述数据信息发送至备用服务器BMC芯片,以便所述备用服务器BMC芯片将所述数据信息写入第一共享内存,并实时读取所述第一共享内存中的所述数据信息,以根据所述数据信息判断所述活动服务器是否发生故障。
[0015]本申请还提供一种服务器集群故障的监测方法,应用于所述的备用服务器BMC芯片,包括:
[0016]在活动服务器BMC芯片获取到活动服务器的数据信息,将所述数据信息写入到第一私有内存时,接收所述活动服务器BMC芯片发送的所述数据信息;
[0017]将所述数据信息写入第一共享内存;
[0018]实时读取所述第一共享内存中的所述数据信息,以根据所述数据信息判断所述活动服务器是否发生故障。
[0019]优选地,所述根据所述数据信息判断所述活动服务器是否发生故障,包括:
[0020]判断所述数据信息是否满足预设要求;
[0021]若否,确定所述活动服务器发生故障。
[0022]优选地,在确定所述活动服务器发生故障之后,还包括:
[0023]向备用服务器的CPU发送告警提示,以便所述CPU启动状态同步机制以接管所述活动服务器所执行的任务。
[0024]本申请还提供一种服务器集群故障的监测装置,包括:
[0025]接收模块,用于在活动服务器BMC芯片获取到活动服务器的数据信息,将所述数据信息写入到第一私有内存时,接收所述活动服务器BMC芯片发送的所述数据信息;
[0026]写入模块,用于将所述数据信息写入第一共享内存;
[0027]判断模块,用于实时读取所述第一共享内存中的所述数据信息,以根据所述数据信息判断所述活动服务器是否发生故障。
[0028]优选地,还包括:
[0029]告警模块,用于向备用服务器的CPU发送告警提示,以便所述CPU启动状态同步机制以接管所述活动服务器所执行的任务。
[0030]本申请还提供一种服务器集群故障的监测装置,包括存储器,用于存储计算机程序;
[0031]处理器,用于执行所述计算机程序时实现所述的服务器集群故障的监测方法的步骤。
[0032]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的服务器集群故障的监测方法的步骤。
[0033]本申请所提供的一种服务器集群故障的监测系统,包括活动服务器和备用服务
器;活动服务器BMC芯片与备用服务器BMC芯片通信连接;活动服务器BMC芯片包括第一私有内存,备用服务器BMC芯片包括第一共享内存;活动服务器BMC芯片用于将活动服务器的数据信息写入第一私有内存,并同时将数据信息发送至备用服务器BMC芯片;备用服务器BMC芯片用于将数据信息写入第一共享内存,以便实时读取第一共享内存中的数据信息,并根据数据信息判断活动服务器是否发生故障。本申请通过活动服务器BMC芯片和备用服务器BMC芯片间的互连,实现备用服务器对活动服务器的实时故障监测,从而降低故障转移时间,有效增强服务器集群的容错能力,减小由活动服务器故障引起的损失。
[0034]本申请所提供的一种服务器集群故障的监测方法、装置及介质与系统对应,效果如上。
附图说明
[0035]为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本申请实施例提供的一种服务器集群故障的监测系统的结构图;
[0037]图2为本申请实施例提供的一种服务器集群故障的监测方法的流程图;
[0038]图3为本申请实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务器集群故障的监测系统,其特征在于,包括活动服务器和备用服务器;活动服务器BMC芯片与备用服务器BMC芯片通信连接;所述活动服务器BMC芯片包括第一私有内存,所述备用服务器BMC芯片包括第一共享内存;所述活动服务器BMC芯片用于将所述活动服务器的数据信息写入所述第一私有内存,并同时将所述数据信息发送至所述备用服务器BMC芯片;所述备用服务器BMC芯片用于将所述数据信息写入所述第一共享内存,以便实时读取所述第一共享内存中的所述数据信息,并根据所述数据信息判断所述活动服务器是否发生故障。2.根据权利要求1所述的服务器集群故障的监测系统,其特征在于,所述活动服务器BMC芯片还包括第二共享内存,所述备用服务器BMC芯片还包括第二私有内存。3.一种服务器集群故障的监测方法,其特征在于,应用于权利要求1或2所述的活动服务器BMC芯片,包括:获取活动服务器的数据信息;将所述数据信息写入第一私有内存,同时将所述数据信息发送至备用服务器BMC芯片,以便所述备用服务器BMC芯片将所述数据信息写入第一共享内存,并实时读取所述第一共享内存中的所述数据信息,以根据所述数据信息判断所述活动服务器是否发生故障。4.一种服务器集群故障的监测方法,其特征在于,应用于权利要求1或2所述的备用服务器BMC芯片,包括:在活动服务器BMC芯片获取到活动服务器的数据信息,将所述数据信息写入到第一私有内存时,接收所述活动服务器BMC芯片发送的所述数据信息;将所述数据信息写入第一共享内存;实时读取所述第一共享内存中的所述数据信息,以根据所述数据信息...

【专利技术属性】
技术研发人员:苏康郭芬满宏涛李拓
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1