本发明专利技术公开了一种高性能计算集群系统故障预测方法和装置。故障预测方法包括:获取集群系统中各服务节点的芯片工况和电源输出功率,根据所述芯片工况和电源输出功率分析各服务节点的工作状态,在服务节点的工作状态为非正常时,执行预先设定的维护策略。本发明专利技术通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地提高了集群系统的整体利用率。
【技术实现步骤摘要】
本专利技术涉及计算机
,特别涉及一种高性能计算集群系统故障预测方法和 目.0
技术介绍
当前,随着计算机技术的发展和越来越广泛的应用,越来越多的依赖于计算机技术的应用系统走进了我们的工作和生活。尽管单台计算机的性能和可靠性越来越好,但还是有很多现实的要求是单台计算机难以达到的,需要高性能计算集群系统作为后台支撑。高性能计算集群系统作为一个整体系统,不仅对运算速率有较高的要求,而且对系统稳定性的要求更加严格。一个高性能计算任务,往往要耗费数小时、数天甚至数月才能完成。如此巨大的计算任务,如果计算过程中设备出现故障,就可能面临重算的窘境,造成时间、经费的浪费。因此,如何有效降低高性能计算集群系统的故障率,是高性能计算集群系统迫切需要解决的比较重要的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供一种高性能计算集群系统故障预测方法和装置,以有效降低高性能计算集群系统的故障率。为了达到本专利技术目的,本专利技术提供了一种高性能计算集群系统故障预测方法,包括:获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;根据所述芯片工况和电源输出功率分析各服务节点的工作状态;在服务节点的工作状态为非正常时,执行预先设定的维护策略。进一步地,所述根据所述芯片工况和电源输出功率分析各服务节点的工作状态具体为:预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状??τ O进一步地,所述在服务节点的工作状态为非正常时执行预先设定的维护策略具体为:在服务节点的工作状态为亚健康状态时,执行任务调度;在服务节点的工作状态为异常状态时,执行维护处理。进一步地,所述执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务;所述执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则执行维护处理;所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。为了达到本专利技术目的,本专利技术还提供了一种高性能计算集群系统故障预测装置,包括:获取参数模块,用于获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;分析状态模块,用于根据所述芯片工况和电源输出功率分析各服务节点的工作状态;执行策略模块,用于在服务节点的工作状态为非正常时,执行预先设定的维护策略。进一步地,所述分析状态模块具体用于,预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。进一步地,所述执行策略模块包括任务调度单元和维护处理单元,其中,任务调度单元,用于在服务节点的工作状态为亚健康状态时,对所述服务节点执行任务调度;维护处理单元,用于在服务节点的工作状态为异常状态时,对所述服务节点执行维护处理。进一步地,所述对所述服务节点执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务;所述对所述服务节点执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则对所述服务节点执行维护处理;所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。本专利技术提供了一种高性能计算集群系统故障预测方法和装置,通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地提高了集群系统的整体利用率。本专利技术故障预测方法具有简单、有效、易于实施、适用性广等特点。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。【附图说明】附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术高性能计算集群系统故障预测方法的处理流程图;图2为本专利技术高性能计算集群系统故障预测装置的结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本专利技术高性能计算集群系统故障预本文档来自技高网...
【技术保护点】
一种高性能计算集群系统故障预测方法,其特征在于,包括:获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;根据所述芯片工况和电源输出功率分析各服务节点的工作状态;在服务节点的工作状态为非正常时,执行预先设定的维护策略。
【技术特征摘要】
【专利技术属性】
技术研发人员:马四腾,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。