一种多控制器系统的故障监控系统技术方案

技术编号:15550605 阅读:121 留言:0更新日期:2017-06-07 15:46
本发明专利技术公开了一种多控制器系统的故障监控系统,在多控制器系统中的各控制器中设置故障监控装置,所述故障监控装置包括:策略设置模块,硬件监控模块,系统监控模块,存储功能监控模块,共享在线统计模块,监控系统状态交互模块,告警管理模块,故障迁移模块;能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。

Fault monitoring system of multi controller system

The invention discloses a fault monitoring system for a multi controller system, setting fault monitoring device of each controller in multi controller system, the fault monitoring device comprises a policy setting module, hardware monitoring module, system monitoring module, storage function module, sharing online monitoring system of state statistics module, interface module, alarm the fault management module, transfer module; efficient monitoring system, timely and accurate fault information, make the corresponding treatment, to ensure the multi controller storage business seamless switching and data security, improve the use rate of the system controller.

【技术实现步骤摘要】

本专利技术涉及服务器
,特别涉及一种多控制器系统的故障监控系统
技术介绍
随着存储技术的发展,存储的数据量不断增大,从TB到PB再到EB数量级;存储的性能也不断提高,从STAT到SAS再到PCIE连接的SSD存储介质。在多控系统中,对用户数据安全性的要求也日渐严格,7X24小时不间断工作,若实现多控制器存储业务的无缝切换,需要及时处理多控系统中存储空间不足和故障磁盘替换后通知用户及时添加空间和替换磁盘,以及其他存储软件定义的故障发生时的故障。因此,如何高效监控多控系统,及时发现这些故障信息,是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术的目的是提供一种多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。为解决上述技术问题,本专利技术提供一种多控制器系统的故障监控系统,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块,用于监控操作系统的状态和故障;存储功能监控模块,用于监控各存储功能模块的状态和故障;共享在线统计模块,用于监控共享业务的在线状态;监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;告警管理模块,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;故障迁移模块,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。可选的,所述硬件监控模块包括:温度监控单元,用于对控制器主板、cpu、背板进行温度监控;电气监控单元,用于对控制器主板的电压和电流进行监控,并对控制器的电源进行监控;扩展柜监控单元,用于对扩展柜进行监控,当监控到扩展柜离线或扩展柜发生错误时,向所述告警管理模块发送告警数据。可选的,所述系统监控模块包括:使用率监控单元,用于对cpu以及内存的使用率进行监控;异常程序监控单元,用于对系统panic程序和oops程序进行监控;分区状态监控单元,用于对各系统分区的使用率和系统分区文件系统错误进行监控。可选的,所述存储功能监控模块包括:存储功能监控单元,用于对磁盘添加、移除、故障状态进行监控,并监控RAID状态,在降级时进行热备替换并向所述告警管理模块发送告警数据,且在RAID状态离线时向所述告警管理模块发送告警数据;SAN模块监控单元,用于对LU设备错误、失败指令、reset信息进行监控;NAS模块监控单元,用于对文件系统出错状态,文件系统使用率,用户配额信息,NAS共享服务状态进行监控;存储池监控单元,用于对存储池的使用率进行监控。可选的,所述存储功能监控模块还包括:存储功能模块监控单元,用于对存储分级模块、加密模块、数据重删模块、自动精简模块、灾备模块进行监控。可选的,所述共享在线统计模块包括:NAS业务监控单元,用于对NAS业务的实时写入带宽、用户在线数量、客户端在线数量以及共享文件的属性进行监控;SAN业务监控单元,用于对SAN业务的实时写入带宽、客户端同时操作的lun数量、会话信息以及对scsi指令的统计信息进行监控。可选的,所述告警管理模块还包括:查询接口模块,用于接收用户输入的查询信息,反馈对应的当前系统状态。本专利技术所提供的一种多控制器系统的故障监控系统,在多控制器系统中的各控制器中设置故障监控装置,所述故障监控装置包括:策略设置模块,硬件监控模块,系统监控模块,存储功能监控模块,共享在线统计模块,监控系统状态交互模块,告警管理模块,故障迁移模块;提高上述各个模块能够全方位、高效地监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例所提供的多控制器系统的故障监控系统中各控制器内故障监控装置的结构框图。具体实施方式本专利技术的核心是提供一种多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术实施例所提供的多控制器系统的故障监控系统中各控制器内故障监控装置的结构框图;即在多控制器系统中的各控制器中均设置有故障监控装置,其中,所述故障监控装置可以包括:策略设置模块100,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;具体的,用户可以通过该模块设置需要进行监控的功能,例如监控cpu使用率,监控内存使用率等,以及对应的出现故障后的处理方式,例如当监控到cpu利用率过高时,可以将使用大的业务迁移到其他cpu使用率较低的控制器中,从而保证该多控制器系统能够高效安全的运行。因此,本实施例并不对具体的监控功能的内容以及各个监控功能对应的告警阈值及其对应的故障处理方式进行限定。且用户可以随时根据实际使用需求通过策略设置模块100对各个设置内容进行修改。且策略设置模块100在接收到用户设置的信息后解析用户设置的策略,根据策略启动相应的监控模块并将参数传递到该监控模块,使对应的监控模块能够根据其对应的策略实现监控过程。硬件监控模块200,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块300,用于监控操作系统的状态和故障;存储功能监控模块400,用于监控各存储功能模块的状态和故障;共享在线统计模块500,用于监控共享业务的在线状态;具体的,上述4个监控模块可以实现全方位,多角度的监控。涵盖了系统硬件和软件的各种状态和故障信息,例如系统状态告警、故障迁移、存储业务类型统计等功能通知用户并做必要故障处理。监控系统状态交互模块600,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;具体的,监控系统状态副本可以记录该控制器的监控数据,并可以通过管理链路获取其他监控器的监控数据,从而可以使多控制器系统中每个控制器都可以及时获取全部的监控数据,为后续故障的解决提供有力支持。例如当需要进行迁移时,可以根据监控系统状态副本文档来自技高网...
一种多控制器系统的故障监控系统

【技术保护点】
一种多控制器系统的故障监控系统,其特征在于,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块,用于监控操作系统的状态和故障;存储功能监控模块,用于监控各存储功能模块的状态和故障;共享在线统计模块,用于监控共享业务的在线状态;监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;告警管理模块,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;故障迁移模块,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。

【技术特征摘要】
1.一种多控制器系统的故障监控系统,其特征在于,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块,用于监控操作系统的状态和故障;存储功能监控模块,用于监控各存储功能模块的状态和故障;共享在线统计模块,用于监控共享业务的在线状态;监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;告警管理模块,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;故障迁移模块,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。2.根据权利要求1所述的多控制器系统的故障监控系统,其特征在于,所述硬件监控模块包括:温度监控单元,用于对控制器主板、cpu、背板进行温度监控;电气监控单元,用于对控制器主板的电压和电流进行监控,并对控制器的电源进行监控;扩展柜监控单元,用于对扩展柜进行监控,当监控到扩展柜离线或扩展柜发生错误时,向所述告警管理模块发送告警数据。3.根据权利要求2所述的多控制器系统的故障监控系统,其特征在于,所述系统监控模块包括:使用率监控单元,用于对cpu以及内存的使用率进...

【专利技术属性】
技术研发人员:苑忠科
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1