The invention discloses a fault monitoring system for a multi controller system, setting fault monitoring device of each controller in multi controller system, the fault monitoring device comprises a policy setting module, hardware monitoring module, system monitoring module, storage function module, sharing online monitoring system of state statistics module, interface module, alarm the fault management module, transfer module; efficient monitoring system, timely and accurate fault information, make the corresponding treatment, to ensure the multi controller storage business seamless switching and data security, improve the use rate of the system controller.
【技术实现步骤摘要】
本专利技术涉及服务器
,特别涉及一种多控制器系统的故障监控系统。
技术介绍
随着存储技术的发展,存储的数据量不断增大,从TB到PB再到EB数量级;存储的性能也不断提高,从STAT到SAS再到PCIE连接的SSD存储介质。在多控系统中,对用户数据安全性的要求也日渐严格,7X24小时不间断工作,若实现多控制器存储业务的无缝切换,需要及时处理多控系统中存储空间不足和故障磁盘替换后通知用户及时添加空间和替换磁盘,以及其他存储软件定义的故障发生时的故障。因此,如何高效监控多控系统,及时发现这些故障信息,是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术的目的是提供一种多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。为解决上述技术问题,本专利技术提供一种多控制器系统的故障监控系统,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块,用于监控操作系统的状态和故障;存储功能监控模块,用于监控各存储功能模块的状态和故障;共享在线统计模块,用于监控共享业务的在线状态;监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;告警管理模 ...
【技术保护点】
一种多控制器系统的故障监控系统,其特征在于,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块,用于监控操作系统的状态和故障;存储功能监控模块,用于监控各存储功能模块的状态和故障;共享在线统计模块,用于监控共享业务的在线状态;监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;告警管理模块,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;故障迁移模块,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。
【技术特征摘要】
1.一种多控制器系统的故障监控系统,其特征在于,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;系统监控模块,用于监控操作系统的状态和故障;存储功能监控模块,用于监控各存储功能模块的状态和故障;共享在线统计模块,用于监控共享业务的在线状态;监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;告警管理模块,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;故障迁移模块,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。2.根据权利要求1所述的多控制器系统的故障监控系统,其特征在于,所述硬件监控模块包括:温度监控单元,用于对控制器主板、cpu、背板进行温度监控;电气监控单元,用于对控制器主板的电压和电流进行监控,并对控制器的电源进行监控;扩展柜监控单元,用于对扩展柜进行监控,当监控到扩展柜离线或扩展柜发生错误时,向所述告警管理模块发送告警数据。3.根据权利要求2所述的多控制器系统的故障监控系统,其特征在于,所述系统监控模块包括:使用率监控单元,用于对cpu以及内存的使用率进...
【专利技术属性】
技术研发人员:苑忠科,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。