本发明专利技术公开了一种集群节点的侦测与管理系统,包括:连接于计算节点的刀箱管理模块、连接于刀箱管理模块的刀箱交换模块、连接于刀箱交换模块的刀箱交换机、连接于刀箱交换机和公网的交换机、以及通过交换机连接至公网的节点管理控制器,其中,计算节点、刀箱管理模块、刀箱交换模块和刀箱交换机都位于刀箱内部;其中,计算节点的状态信息依次经由刀箱管理模块、刀箱交换模块、刀箱交换机和交换机传输至公网,节点管理控制器通过公网获取和控制状态信息。通过上述技术方案,能够快速寻找问题所在节点位置,并侦测和管理整个集群所有节点的运行状态。
【技术实现步骤摘要】
集群节点的侦测与管理系统
本专利技术涉及服务器
,具体来说,涉及一种集群节点的侦测与管理系统。
技术介绍
随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等领域需求高性能计算机,而且金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长,这导致超算中心集群规模也越来越庞大,进而节点数量也在成倍的增加,这不仅给研发和调试人员对节点的状态监控与管理带来了巨大的困扰,也给后续运维人员带了更大的挑战。目前的现有技术只能小规模、或者只能对刀箱内部节点做管控,无法进行大规模节点的统一管理。由于目前的超算中心只能对刀箱内部节点进行管控,无法进行大规模节点的统一管理,并且随着集群规模越来越庞大,进而节点数量也在成倍的增加,这不仅给研发和调试人员对节点的状态监控与管理带来了巨大的困扰,也给后续运维人员带了更大的挑战。因此,亟需一种对整个超算中心的所有节点进行统一管理的方法。
技术实现思路
针对相关技术中的上述问题,本专利技术提出一种集群节点的侦测与管理系统,能够快速寻找问题所在节点位置,并侦测和管理整个集群所有节点的运行状态。本专利技术的技术方案是这样实现的:根据本专利技术的一个方面,提供了一种集群节点的侦测与管理系统,包括:连接于计算节点的刀箱管理模块、连接于刀箱管理模块的刀箱交换模块、连接于刀箱交换模块的刀箱交换机、连接于刀箱交换机和公网的交换机、以及通过交换机连接至公网的节点管理控制器,其中,计算节点、刀箱管理模块、刀箱交换模块和刀箱交换机都位于刀箱内部;其中,计算节点的状态信息依次经由刀箱管理模块、刀箱交换模块、刀箱交换机和交换机传输至公网,节点管理控制器通过公网获取和控制状态信息。根据本专利技术的实施例,计算节点还连接于刀箱交换模块;其中,计算节点的第一状态下的状态信息依次经由刀箱交换模块、刀箱交换机和交换机传输至公网,节点管理控制器通过公网获取和控制第一状态下的状态信息。根据本专利技术的实施例,计算节点与刀箱管理模块通过智能平台管理接口连接。根据本专利技术的实施例,节点管理控制器采用主备冗余设计。根据本专利技术的实施例,集群节点的侦测与管理系统还包括:用户端,用于通过公网访问节点管理控制器,以侦测集群的状态和管理集群。根据本专利技术的实施例,状态信息包括:刀片节点的开关机状态、开关机控制信息、FRU信息、节点功耗、节点健康状态、日志信息和传感器信息之中的任意一种或多种。本专利技术通过上述技术方案,为开发提供了有力的侦测控制手段,可以实时发现问题并快速定位问题节点,提高了开发效率;为部署与运维提供了极大帮助,可以快速寻找问题所在的节点位置,可以侦测整个集群的运行状态;减少了大量的人力物力成本,在大规模集群环境下提高了产品的可靠性以及可维护性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的集群节点的侦测与管理系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术实施例的集群节点的侦测与管理系统包括:连接于计算节点12的刀箱管理模块14、连接于刀箱管理模块14的刀箱交换模块16、连接于刀箱交换模块16的刀箱交换机18、连接于刀箱交换机18和公网40的交换机20、以及通过交换机20连接至公网40的节点管理控制器30,其中,计算节点12、刀箱管理模块14、刀箱交换模块16和刀箱交换机18都位于刀箱内部。其中,计算节点12的状态信息依次经由刀箱管理模块14、刀箱交换模块16、刀箱交换机18和交换机20传输至公网40,节点管理控制器30通过公网40获取和控制状态信息。上述技术方案,为开发提供了有力的侦测控制手段,可以实时发现问题并快速定位问题节点,提高了开发效率;为部署与运维提供了极大帮助,可以快速寻找问题所在的节点位置,可以侦测整个集群的运行状态;减少了大量的人力物力成本,在大规模集群环境下提高了产品的可靠性以及可维护性。优选的,计算节点12与刀箱管理模块14通过IPMB(IntelligentPlatformManagementInterface,智能平台管理接口)连接。继续参见图1所示,每个刀箱10包含10个计算刀片,每个计算刀片包含2个计算节点12,但本专利技术并不限于此。每个计算节点12通过IPMB和刀箱管理模块14连接,每个计算节点12和刀箱管理模块14通过千兆网络与刀箱交换模块16互连,最终刀箱交换模块16连接到刀箱交换机18,节点管理控制器30可通过10G网络连接到交换机20,该交换机20连接到公网40。首先每个计算节点12通过IPMB把每个计算节点12的状态信息传送给刀箱管理模块14,刀箱管理模块14也可以控制每个计算节点12相应的状态。其中,计算节点12的状态信息可以包括:刀片节点开关机状态、开关机控制信息、FRU信息、节点功耗、节点健康状态、log日志信息、传感器信息之中的任意一种或任意多种。这些状态信息又通过千兆网络传送给刀箱交换模块16,刀箱交换模块16通过交换机20连接到数据中心的公网40,同时节点管理控制器30也通过交换机20连接到数据中心的公网40,进而超算节点管理控制器30可以通过公网40的网络获取并控制每个计算节点12的状态信息。在一些实施例中,这些状态信息在S0状态和S5状态下都可以被监控。但有些状态信息在S5状态下无法获取,需要在S0状态下才能读取,比如DCU(DEEPCOMPUTINGUNIT)的内核温度、IB(InfiniBand)芯片的内核温度。由于DCU功耗相当大,单个芯片的功耗最大可达到450W左右,因此这对于散热是一个极大的挑战,所以在开发阶段以及后续调试运维阶段,侦测DCU的温度是至关重要的。在图1所示的实施例中,计算节点12还连接于刀箱交换模块16;其中,计算节点12的第一状态下(S0)的状态信息依次经由刀箱交换模块16、刀箱交换机18和交换机20传输至公网40,节点管理控制器30通过公网40获取和控制第一状态下的状态信息。首先每个计算节点12通过千兆网络连接到刀箱交换模块16,刀箱交换模块16通过交换机20连接到数据中心内部公网40的网络,节点管理控制器30也通过网络连接到数据中心公网40的网络,这样节点管理控制器30就可以通过网络读取到每个计算节点12在S0状态下的状态信息,从而实时监控每个计算节点12的状态。另外,本专利技术的集群节点的侦测与管理系统还包括:用户端50,用于通过公网40访问节点管理控制器30,以侦测集群的状态和管理集群。这样,用户可以通过公网40访问节点管理控制器30,侦测到整个集群的状态以及管理整个集群,可以通过公网40直接访问节点管理控制器30直接读取和控制每个计算节点12的状态。因此,节点管理控制器30可进一步通过上层应用图形界面,实时监控每本文档来自技高网...
【技术保护点】
1.一种集群节点的侦测与管理系统,其特征在于,包括:连接于计算节点的刀箱管理模块、连接于所述刀箱管理模块的刀箱交换模块、连接于所述刀箱交换模块的刀箱交换机、连接于所述刀箱交换机和公网的交换机、以及通过所述交换机连接至所述公网的节点管理控制器,其中,所述计算节点、所述刀箱管理模块、所述刀箱交换模块和所述刀箱交换机都位于刀箱内部;其中,所述计算节点的状态信息依次经由所述刀箱管理模块、所述刀箱交换模块、所述刀箱交换机和所述交换机传输至所述公网,所述节点管理控制器通过所述公网获取和控制所述状态信息。
【技术特征摘要】
1.一种集群节点的侦测与管理系统,其特征在于,包括:连接于计算节点的刀箱管理模块、连接于所述刀箱管理模块的刀箱交换模块、连接于所述刀箱交换模块的刀箱交换机、连接于所述刀箱交换机和公网的交换机、以及通过所述交换机连接至所述公网的节点管理控制器,其中,所述计算节点、所述刀箱管理模块、所述刀箱交换模块和所述刀箱交换机都位于刀箱内部;其中,所述计算节点的状态信息依次经由所述刀箱管理模块、所述刀箱交换模块、所述刀箱交换机和所述交换机传输至所述公网,所述节点管理控制器通过所述公网获取和控制所述状态信息。2.根据权利要求1所述的集群节点的侦测与管理系统,其特征在于,所述计算节点还连接于所述刀箱交换模块;其中,所述计算节点的第一状态下的状态信息依次经由所述刀箱交换模块、所述刀...
【专利技术属性】
技术研发人员:马金山,
申请(专利权)人:曙光信息产业北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。