具备多异构节点的智能服务器系统技术方案

技术编号:35912545 阅读:62 留言:0更新日期:2022-12-10 10:53
本申请涉及一种具备多异构节点的智能服务器系统。所述方法包括:第一预设数量的GPUBOX服务器,用于输出第一状态信息;第一预设数量的通用服务器,通信连接对应的GPUBOX服务器,用于接收对应的GPUBOX服务器输出的第一状态信息,并输出对应的第一状态信息和第二状态信息;节点管理器,通信连接各通用服务器,用于通信连接机柜式管理服务器的管理节点;节点管理器还用于接收各通用服务器输出的对应的第一状态信息和第二状态信息,并将各第一状态信息和第二状态信息输出至管理节点,以使机柜式管理服务器记录各第一状态信息和第二状态信息。采用本系统能够降低智能服务器系统的通信线缆的物料成本。信线缆的物料成本。信线缆的物料成本。

【技术实现步骤摘要】
具备多异构节点的智能服务器系统


[0001]本申请涉及服务器设计
,特别是涉及一种具备多异构节点的智能服务器系统。

技术介绍

[0002]伴随着云计算技术以及相关衍生技术与产品的不断兴起和发展,互联网行业的业务量逐渐呈现一种爆发式的增长,从而促进了智能服务器系统的发展。
[0003]智能服务器系统摒弃了传统服务器以采用CPU架构的通用服务器为算力核心的方案,而是包括采用CPU架构的GPU BOX服务器和采用CPU架构的通用服务器的异构服务器系统,使用支持并行计算的GPU Module来为系统提供充足的算力。然而,传统技术中的智能服务器系统存在通信线缆的物料成本较高。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够降低智能服务器系统的通信线缆的物料成本的具备多异构节点的智能服务器系统。
[0005]在一个实施例中,提供了一种多异构节点的机柜服务器系统,上述只能服务器系统包括:
[0006]第一预设数量的GPU BOX服务器,用于输出第一状态信息;第一状态信息用于表征GPU BOX服务器的工作状态;GPU BOX服务器采用GPU架构;
[0007]第一预设数量的通用服务器,通信连接对应的GPU BOX服务器,用于接收对应的GPU BOX服务器输出的第一状态信息,并输出对应的第一状态信息和第二状态信息;第二状态信息用于表征通用服务器的工作状态;通用服务器采用CPU架构;
[0008]节点管理器,通信连接各通用服务器,用于通信连接机柜式管理服务器的管理节点;节点管理器还用于接收各通用服务器输出的对应的第一状态信息和第二状态信息,并将各第一状态信息和第二状态信息输出至管理节点,以使机柜式管理服务器记录各第一状态信息和第二状态信息。
[0009]在其中一个实施例中,节点管理器包括:网络切换模块,网络切换模块包括第二预设数量的网络接口;网络切换模块通过各网络接口通信连接对应的通用服务器;网络切换模块用于接收各通用服务器输出的对应的第一状态信息和第二状态信息,并输出各第一状态信息和第二状态信息;
[0010]第二预设数量大于第一预设数量;网络接口控制模块,通信连接网络切换模块,用于通信连接机柜式管理服务器的管理节点,还用于接收网络切换模块输出各第一状态信息和第二状态信息,并将各第一状态信息和第二状态信息输出至管理节点,以使机柜式管理服务器记录各第一状态信息和第二状态信息。
[0011]在其中一个实施例中,节点管理器还包括:基板管理控制模块,通信连接网络切换模块,用于接收网络切换模块输出各第一状态信息和第二状态信息;基板管理控制模块还
用于根据各第一状态信息和第二状态信息进行故障分析,输出第一目标指令;第一目标指令用于指示对应的GPU BOX服务器或通用服务器规避第一优先级故障;其中,第一优先级故障包括异常掉电故障和漏液故障。
[0012]在其中一个实施例中,节点管理器还包括现场可编程逻辑门阵列模块;现场可编程逻辑门阵列模块通信连接基板管理控制模块;基板管理控制模块还用于将各第一状态信息和第二状态信息输出至现场可编程逻辑门阵列模块;现场可编程逻辑门阵列模块用于根据各第一状态信息和第二状态信息进行故障分析,输出第二目标指令;第二目标指令用于指示对应的GPU BOX服务器或通用服务器规避第二优先级故障;其中,第二优先级故障包括降频工作故障和超频工作故障;第二优先级故障的优先级低于第一优先级故障的优先级。
[0013]在其中一个实施例中,现场可编程逻辑门阵列模块通信连接网络接口控制模块;现场可编程逻辑门阵列模块还用于根据各第一状态信息和第二状态信息进行流量控制分析,输出第三目标指令;其中,第三目标指令用于指示网络接口控制模块向网络切换模块输出第四目标指令;第四目标指令用于指示网络切换模块控制各通用服务器的带宽。
[0014]在其中一个实施例中,GPU BOX服务器包括第一复杂可编程逻辑模块;通用服务器包括第二复杂可编程逻辑模块;其中,第二复杂可编程逻辑模块通信连接对应的第一复杂可编程逻辑模块;网络切换模块通信连接第二复杂可编程逻辑模块;第一复杂可编程逻辑模块用于在对应的GPU BOX服务器处于待机模式时,向对应的第二复杂可编程逻辑模块输出第一状态子信息;其中,第一状态信息包括第一状态子信息;第一状态子信息用于表征GPU BOX服务器处于待机模式;第二复杂可编程逻辑模块用于接收第一状态子信息,还用于在对应的通用服务器处于待机模式时,向网络切换模块输出第一状态子信息和第二状态子信息;其中,第二状态信息包括第二状态子信息;第二状态子信息用于表征对应的通用服务器处于待机模式;网络切换模块还用于接收第一状态子信息和第二状态子信息,并向基板管理控制模块输出第一状态子信息和第二状态子信息;基板管理控制模块还用于接收第一状态子信息和第二状态子信息;基板管理控制模块还用于在接收到第一状态子信息和第二状态子信息时,输出第五目标指令;其中,第五目标指令用于指示对应的第二复杂可编程逻辑模块开机,且在对应的第二复杂可编程逻辑模块完成开机时向对应的第一复杂可编程逻辑模块输出第六目标指令;第六目标指令用于指示对应的第一复杂可编程逻辑模块开机。
[0015]在其中一个实施例中,第一复杂可编程逻辑模块还用于在完成开机时,向对应的第二复杂可编程逻辑模块输出目标回传指令;第二复杂可编程逻辑模块还用于接收目标回传指令;第二复杂可编程逻辑模块还用于在接收到目标回传指令时,输出全局复位指令;其中,全局复位指令用于指示对应的GPU BOX服务器和通用服务器进行全局复位。
[0016]在其中一个实施例中,智能服务器系统还包括:机柜式管理服务器,机柜式管理服务器包括管理节点,管理节点通信连接节点管理器;机柜式管理服务器用于接收并记录各第一状态信息和第二状态信息。
[0017]在其中一个实施例中,智能服务器系统还包括交换机;其中,管理节点通过交换机通信连接节点管理器。
[0018]在其中一个实施例中,节点管理器为智能网卡。
[0019]基于此,上述智能管理服务器系统通过第一预设数量的GPU BOX服务器输出用于表征GPU BOX服务器的工作状态即第一状态信息;其中,GPU BOX服务器采用GPU架构;而后,
通过第一预设数量的通用服务器接收对应的GPU BOX服务器输出的第一状态信息,并输出对应的第一状态信息和用于表征通用服务器的工作状态即第二状态信息;其中,通用服务器采用CPU架构;接着,节点管理器用于通信连接机柜式管理服务器的管理节点,接收各通用服务器输出的对应的第一状态信息和第二状态信息,并将各第一状态信息和第二状态信息输出至机柜式管理服务器的管理节点,以使机柜式管理服务器记录各第一状态信息和第二状态信息,从而实现了机柜式管理服务器、节点管理器、对应的通用服务器和对应的GPU BOX服务器级联,减少了通信连接所需使用的通信线缆,也就降低智能服务器系统的通信线缆的物料成本,提高了智能服务器系统的整体连接可靠性,降低了智能服务器系统的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具备多异构节点的,所述智能服务器系统包括:第一预设数量的GPU BOX服务器,用于输出第一状态信息;所述第一状态信息用于表征所述GPU BOX服务器的工作状态;所述GPU BOX服务器采用GPU架构;所述第一预设数量的通用服务器,通信连接对应的所述GPU BOX服务器,用于接收对应的所述GPU BOX服务器输出的所述第一状态信息,并输出对应的所述第一状态信息和所述第二状态信息;所述第二状态信息用于表征所述通用服务器的工作状态;所述通用服务器采用CPU架构;节点管理器,通信连接各所述通用服务器,用于通信连接机柜式管理服务器的管理节点;所述节点管理器还用于接收各所述通用服务器输出的对应的所述第一状态信息和所述第二状态信息,并将各所述第一状态信息和所述第二状态信息输出至所述管理节点,以使所述机柜式管理服务器记录各所述第一状态信息和所述第二状态信息。2.根据权利要求1所述的智能服务器系统,其特征在于,所述节点管理器包括:网络切换模块,所述网络切换模块包括第二预设数量的网络接口;所述网络切换模块通过各所述网络接口通信连接对应的所述通用服务器;所述网络切换模块用于接收各所述通用服务器输出的对应的所述第一状态信息和所述第二状态信息,并输出各所述第一状态信息和所述第二状态信息;所述第二预设数量大于所述第一预设数量;网络接口控制模块,通信连接所述网络切换模块,用于通信连接机柜式管理服务器的管理节点,还用于接收所述网络切换模块输出各所述第一状态信息和所述第二状态信息,并将各所述第一状态信息和所述第二状态信息输出至所述管理节点,以使所述机柜式管理服务器记录各所述第一状态信息和所述第二状态信息。3.根据权利要求2所述的智能服务器系统,其特征在于,所述节点管理器还包括:基板管理控制模块,通信连接所述网络切换模块,用于接收所述网络切换模块输出的各所述第一状态信息和所述第二状态信息;所述基板管理控制模块还用于根据各所述第一状态信息和所述第二状态信息进行故障分析,输出第一目标指令;所述第一目标指令用于指示对应的所述GPU BOX服务器或所述通用服务器规避第一优先级故障;其中,所述第一优先级故障包括异常掉电故障和漏液故障。4.根据权利要求3所述的智能服务器系统,其特征在于,所述节点管理器还包括现场可编程逻辑门阵列模块;所述现场可编程逻辑门阵列模块通信连接所述基板管理控制模块;所述基板管理控制模块还用于将各所述第一状态信息和所述第二状态信息输出至所述现场可编程逻辑门阵列模块;所述现场可编程逻辑门阵列模块用于根据各所述第一状态信息和所述第二状态信息进行故障分析,输出第二目标指令;所述第二目标指令用于指示对应的所述GPU BOX服务器或所述通用服务器规避第二优先级故障;其中,所述第二优先级故障包括降频工作故障和超频工作故障;所述第二优先级故障的优先级低于所述第一优先级故障的优先级。5.根据权利要求4所述的智能服务器系统,其特征在于,所述现场可编程逻辑门阵列...

【专利技术属性】
技术研发人员:杨昊
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1