System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 液冷机房系统技术方案_技高网

液冷机房系统技术方案

技术编号:42395761 阅读:6 留言:0更新日期:2024-08-16 16:19
本发明专利技术提出了一种液冷机房系统,涉及液冷机房技术领域,该液冷机房系统包括:训练集群、一般推理集群及可扩展推理集群;可扩展推理集群与训练集群部署在同一栋机房楼的同一层;一般推理集群与可扩展推理集群、训练集群部署在不同机房楼中;训练集群、可扩展推理集群均包括第一数量的液冷机柜及第二数量的风冷机柜;一般推理集群包括第三数量的液冷机柜及第四数量的风冷机柜;液冷机柜包括多个GPU服务器;风冷机柜包括单台网络交换机,能够实现液冷机房系统的高可用及灵活部署设计,提升机房及机柜空间和能源利用率,实现更低PUE值。

【技术实现步骤摘要】

本专利技术涉及液冷机房,尤指一种液冷机房系统


技术介绍

1、本部分旨在为本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、chatgpt(chat generative pre-trained transformer,聊天生成式预训练转换器)已成为备受瞩目的技术创新,标志着人工智能领域的重要突破,人工智能大模型集群的构建也开始如火如荼地进行。将人工智能做好,需要强大的算力支持,除服务器外,数据中心基础设施(风火水电)也起着重要作用。

3、传统服务器的功耗大约是150-300w,gpu(graphics processing unit,图形处理器)服务器单机功耗大约9-10kw,冷板式液冷gpu服务器单机功耗大约8-9kw。可以看到,用于人工智能的服务器功耗对比传统服务器功耗大幅增加。

4、针对人工智能gpu服务器在数据中心机房如何部署的课题,目前常用的解决方案是在传统风冷机房,高性能gpu服务器多数采用一柜部署一台的模式,单柜满载功率10kw;少数采用一柜部署2-3台模式,单柜满载功率20-25kw,代价是需要大量部署列间空调,降低服务器机柜出柜率;或者是在通用的液冷机房(单机柜功耗20kw及以下),单机柜部署两台gpu服务器,目前单机柜功耗40kw以上的投入使用的高性能计算液冷机房很少。

5、现有方案中,存在部署高功率gpu服务器时存在的机房和机柜空间利用率低、单机房模块服务器部署数量少、pue(power usage effectiveness,电源使用效率)值偏高等问题,以上问题限制了人工智能大模型集群的普及使用。


技术实现思路

1、为解决现有技术存在的问题,本专利技术提出了一种液冷机房系统。本专利技术可以实现液冷机房系统的高可用及灵活部署设计,提升机房及机柜空间和能源利用率,实现更低pue值。

2、本专利技术实施例提供一种液冷机房系统,包括:训练集群、一般推理集群及可扩展推理集群;所述训练集群为实现人工智能训练过程的高性能计算系统;所述一般推理集群为实现人工智能推理过程的高性能计算系统;所述可扩展推理集群为满足一般推理集群要求且具备改造为训练集群的条件的高性能计算系统;

3、所述可扩展推理集群与训练集群部署在同一栋机房楼的同一层;所述一般推理集群与可扩展推理集群、训练集群部署在不同机房楼中;

4、所述训练集群、可扩展推理集群均包括第一数量的液冷机柜及第二数量的风冷机柜;所述一般推理集群包括第三数量的液冷机柜及第四数量的风冷机柜;液冷机柜包括多个液冷图形处理单元gpu服务器;风冷机柜包括单台网络交换机;所述液冷gpu服务器采用冷板式液冷技术。

5、本专利技术实施例与现有技术中传统风冷机房及部署的技术方案相比,通过部署训练集群、一般推理集群及可扩展推理集群;训练集群为实现人工智能训练过程的高性能计算系统;一般推理集群为实现人工智能推理过程的高性能计算系统;可扩展推理集群为满足一般推理集群要求且具备改造为训练集群的条件的高性能计算系统;可扩展推理集群与训练集群部署在同一栋机房楼的同一层;一般推理集群与可扩展推理集群、训练集群部署在不同机房楼中,可以实现推理集群双可用区部署在不同机房楼的高可用设计,及可扩展推理集群可转换为训练集群的灵活部署设计;训练集群、可扩展推理集群均包括第一数量的液冷机柜及第二数量的风冷机柜;一般推理集群包括第三数量的液冷机柜及第四数量的风冷机柜;液冷机柜包括多个液冷图形处理单元gpu服务器;风冷机柜包括单台网络交换机;液冷gpu服务器采用冷板式液冷技术,单液冷机柜部署多个gpu服务器可以提升机房及机柜空间和能源利用率,实现更低pue值。

本文档来自技高网...

【技术保护点】

1.一种液冷机房系统,其特征在于,包括:训练集群、一般推理集群及可扩展推理集群;所述训练集群为实现人工智能训练过程的高性能计算系统;所述一般推理集群为实现人工智能推理过程的高性能计算系统;所述可扩展推理集群为满足一般推理集群要求且具备改造为训练集群的条件的高性能计算系统;

2.根据权利要求1所述的液冷机房系统,其特征在于,所述训练集群中的液冷机柜、风冷机柜分别部署于两间液冷机房中;所述可扩展推理集群中的液冷机柜、风冷机柜分别部署于两间液冷机房中。

3.根据权利要求2所述的液冷机房系统,其特征在于,所述液冷机房的荷载大于预设荷载。

4.根据权利要求2所述的液冷机房系统,其特征在于,所述训练集群、可扩展推理集群均包括一次侧和二次侧;一次侧部署在液冷机房外,包括冷却塔、一次侧管路;二次侧部署在液冷机房内,包括液冷分配单元CDU、液冷机柜、二次侧管路;

5.根据权利要求4所述的液冷机房系统,其特征在于,所述CDU部署于液冷机房内的空调区,液冷机柜部署在液冷机房内除空调区外的空间中。

6.根据权利要求4所述的液冷机房系统,其特征在于,所述液冷机房内设置架空地板,在架空地板内敷设二次侧管路;所述架空地板的敷设高度不低于预设高度;架空地板下敷设二次侧管路的通道的宽度不小于预设宽度。

7.根据权利要求4所述的液冷机房系统,其特征在于,所述二次侧管路设置有接水盘,接水盘内设置有漏水检测装置。

8.根据权利要求4所述的液冷机房系统,其特征在于,所述CDU与一次侧管路的连接接口处设置有高于预设目数的过滤器;液冷机房系统中的水处理设备采用过滤精度高于预设过滤精度的装置。

9.根据权利要求1所述的液冷机房系统,其特征在于,液冷机房系统还包括供电系统,用于对训练集群、一般推理集群及可扩展推理集群进行高压直流供电;所述供电系统包括配电变压器、低压配电柜、不间断供电系统UPS及高压直流电源;所述供电系统还包括备用电源,用于与配电变压器、低压配电柜、不间断供电系统UPS及高压直流电源同时工作形成双重电源供电,或作为配电变压器、低压配电柜、不间断供电系统UPS及高压直流电源的备用电源。

10.根据权利要求1所述的液冷机房系统,其特征在于,所述第四数量小于第二数量。

...

【技术特征摘要】

1.一种液冷机房系统,其特征在于,包括:训练集群、一般推理集群及可扩展推理集群;所述训练集群为实现人工智能训练过程的高性能计算系统;所述一般推理集群为实现人工智能推理过程的高性能计算系统;所述可扩展推理集群为满足一般推理集群要求且具备改造为训练集群的条件的高性能计算系统;

2.根据权利要求1所述的液冷机房系统,其特征在于,所述训练集群中的液冷机柜、风冷机柜分别部署于两间液冷机房中;所述可扩展推理集群中的液冷机柜、风冷机柜分别部署于两间液冷机房中。

3.根据权利要求2所述的液冷机房系统,其特征在于,所述液冷机房的荷载大于预设荷载。

4.根据权利要求2所述的液冷机房系统,其特征在于,所述训练集群、可扩展推理集群均包括一次侧和二次侧;一次侧部署在液冷机房外,包括冷却塔、一次侧管路;二次侧部署在液冷机房内,包括液冷分配单元cdu、液冷机柜、二次侧管路;

5.根据权利要求4所述的液冷机房系统,其特征在于,所述cdu部署于液冷机房内的空调区,液冷机柜部署在液冷机房内除空调区外的空间中。

6.根据权利要求4所述的液冷机房系统...

【专利技术属性】
技术研发人员:范艳锋杨晓勤范鹏王洪陈东平侯杰罗向辉
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1