本发明专利技术公开了一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI Express总线之间的通电和断电。本发明专利技术能够根据GPU的工作状态开启或关闭该GPU,且在空闲状态时,能彻底使GPU断电,使GPU在空闲状态下的能耗为0。
【技术实现步骤摘要】
本专利技术涉及超级计算机的多GPU节点耗电管理的
,具体涉及在超级计算机的GPU节点内,一种基于PCI Express总线的多GPU的供电控制装置及方法。
技术介绍
GPU是图形加速卡(Graphics Processing Unit)的简称,是提高计算机处理大量图像或大规模计算的加速卡。现代GPU大多基于PCI Express总线,而PCI Express总线是从2001年春季开始发展起来的总线接口。现代GPU的主要生产商包括美国英伟达(NVIDIA)公司和美国AMD公司。超级计算机的多GPU节点(mult1-GPU node)是含有两个或两个以上的GPU的服务器。在此专利技术中,超级计算机的多GPU节点(mult1-GPU node)的两个或两个以上的GPU是指同型号的GPU。现有的多GPU技术包括美国NVIDIA公司开发出的SLI技术和美国AMD公司开发出的CrossFireX技术。现有超级计算机的GPU节点(mult1-GPU node)能够提供几十T级别的浮点计算能力,在商业计算和科学计算领域,比如计算金融学,计算机辅助设计,图像处理,动画设计等领域有着广泛的应用。在使用多用户软件比如Linux的情况下,超级计算机的多GPU节点(mult1-GPU node)在系统负荷内也提供一定的多用户使用的能力。现在多家公司开发的超级计算机的多GPU节点(mult1-GPU node)产品,比如中科曙光,超微(Supermicro),等公司。这些公司开发的超级计算机的GPU节点都具有耗电管理的功能。比如NVIDIA公司的NVIDIA Management Library (包括NVIDIA-smi和NVIDIA-healthmon)和超微(Supermicro)公司的 Supermicro Power Manager。PCI Express总线包含供电针脚和信号针脚两个部分。单GPU能在软件的控制下进入空闲(idle)状态。此时,单GPU处于最低功率,存在一定的耗电。本专利技术采用CMOS模拟开关(analog switch)对单GPU进行完全控制,使单GPU能够处于彻底的“开启”或“关闭”的状态。然而,即使多个GPU同时处于空闲(idle)状态,因为单GPU的空闲(idle)状态存在耗电,超级计算机的多GPU节点的耗电仍然不小。例如,在工作状态下,四NVIDIA TITAN的工作站的峰值功率约有几千瓦特;在空闲(idle)状态下,其功率仍然在百瓦特以上。因此,对于长期使用超级计算机的多GPU节点的用户,或者对于超级计算机的多GPU节点耗能比较敏感的用户,需要一种更为有效的供电控制装置及方法。
技术实现思路
(一)要解决的技术问题本专利技术的目的在于,提供一种基于PCI Express总线的多GPU的供电控制装置及方法,解决超级计算机的多GPU节点在空闲状态下的能耗问题,使GPU在空闲状态下的能耗为O。(二)技术方案本专利技术提供一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,其中:每个GPU对应有一个耗电管理接口及一个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线连接,该GPU对应的控制开关电连接于耗电管理接口,用于控制GPU与PCI Express总线之间的通断电。本专利技术还提供一种基于PCI Express总线的多GPU的供电控制方法,包括以下步骤:SI,检测多个GPU的工作状态;S2,当检测到某一 GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与PCI Express总线之间断电;当检测到某一 GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与PCI Express总线之间通电。(三)有益效果本专利技术提供的多GPU的供电控制装置及方法,采用CMOS模拟开关(analogswitch)对单GPU进行完全控制,使单GPU能够处于彻底的“开启”或“关闭”的状态,能在空闲状态彻底使GPU断电,使GPU能耗为O。【附图说明】图1是本专利技术实施例中多GPU的供电控制装置的示意图。图2是本专利技术实施例中耗电管理接口的结构图。图3是本专利技术实施例中控制开关的示意图。【具体实施方式】本专利技术提供一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI Express总线之间的通电和断电。在一种实施方式中,供电控制装置还包括一个检测装置,用于检测多个GPU的工作状态,当检测到某一 GPU没有运算负载,则其对应的控制开关关闭,使该GPU与所述PCI Express总线之间断电,其中,检测装置可以是NVIDIA公司提供的GPU管理工具,比如nvidia-smi。在一种实施方式中,每个耗电管理接口包括针脚、CMOS模拟开关及插槽,CMOS模拟开关分别与针脚及插槽电连接,插槽供GPU插入,针脚与PCI Express总线电连接,CMOS模拟开关与控制开关连接。在一种实施方式中,插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中供电插槽通过CMOS模拟开关与供电针脚电连接,信号插槽通过CMOS模拟开关与信号针脚电连接。在一种实施方式中,控制开关开启或关闭时,产生一个电子信号发送到CMOS模拟开关,CMOS模拟开关根据该电子信号,接通或切断供电插槽与供电针脚的通路。在一种实施方式中,多个控制开关均设置在机箱的控制面板上当前第1页1 2 本文档来自技高网...
【技术保护点】
一种基于PCI Express总线的多GPU的供电控制装置,其特征在于,包括多个耗电管理接口及多个控制开关,其中:每个GPU对应有一个耗电管理接口及一个控制开关,该GPU通过其对应的耗电管理接口与所述PCI Express总线连接,该GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与所述PCI Express总线之间的通断电。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵地,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。