用于加速器控制器中心(ACH)的方法和装置。ACH可以是独立组件,或者集成在诸如GPU之类的加速器中的管芯或封装上。ACH可以包括主机设备链路(HDL)接口、一个或多个快速外围组件互连(PCIe)接口、一个或多个高性能加速器链路(HPAL)接口以及路由器,该路由器可操作地耦合到HDL接口、一个或多个PCIe接口以及一个或多个HPAL接口中的每一个。HDL接口配置为经由HDL链路耦合到主机CPU,并且一个或多个HPAL接口配置为耦合到一个或多个HPAL,该一个或多个HPAL用于访问高性能加速器结构(HPAF),例如,NVlink结构和CCIX(用于加速器的高速缓存一致性互连)结构。包括ACH的平台或具有集成的ACH的加速器支持使用RDMA语义来进行RDMA传送,从而在没有CPU参与的情况下实现在发起方上的加速器存储器与目标之间的传送。速器存储器与目标之间的传送。速器存储器与目标之间的传送。
【技术实现步骤摘要】
加速器控制器中心
技术介绍
[0001]近年来,图形处理单元(GPU)作为并行可编程加速器已经取得了显著的增长。虽然许多GPU最初旨在用于加速图形性能(例如,用于视频游戏),但GPU的内部架构使其非常适合于在机器学习(ML)和人工智能(AI)部署中使用。当用于ML和AI时,GPU可以被认为是通用GPU(GPGPU)。如本文所使用的,GPU、GPGPU和其他并行可编程加速器设备被称为XPU。
[0002]在高性能加速的系统中,主机
‑
设备链路(HDL)正在成为瓶颈。以下是说明此问题的三个示例。
[0003]网络数据摄取:由更大的AI模型或HPC(高性能计算)工作负载驱动的不断增长的计算需要有时要求跨两个或更多个服务器节点中的XPU拆分问题,这些服务器节点是使用高速网络(如InfiniBand或以太网)连接的。网络接口卡(NIC)通过主机
‑
设备结构(HDF)连接到主机CPU(中央处理单元)。因此,所有网络数据流都受到XPU HDL带宽的限制。
[0004]存储数据摄取:存储驱动器通过HDF连接到主机CPU。虽然像从SSD(固态驱动器)到XPU存储器的直接RDMA(远程直接存储器访问)之类的先进技术阻止了主机存储器中的额外的数据复制,但有效带宽仍然受到XPU HDL带宽的限制。
[0005]模型大小的增长速度快于设备存储器容量(如高带宽存储器(HBM)容量)的增长速度。先进的XPU存储器虚拟化方法(例如,统一共享存储器方案)实现应用透明的设备存储器超额预订(oversubscription)和自动迁移。当XPU的活动工作集在设备存储器内不适合时,数据中的一部分会溢出到主机存储器(如DRAM(动态随机存取存储器)或非易失性存储器),实质上使用主机存储器作为溢出缓冲器。这是对HDL带宽和CPU的存储器控制器带宽的浪费的使用。这可能会对CPU线程争夺存储器带宽的性能产生负面影响。
[0006]在所有三种情况下,XPU HDL带宽都成为瓶颈。虽然主机CPU恰好位于数据路径上,但该主机CPU不消耗数据,也不增加任何价值。
附图说明
[0007]本专利技术的前述方面和伴随的优点中的许多优点将变得更容易理解,因为通过结合附图参考以下具体实施方式,将更好地理解这些方面和优点,其中,除非另有说明,否则贯穿各种视图,相同的附图标记指代相同的部分:
[0008]图1是采用包括一对CPU以及多个XPU和IO设备的当前设计的多插座(multi
‑
socket)平台的示意图,其中多个XPU和IO设备经由主机设备结构(HDF)耦合到CPU,并且XPU经由高性能加速器结构(HPAF)彼此耦合;
[0009]图2是根据一个实施例的表示图1的多插座平台的增强版本的多插座平台的示意图,该多插座平台的增强版本采用耦合在HDF与HPAF之间的加速器控制器中心(accelerator controller hub,ACH),并且多个IO设备和存储器耦合到该ACH;
[0010]图3是根据一个实施例的ACH的示意图;
[0011]图4a是包括耦合到多个XPU的CPU的系统的示意图,多个XPU具有耦合到IO设备的集成ACH;
[0012]图4b是包括耦合到多个GPU的CPU的系统的示意图,多个GPU具有耦合到IO设备的集成GPU
‑
IIO;
[0013]图5是根据一个实施例的包括耦合到一对GPU的CPU系统的示意图,该对GPU具有经由链路互连的集成GPU IIO;
[0014]图6是根据一个实施例的包括GPU的平台的示意图,该GPU具有耦合到CPU和IO设备的管芯上或封装上GPU IIO,
[0015]图7a是根据一个实施例的包括发起方和目标的系统的示意图,图7a进一步示出了远程直接存储器访问(RDMA)发送流程,在该RDMA发送流程下,从发起方发送数据并且将该数据写入目标上的GPU存储器;以及
[0016]图7b是根据一个实施例的图7a的系统的示意图,其中目标是被动目标,图7b进一步示出了RDMA读取流程,在该RDMA读取流程下,从被动目标的GPU存储器读取数据并且将该数据写入发起方的GPU存储器;以及
[0017]图8是可以利用本文描述和示出的实施例的方面来实现的系统的图。
具体实施方式
[0018]本文描述了用于加速器控制器中心的方法和装置的实施例。在以下描述中,阐述了许多具体细节以提供对本专利技术的实施例的透彻理解。然而,相关领域的技术人员将认识到,可以在没有这些具体细节中的一个或多个的情况下,或者利用其他方法、组件、材料等来实践本专利技术。在其他实例中,未详细示出或描述公知的结构、材料或操作,以避免模糊本专利技术的方面。
[0019]在整个说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本专利技术的至少一个实施例中。因此,在整个说明书中各处出现的短语“在一个实施例中”或“在实施例中”不一定全部指代相同的实施例。此外,特定特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。
[0020]为了清楚起见,本文图中的各个组件也可以由这些组件在图中的标记来表示,而不是通过特定的附图标记来表示。另外地,表示特定类型的组件(与特定组件相反)的附图标记可以利用后面带有表示“典型”的“(typ)”的附图标记示出。将理解的是,这些组件的配置将是可能存在但为了简单和清楚起见未在附图中示出的类似组件的典型配置或以其他方式未用单独的附图标记标记出的类似组件的典型配置。相反,“(typ)”不应被解释为表示组件、元素等典型地用于其公开的功能、实现、目的等。
[0021]根据本公开的方面,提供了一种加速器控制器中心(ACH)。ACH表示基于以下观察对平台设计的重新思考:通过将存储装置、存储器和网络连接到高性能加速器结构来将它们移动到更靠近XPU的位置,这可以产生更好的平台平衡,并使数据能够直接移动到数据消费者/从数据生产者移动(该数据消费者/数据生产者为CPU或XPU)。
[0022]图1示出了说明当前平台设计的平台100。平台100是多插座平台,其包括经由超路径插座到插座互连106连接的两个CPU:CPU 102和CPU 104。CPU 102经由一个或多个存储器通道连接到主机存储器107,该主机存储器109包括一个或多个存储器设备,例如但不限于DRAM DIMM(双列直插式存储器模块)。类似地,CPU 104经由一个或多个存储器通道连接到主机存储器109,该主机存储器109包括一个或多个存储器设备。CPU 102和104中的每一个
经由相应的HDL 110和112连接到主机
‑
设备结构108。HDF 108经由相应的HDL 122、124、126和128耦合到XPU 114、116、118和120。HDF 108还经由一个或多个HDL 132连接到一个或多个SSD 130,并且经由一个或多个HDL 136连接到一个或多个NIC本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种集成电路,包括:中心,所述中心包括,主机设备链路(HDL)接口;一个或多个输入
‑
输出(IO)接口;一个或多个加速器链路接口;路由器,所述路由器能够操作地耦合到以下各项中的每一个:所述HDL接口、所述一个或多个IO接口和所述一个或多个加速器链路接口,其中,所述中心被配置为将源自一个或多个加速器的数据传送到一个或多个IO设备,所述一个或多个加速器连接到所述一个或多个加速器链路接口,所述一个或多个IO设备连接到所述一个或多个IO接口。2.根据权利要求1所述的集成电路,其中,所述一个或多个IO接口包括:一个或多个快速外围组件互连(PCIe)接口,并且其中,所述中心还包括:PCIe到HDL桥接器,所述PCIe到HDL桥接器能够操作地耦合到所述一个或多个PCIe接口和所述路由器。3.根据权利要求1或2所述的集成电路,其中,所述一个或多个IO接口包括:一个或多个快速外围组件互连(PCIe)接口,并且其中,所述中心还包括:PCIe到加速器链路桥接器,所述PCIe到加速器链路桥接器能够操作地耦合到所述一个或多个PCIe接口和所述路由器。4.根据前述权利要求中任一项所述的集成电路,还包括:具有一个或多个存储器通道的存储器接口,所述存储器接口耦合到所述路由器和所述HDL接口中的至少一个。5.根据前述权利要求中任一项所述的集成电路,还包括:一个或多个存储器排序逻辑块,所述一个或多个存储器排序逻辑块能够操作地耦合到相应的IO接口或加速器链路接口或集成在相应的IO接口或加速器链路接口中。6.根据权利要求5所述的集成电路,其中,所述存储器排序逻辑块包括:围栏单元,所述围栏单元被配置为排空以耦合到加速器链路接口的加速器为目标的先前写入。7.根据权利要求1所述的集成电路,还包括:加速器,所述中心被集成在所述加速器中。8.根据权利要求7所述的集成电路,其中,所述加速器包括图形处理单元GPU,并且所述中心包括GPU集成输入输出(GPU
‑
IIO)块,所述GPU
‑
IIO块具有至少两个IO接口。9.根据权利要求8所述的集成电路,其中,所述GPU包括耦合到所述GPU IIO块的GPU核心,并且所述GPU包括被配置为耦合到一个或多个存储器设备的存储器接口或者包括嵌入式存储器。10.一种系统,包括:主机中央处理单元(CPU),所述主机CPU包括存储器控制器;主机存储器,所述主机存储器包括耦合到所述存储器控制器的一个或多个主机存储器设备;加速器处理单元(XPU),所述XPU经由至少一个主机设备链路(HDL)耦合到所述主机CPU,所述XPU包括,处理单元;以及集成中心,所述集成中心耦合到所述处理单元,所述集成中心具有一个或多个输入
‑
输出(IO)设备接口并且包括路由器;以及一个或多个IO设备,所述一个或多个IO设备耦合到所述集成中心上的相应的IO设备接
口,其中,所述系统被使得能够使用直接存储器访问(DMA)传送,经由所述集成中心在所述主机存储器与所述一个或多个IO设备之间传送数据。11.根据权利要求10所述的系统,还包括:加速器存储器,所述加速器存储器耦合到所述加速器或者被嵌入在所述加速器上,其中,所述系统被配置为:...
【专利技术属性】
技术研发人员:P,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。