当前位置: 首页 > 专利查询>辉达公司专利>正文

在处理器上堆叠的高带宽存储器制造技术

技术编号:38664948 阅读:17 留言:0更新日期:2023-09-02 22:46
本公开的实施例涉及在处理器上堆叠的高带宽存储器。公开了用于通过在处理器裸片上堆叠大容量存储器来为处理系统提供一级存储器的系统和方法。在一个实施例中,一个或更多个存储器裸片堆叠在处理器裸片上。处理器裸片包括多个处理块,其中每个块包括处理单元、映射器和块网络。每个存储器裸片包括多个存储器块。处理块耦合到处理块上方或下方的每个存储器块。竖直对齐的存储器块包括处理块的本地存储器区块。与现有存储器相比,访问本地存储器区块的存储器带宽(字节)与浮点运算(B:F)的比率可以提高50倍。此外,传输每个位所消耗的能量可以减少10倍。量可以减少10倍。量可以减少10倍。

【技术实现步骤摘要】
在处理器上堆叠的高带宽存储器

技术介绍

[0001]当前的高性能计算(HPC)和图形处理能够利用比当前能提供的给定现代系统存储器实现更多的存储器带宽。例如,许多HPC应用程序的字节到浮点运算(B:F)比率介于8:1和1:1之间。因此,HPC应用程序需要从主存储器中获取1到8个字节来执行每个浮点运算。在另一个示例中,高性能共轭梯度(HPCG)基准具有大于4的B:F比率。具有B:F比率为1:10的现代图形处理单元(GPU)对此类应用程序造成了显著的存储器限制。需要一种在处理环境中改进的高性能存储器实现的解决方案,以及在这种环境中以本地化方式实现存储器访问以减少存储器访问的能量和延迟的方法。

技术实现思路

[0002]本公开的实施例涉及堆叠在处理器上的高带宽存储器。公开了用于通过在处理器裸片上堆叠大容量存储器来为处理系统提供一级存储器的系统和方法。在一个实施例中,一个或更多个存储器裸片堆叠在处理器裸片上。处理器裸片包括多个处理块,其中每个块包括处理单元、映射器和块网络。每个存储器裸片包括多个存储器块。处理块耦合到处理块上方或下方的每个存储器块。竖直对齐的存储器块包括用于处理块的本地存储器区块。在一个实施例中,N个处理块耦合到M个存储器块。与传统存储器相比,访问本地存储器块的存储器带宽(字节/秒)与浮点运算/秒(B:F)的比率可以提高50倍。此外,传输每个位所消耗的能量可以减少10倍。
[0003]在一个实施例中,一种设备包括裸片堆栈,所述裸片堆栈包括处理器裸片和至少一个存储器裸片,所述处理器裸片包括多个处理块,每个存储器裸片包括多个存储器块,其中裸片在第一维度中对齐并在第二维度中堆叠。该设备还包括在每个处理块和在至少一个存储器裸片的每个存储器裸片中的对应存储器块之间的导电路径,其中对应存储器块在第二维度中堆叠在处理块上。在一个实施例中,处理器是图形处理单元(GPU)内的流式多处理器。在一个实施例中,处理器裸片相对于存储器裸片“倒置”。在一个实施例中,中介层可以包括在包括处理器裸片和存储器裸片的设备内。
附图说明
[0004]下面参照附图详细描述本公开的用于在处理器上堆叠的高带宽存储器的系统和方法,其中:
[0005]图1A是根据实施例的裸片堆栈的示意图。
[0006]图1B是根据实施例的具有存储器块的存储器裸片的示意图。
[0007]图1C是根据实施例的具有处理块的处理器裸片的示意图。
[0008]图2A示出了根据实施例的示例性块堆栈。
[0009]图2B示出了根据实施例的示例性一级存储器系统。
[0010]图2C示出了根据实施例的包括分层网络和裸片堆栈的示例性系统。
[0011]图2D示出了根据实施例的网络分层和对应的通信机制。
[0012]图2E示出了根据实施例的3D矩阵的示例性映射。
[0013]图3A示出了根据实施例的用于访问在处理器上堆叠的高带宽存储器的方法的流程图。
[0014]图3B示出了根据实施例的用于通过分层网络访问堆叠在处理器上的存储器的方法的流程图。
[0015]图3C示出了适用于实现本公开的一些实施例的示例并行处理单元。
[0016]图4A示出了适用于实现本公开的一些实施例的图3C的并行处理单元内的示例通用处理集群。
[0017]图4B示出了适用于实现本公开的一些实施例的图3的并行处理单元的示例存储器分区单元。
[0018]图4C示出了适用于实现本公开的一些实施例的图4A的流式多处理器的示例。
[0019]图5A是适用于实现本公开的一些实施例的使用图3C的PPU实现的处理系统的示意图。
[0020]图5B示出了可以实现各各先前实施例的各种架构和/或功能的示例性系统。
[0021]图5C示出了在至少一个实施例中可用于训练和利用机器学习的示例性系统的组件。
[0022]图6示出了适用于实现本公开的一些实施例的示例性流式系统。
具体实施方式
[0023]公开了与在处理器上堆叠的高带宽存储器有关的系统和方法。通过在处理器裸片上堆叠大容量存储器(bulk memory)可以为处理系统提供单级存储器。与同代GPU相比,这种布置可以提供显著改进的B:F比率,将B:F比率从0.08提高50倍至4。这种提高转化为带宽受限HPC应用程序的性能的可比(comparable)提高。堆叠裸片布置还可以将每比特的存储转移能量降低10倍,将存储器访问能量从5pJ/bit降低到500fJ/bit。
[0024]图1A是根据实施例的裸片堆栈100的示意图。裸片1

8是堆叠在处理器裸片110上的存储器。在一个实施例中,至少一个存储器裸片堆叠在处理器裸片110上。在一个实施例中,处理器裸片110和存储器裸片被堆叠,每个裸片的顶侧面向同一方向。在一个实施例中,处理器裸片110相对于存储器裸片“倒置”,使得处理器裸片110的顶侧与每个存储器裸片的顶侧相比面向相反的方向。处理器裸片110和存储器裸片在第一维度(例如,定义水平轴或平面的维度)中对齐并且在第二维度(例如,定义垂直轴或平面的维度)中堆叠。
[0025]在一个实施例中,中介层(interposer)可以包括在包括处理器裸片110和存储器裸片的设备内。处理器裸片110可以被制造为包括多个处理单元,每个处理单元独立地耦合到由裸片1

8提供的大容量存储器的专用部分。直接耦合到特定处理单元的大容量存储器的专用部分是本地存储器区块。处理单元的本地存储器访问是通过每个处理单元和存储器裸片之间的互连结构来完成的。处理器裸片110可以耦合到裸片1的底部,并且互连结构将来自存储器裸片1

8中的每一个的信号路由通过下方的存储器裸片并继续到处理器裸片110。在一个实施例中,互连结构包括硅穿孔(TSV)和/或裸片穿孔(TDV)结构,其提供了在裸片前表面上的触点(连接焊盘)到裸片后(相对)表面上的触点之间制造的导电路径(电连接)。
[0026]互连结构可以包括布线结构,其可以包括位于裸片的前表面或后表面上的微凸块、连接焊盘、混合键合或金属线布线的任何组合。在一个实施例中,互连结构形成阶梯式(stair

step)导电路径。存储器裸片中的一者的阶梯式导电路径中的一者可以互连到存储器裸片中的另一者的阶梯式导电路径中的另一者,以形成通过存储器裸片中的两个或更多个的多个导电阶梯(staircase)结构中的一者。阶梯式导电路径可以被连接以减少导电阶梯结构之间的信号串扰,由此导电阶梯结构中的至少一些被连接以传输在垂直于存储器裸片表面的维度的空间上分离的相同极性的电信号。
[0027]阶梯连接结构形成互连阵列,通过在三个空间维度中提供屏蔽,特别是通过增强通过在堆栈中的不同存储器裸片形成的TDV阶梯之间的垂直屏蔽,有助于减少插入损耗和串扰。一些这样的TDV阶梯布置通过以下方式减少插入损耗和串扰:在TDV阶梯连接阵列中将输入

输出连接居中,通过对阵列中的成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备,包括:裸片堆栈,所述裸片堆栈包括处理器裸片以及至少一个存储器裸片,所述处理器裸片包括多个处理块,每个存储器裸片包括多个存储器块,其中所述裸片在第一维度中对齐并且在第二维度中堆叠;以及在每个处理块与在所述至少一个存储器裸片的每个存储器裸片中的对应存储器块之间的导电路径,其中所述对应存储器块在所述第二维度中堆叠在所述处理块上。2.根据权利要求1所述的设备,其中所述导电路径包括在所述第二维度中的裸片穿孔结构,所述裸片穿孔结构被制造在所述至少一个存储器裸片中的每一个存储器裸片内,以用于在每个处理块和所述对应存储器块之间的通信。3.根据权利要求2所述的设备,其中所述裸片穿孔结构包括硅穿孔、焊料凸块或混合键合中的至少一者。4.根据权利要求2所述的设备,其中所述裸片穿孔结构耦合到所述处理器裸片,所述处理器裸片在每个处理块的周边内的在至少所述第一方向上分布的位置处。5.根据权利要求2所述的设备,其中所述裸片穿孔结构耦合到所述至少一个存储器裸片,所述至少一个存储器裸片在每个存储器块的周边内的在至少所述第一方向分布的位置处。6.根据权利要求1所述的设备,其中所述裸片堆栈还包括至少一个中介层衬底,所述中介层衬底在所述第一维度中对齐并且在所述第二维度中堆叠。7.根据权利要求6所述的设备,其中所述裸片堆栈和至少一个附加裸片堆栈在所述第一维度中对齐并且被固定到所述至少一个中介层衬底。8.根据权利要求1所述的设备,其中所述裸片堆栈被围封在集成电路封装内。9.根据权利要求1所述的设备,其中所述处理器裸片包括图形处理单元。10.根据权利要求1所述的设备,其中所述处理器裸片包括至少一个中央处理单元。11.根据权利要求1所述的设备,其中所述至少一个存储器裸片包括安置在所述处理器裸片和第二存储器裸片之间的第一存储器裸片。12.根据权利要求10所述的设备,其中所述第一存储器裸片的第一接口直接耦合到所述多个处理块中的至少一个处理块的接口,并且所述第二存储器裸片的第二接口通过在所述第一存储器裸片内制造的裸片穿孔结构间接耦合到所述至少一个处理块。13.根据权利要求1所述的设备,其中每个处理块包括映射电路,所述映射电路经配置以将由所述处理块生成的地址转换至本地存储器区块中的位置,所述本地存储器区块包括在所述至少一个存储器裸片的每个存储器裸片中的所述对应存储器块。14.根据权利要求1所述的设备,其中每个处理块包括映射电路,所述映射电路经配置以将由所述处理块生成的地址转换至以下中的一者中的位置:包括所述至少一个存储器裸片的每个存储器裸片中的所述对应存储器块的本地存储器区块、所述处理器裸片...

【专利技术属性】
技术研发人员:W
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1