System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 三维芯粒系统及其计算方法技术方案_技高网

三维芯粒系统及其计算方法技术方案

技术编号:41001684 阅读:11 留言:0更新日期:2024-04-18 21:39
提供了三维芯粒系统,包括:衬底;N层芯粒,每一层芯粒具有无金属区域和金属区域、多个IO端、以及第一硅通孔通道和第二硅通孔通道,其中N是大于等于2的整数,第一硅通孔通道贯穿每一层芯粒的无金属区域,第一层芯粒至第N‑1层芯粒中的每一层芯粒的第一硅通孔通道连接至一个IO端进而通过一个凸块单元与下一层芯粒的第一硅通孔通道连接;第一层芯粒至第N‑1层芯粒中的每一层芯粒的金属区域通过第二硅通孔通道连接至另一个IO端进而通过另一个凸块单元与下一层芯粒的金属区域连接;第N层芯粒的多个IO端通过衬底侧凸块单元与衬底连接。利用分别的第一硅通孔通道和第二硅通孔通道来连接N层芯粒以实现N层芯粒之间读写分离的数据通信。

【技术实现步骤摘要】

本专利技术涉及芯片领域,具体而言,涉及一种三维芯粒系统及其计算方法


技术介绍

1、近年来,随着以chatgpt为代表的aigc(即ai generated content,生成式人工智能)在全球范围内爆发涌现并快速普及,以transformer大模型为技术底座的aigc软硬件成为新型内容生产的基础设施,将成为必不可少的重要工具,同时模型精修创新技术又将推动大模型对千行百业的逐步赋能。chatgpt等ai大模型的训练和推理过程中涉及海量数据的搬运与计算,其爆发普及不仅有赖于ai技术的突破创新,更是强烈依赖上游存储和算力系统的规模和性能,近年来全球领先的算力加速服务器算力呈现指数增长趋势,支撑着大模型数据规模和算法的不断迭代优化。chatgpt的网络模型gpt3.5,gpt4等包含大量的网络参数和巨大的计算需求,因此其对于硬件计算平台的参数加载能力,计算能力,功耗能效等都提出了严格的要求。目前基于dram、sram、rram等不同的存储器件的专用ai加速器正显示了其超越传统通用处理器的性能与优势。但大多数单颗芯片难以承载大模型网络巨大的参数量和计算需求。特别是在端侧存储和计算资源有限的前提下,如何高效地完成大模型推理成为了工业界和学术界研究的重点。

2、对于大模型推理所需要的参数和算力拓展,现有的方法主要包括多块fpga连接,多芯片pcb拓展,chiplet芯粒系统等方法。对于transformer网络中的生成阶段,attention和feed forward两部分中的大规模矩阵计算,特点为存储参数需求远远大于计算需求,计算传输带宽需求远远大于算力需求。因此该部分适合在存储边缘加入计算,利用存储器内的高带宽和并行度提升计算效率。

3、提出了一种基于rram的多芯片pcb拓展的网络模型参数可拓展神经网络计算平台。该技术方案通过多颗pcb互联,实现了resnet18网络的全模型加载和推理。但该技术方案采用存算分离技术,系统能效仅为2.2tops/w,没有发挥rram存算一体的能效优势,且多pcb的互连方式使得计算平台体积较大,不利于端侧(如手机端)的直接部署。

4、又提出了一种基于hbm的存算一体平台hbm-pim,采用多层hbm芯粒3d-tsv封装技术,在dram存储体周围加入pcu单元,发挥hbm内部多存储体并行计算的高带宽和高参数存储能力,并用3d硅通孔技术形成集成芯粒系统来提升拓展算力和参数。并且通过将该平台应用在transformer大模型的推理上,展现了加速大模型推理阶段的能力。但该工作基于hbm实现,在高密度低静态功耗和端侧的部署能力方面仍有改进空间。

5、还提出了一种基于多个fpga实现了gpt2的全网络模型的加载与推理计算。该技术方案实现了超过gpu的云端计算能效与低延迟,但fpga平台体积较大,不适用于边缘计算。且fpga无法实现存算一体,数据传输等功能,需要对功耗和传输延时等方面进一步优化。


技术实现思路

1、本专利技术就旨在克服现有技术中的上述和/或其它问题。基于本专利技术所提供的三维芯粒系统及其计算方法,通过多芯粒拓展与数据交互进一步拓展了芯片系统的计算和参数加载能力,并且通过结合读写分离的硅通孔数据传输方式实现了高能效低延时的计算平台。

2、解决技术问题的技术方案

3、根据本专利技术的第一方面,提供了一种三维芯粒系统,其特征在于,所述三维芯粒系统包括:衬底;n层芯粒,所述n层芯粒中的每一层芯粒具有无金属区域和金属区域、多个io端、以及第一硅通孔通道和第二硅通孔通道,其中n是大于等于2的整数,所述第一硅通孔通道贯穿所述n层芯粒中的每一层芯粒的无金属区域,所述n层芯粒中的每一层芯粒的第一硅通孔通道通过重布线层与所述每一层芯粒的一个io端连接,其中所述n层芯粒中的第一层芯粒至第n-1层芯粒中的每一层芯粒的所述一个io端通过一个凸块单元与和所述每一层芯粒相邻的下一层芯粒的第一硅通孔通道连接;所述第二硅通孔通道将所述n层芯粒中的每一层芯粒的金属区域与所述每一层芯粒的另一个io端连接,其中所述n层芯粒中的第一层芯粒至第n-1层芯粒中的每一层芯粒的所述另一个io端通过另一个凸块单元与所述下一层芯粒的金属区域连接;所述n层芯粒中的第n层芯粒的多个io端分别通过衬底侧凸块单元与所述衬底连接。

4、较佳地,所述n层芯粒中的每一层芯粒包括至少一种ram存储单元。

5、较佳地,所述ram存储单元包括rram存储单元、dram存储单元和/或sram存储单元。

6、较佳地,所述多层芯粒是垂直布置的。

7、较佳地,所述三维芯粒系统进一步包括主机层芯粒。

8、较佳地,所述衬底底部具有凸块单元,用作所述三维芯粒系统的io端。

9、较佳地,所述三维芯粒系统包括将所述三维芯粒系统的io端连接到所述主机层芯粒的通道。

10、根据本专利技术的另一方面,提供了一种使用三维芯粒系统计算的方法,其特征在于,所述三维芯粒系统包括:衬底;n层芯粒,所述n层芯粒中的每一层芯粒具有无金属区域和金属区域、多个io端、以及第一硅通孔通道和第二硅通孔通道,其中n是大于等于2的整数,所述第一硅通孔通道贯穿所述n层芯粒中的每一层芯粒的无金属区域,所述n层芯粒中的每一层芯粒的第一硅通孔通道通过重布线层与所述每一层芯粒的一个io端连接,其中所述n层芯粒中的第一层芯粒至第n-1层芯粒中的每一层芯粒的所述一个io端通过一个凸块单元与和所述每一层芯粒相邻的下一层芯粒的第一硅通孔通道连接;所述第二硅通孔通道将所述n层芯粒中的每一层芯粒的金属区域与所述每一层芯粒的另一个io端连接,其中所述n层芯粒中的第一层芯粒至第n-1层芯粒中的每一层芯粒的所述另一个io端通过另一个凸块单元与所述下一层芯粒的金属区域连接;所述n层芯粒中的第n层芯粒的多个io端分别通过衬底侧凸块单元与所述衬底连接;所述方法包括如下步骤:通过所述第一硅通孔通道写入参数;所述n层芯粒中的第一层芯粒对写入所述第一层芯粒的参数进行计算以得到中间结果,并将所述第一层芯粒的中间结果通过所述第二硅通孔通道传输至所述下一层芯粒;所述n层芯粒中的第二层芯粒至第n-1层芯粒中的每一层芯粒通过所述第二硅通孔通道读取上一层芯粒的中间结果,对写入所述第二层芯粒至第n-1层芯粒中的每一层芯粒的参数进行计算以得到所述第二层芯粒至第n-1层芯粒中的每一层芯粒的中间结果并与所述上一层芯粒的中间结果结合,并将经结合的中间结果通过所述第二硅通孔通道传输至第n层芯粒;所述第n层芯粒通过所述第二硅通孔通道读取所述经结合的中间结果,对写入所述第n层芯粒的参数进行计算以得到第n层芯粒的中间结果并与所述经结合的中间结果结合以得到再结合的中间结果,并输出所述再结合的中间结果作为最终结果。

11、较佳地,所述三维芯粒系统进一步包括用于写入参数的主机层芯粒,其中写入参数包括将参数映射到所述多个芯粒中的一个或多个芯粒。

12、较佳地,所述最终结果被传输到所述主机层芯粒以循环计算。

13本文档来自技高网...

【技术保护点】

1.一种三维芯粒系统,其特征在于,所述三维芯粒系统包括:

2.如权利要求1所述的三维芯粒系统,其特征在于,所述N层芯粒中的每一层芯粒包括至少一种RAM存储单元。

3.如权利要求2所述的三维芯粒系统,其特征在于,所述RAM存储单元包括RRAM存储单元、DRAM存储单元和/或SRAM存储单元。

4.如权利要求1所述的三维芯粒系统,其特征在于,所述多层芯粒是垂直布置的。

5.如权利要求1所述的三维芯粒系统,其特征在于,所述三维芯粒系统进一步包括主机层芯粒。

6.如权利要求1所述的三维芯粒系统,其特征在于,所述衬底底部具有凸块单元,用作所述三维芯粒系统的IO端。

7.如权利要求6所述的三维芯粒系统,其特征在于,所述三维芯粒系统进一步包括主机层芯粒,以及将所述三维芯粒系统的IO端连接到所述主机层芯粒的通道。

8.一种使用三维芯粒系统计算的方法,其特征在于,

9.如权利要求8所述的方法,其特征在于,所述三维芯粒系统进一步包括用于写入参数的主机层芯粒,其中写入参数包括将参数映射到所述多个芯粒中的一个或多个芯粒。

10.如权利要求8所述的方法,其特征在于,所述最终结果被传输到所述主机层芯粒以循环计算。

11.如权利要求10所述的方法,其特征在于,所述衬底底部具有凸块单元用作所述三维芯粒系统的IO端,所述最终结果通过所述三维芯粒系统的IO端传输到所述主机层芯粒。

12.如权利要求8所述的方法,其特征在于,所述N层芯粒对所述参数的计算包括矩阵乘计算。

13.如权利要求8所述的方法,其特征在于,所述N层芯粒中的每一层芯粒包括至少一种RAM存储单元。

14.如权利要求13所述的方法,其特征在于,所述RAM存储单元包括RRAM存储单元、DRAM存储单元和/或SRAM存储单元。

15.如权利要求8所述的方法,其特征在于,所述N层芯粒是垂直布置的。

...

【技术特征摘要】

1.一种三维芯粒系统,其特征在于,所述三维芯粒系统包括:

2.如权利要求1所述的三维芯粒系统,其特征在于,所述n层芯粒中的每一层芯粒包括至少一种ram存储单元。

3.如权利要求2所述的三维芯粒系统,其特征在于,所述ram存储单元包括rram存储单元、dram存储单元和/或sram存储单元。

4.如权利要求1所述的三维芯粒系统,其特征在于,所述多层芯粒是垂直布置的。

5.如权利要求1所述的三维芯粒系统,其特征在于,所述三维芯粒系统进一步包括主机层芯粒。

6.如权利要求1所述的三维芯粒系统,其特征在于,所述衬底底部具有凸块单元,用作所述三维芯粒系统的io端。

7.如权利要求6所述的三维芯粒系统,其特征在于,所述三维芯粒系统进一步包括主机层芯粒,以及将所述三维芯粒系统的io端连接到所述主机层芯粒的通道。

8.一种使用三维芯粒系统计算的方法,其特征在于,

9...

【专利技术属性】
技术研发人员:陈迟晓穆琛刘诗玮林锋朱浩哲刘琦
申请(专利权)人:张江国家实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1