System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于处理器的设备中的切片化图形处理单元(GPU)架构制造技术_技高网

基于处理器的设备中的切片化图形处理单元(GPU)架构制造技术

技术编号:44817213 阅读:6 留言:0更新日期:2025-03-28 20:05
公开了一种基于处理器的设备中的切片化图形处理单元(GPU)架构。在一些方面中,基于切片化GPU架构的GPU包括多个硬件切片。GPU还包括命令处理器(CP)电路和非切片图元控制器(PC_US)。在从中央处理单元(CPU)接收到图形指令时,CP电路确定图形工作负载,并且向PC_US发送图形工作负载。PC_US然后将图形工作负载划分为多个子批次,并且将每个子批次分发到硬件切片的PC_S以进行处理。

【技术实现步骤摘要】
【国外来华专利技术】

概括而言,本公开内容的技术涉及基于处理器的设备中的图形处理单元(gpu)架构。


技术介绍

1、现代基于处理器的设备包括被称为图形处理单元(gpu)的专用处理单元以加速对图形和视频数据的渲染以供显示。gpu可以被实现为通用中央处理单元(cpu)的集成元件,或者被实现为与cpu分离的分立硬件元件。由于其高度并行的架构和结构,gpu能够比通用cpu更高效地执行并行地处理大数据块的算法。例如,gpu可以使用被称为“瓦片渲染”或“基于仓的渲染”的模式来渲染三维(3d)图形图像。gpu将可以被分解为三角形的图像细分为多个较小的瓦片。然后,gpu确定组成图像的哪些三角形在每个瓦片中可见,并且使用gpu中的快速片上存储器将图像的在该瓦片内部的部分保存,从而依次渲染每个瓦片。一旦已经渲染了瓦片,片上存储器就被复制到其在系统存储器中的正确位置以用于输出到显示器,并且下一个瓦片被渲染。

2、由gpu渲染瓦片的过程可以进一步被细分为多个操作,这些操作可以在单独的处理器核或图形硬件管线中并发地执行。例如,瓦片渲染可以涉及在第一处理器核上执行的瓦片可见性线程、在第二处理器核上执行的渲染线程以及在第三处理器核上执行的解析线程。瓦片可见性线程的目的是确定哪些三角形为瓦片中的每个瓦片贡献片段,其中结果是可见性流,该可见性流包含针对被检查的每个三角形的一比特并且指示该三角形在给定瓦片中是否可见。可见性流被压缩并且写入系统存储器中。gpu还执行渲染线程来绘制图像的位于每个瓦片内部的部分,并且执行像素光栅化和着色。未被可见性流检查所剔除的三角形由该线程进行渲染。最后,gpu还可以执行解析线程,以将图像的被包含在每个瓦片中的部分复制到系统存储器。在瓦片的渲染完成之后,经渲染的瓦片的色彩内容在进行到下一瓦片之前被解析到系统存储器中。

3、作为对于生产具有更高性能水平的能力的gpu的市场压力的回应,gpu制造商已经开始扩大gpu的物理大小。然而,以更大的物理大小实现传统gpu架构不一定导致性能提高,而甚至可能引发较小gpu所没有遇到的问题。例如,在较小gpu的情况下,增加电压导致相应增加的最大频率,从而反映电压与频率之间的大致线性关系。然而,由于导线延迟在确定最大频率方面也起着很大作用,因此将较大gpu中的电压增加到特定点之外将不会以线性方式增加最大频率。此外,由于gpu被配置为作为单指令多数据(simd)处理器进行操作,因此它们在对大量数据进行操作时最高效。由于较大gpu需要将工作负载作为较小的数据组块进行分发,因此它们可能无法充分地填充每个处理管线以掩盖由存储器提取引起的延迟问题。此外,gpu内的不同管线内的工作负载和执行速度的差异以及不同的执行瓶颈(即,双倍数据速率(ddr)存储器瓶颈与内部gpu瓶颈)也可能造成较大的gpu大小无法转化为gpu性能增益。


技术实现思路

1、在具体实施方式中公开的各方面包括一种基于处理器的设备中的切片化图形处理单元(gpu)架构。还公开了相关装置和方法。在这点上,在本文公开的一些示例性方面中,一种基于切片化gpu架构的gpu包括:多个硬件切片,每个硬件切片包括切片图元控制器(pc_s)和多个切片硬件单元。每个硬件切片的切片硬件单元包括几何形状管线控制器(gpc)、顶点着色器(vs)、图形光栅化器(gras)、低分辨率z缓冲器(lrz)、渲染后端(rb)、高速缓存和压缩单元(ccu)、图形存储器(gmem)、高级定序器(hlsq)、片段着色器/纹理管道(fs/tp)以及集群高速缓存(cche)。。此外,gpu还包括命令处理器(cp)电路和非切片图元控制器(pc_us)。在从中央处理单元(cpu)接收到图形指令时,cp电路基于图形指令来确定图形工作负载,以及向pc_us发送所述图形工作负载。pc_us然后将图形工作负载划分为多个子批次,以及将每个子批次分发到硬件切片的pc_s以进行处理(例如,基于轮询切片选择机制,和/或基于每个硬件切片的当前处理利用率)。通过应用切片化gpu架构,可以将大gpu实现为多个硬件切片,其中图形工作负载在多个硬件切片之间更高效地细分。以这种方式,可以有效地解决上面提到的关于物理设计、时钟频率、设计可扩展性和工作负载失衡的问题。

2、一些方面还可以规定:每个硬件切片的每个cche可以从一个或多个客户端(即,多个切片硬件单元中的一个或多个切片硬件单元)接收数据,并且可以对一个或多个客户端进行同步。在这样的方面中,耦合到cche的统一高速缓存(uche)也对多个硬件切片进行同步。在一些方面中,每个硬件切片的每个lrz被配置为存储仅与被指派给对应硬件切片的像素瓦片相对应的高速缓存行。这可以通过以下方式来实现:首先将屏幕坐标映射到在坐标上连续并且仅保存用于硬件切片的块的切片空间中,并且然后基于切片空间中的坐标来寻址瓦片。

3、根据一些方面,gpu的硬件切片执行额外操作以确定三角形可见性,并且将三角形顶点指派给对应硬件切片。在这样的方面中,gpu还包括非切片顶点参数缓存(vpc_us),而硬件切片中的每个硬件切片还包括对应的切片三角形设置引擎前端(tsefe_s)、切片顶点参数高速缓存前端(vpcfe_s)、切片顶点参数高速缓存后端(vpcbe_s)和三角形设置引擎(tse)。每个硬件切片的每个vpcfe_s可以从硬件切片的对应vs接收由vs生成的图元属性和位置输出,并且可以将图元属性和位置输出写入硬件切片的gmem。每个对应硬件切片的每个tsefe_s接下来基于图元属性和位置输出来确定针对一个或多个硬件切片的三角形可见性。然后,每个tsefe_s向vpc_us发送对针对一个或多个硬件切片中的每个硬件切片的三角形可见性的一个或多个指示,vpc_us基于对三角形可见性的一个或多个指示来将对于一个或多个硬件切片的每个硬件切片可见的三角形指派给对应硬件切片。每个硬件切片的每个vpcbe_s基于由vpc_us指派的三角形来识别用于对于对应硬件切片可见的三角形的顶点,并且然后将顶点发送给对应硬件切片的tse。

4、在另一方面中,提供了一种基于处理器的设备。基于处理器的设备包括gpu,其包括:多个硬件切片;cp电路;以及pc_us。多个硬件切片中的每个硬件切片包括pc_s和多个切片硬件单元。多个切片硬件单元包括gpc、vs、gras、lrz、rb、ccu、gmem、hlsq、fs/tp和cche。cp电路被配置为从cpu接收图形指令。cp电路还被配置为基于图形指令来确定图形工作负载。cp电路还被配置为向pc_us发送图形工作负载。pc_us被配置为从cp电路接收图形工作负载。pc_us还被配置为将图形工作负载划分为多个子批次。pc_us被配置为将多个子批次中的每个子批次分发到多个硬件切片中的硬件切片的pc_s以进行处理。

5、在另一方面,提供了一种基于处理器的设备。基于处理器的设备包括用于从cpu接收图形指令的单元。基于处理器的设备还包括用于基于图形指令来确定图形工作负载的单元。基于处理器的设备还包括用于将图形工作负载划分为多个子批次的单元。基于本文档来自技高网...

【技术保护点】

1.一种基于处理器的设备,包括:

2.根据权利要求1所述的基于处理器的设备,其中,所述多个硬件切片中的每个硬件切片包括多个切片硬件单元,所述多个切片硬件单元包括几何形状管线控制器(GPC)、顶点着色器(VS)、图形光栅化器(GRAS)、低分辨率Z缓冲器(LRZ)、渲染后端(RB)、高速缓存和压缩单元(CCU)、图形存储器(GMEM)、高级定序器(HLSQ)、片段着色器/纹理管道(FS/TP)以及集群高速缓存(CCHE)。

3.根据权利要求2所述的基于处理器的设备,其中:

4.根据权利要求3所述的基于处理器的设备,其中:

5.根据权利要求1所述的基于处理器的设备,其中,所述PC_US被配置为基于轮询切片选择机制来分发每个子批次。

6.根据权利要求1所述的基于处理器的设备,其中,所述PC_US被配置为通过被配置为进行以下操作来分发每个子批次:

7.根据权利要求1所述的基于处理器的设备,其中,所述多个子批次中的每个子批次的大小是可配置的。

8.根据权利要求1所述的基于处理器的设备,其中,每个子批次包括256个图元。

9.根据权利要求2所述的基于处理器的设备,其中:

10.根据权利要求2所述的基于处理器的设备,其中,每个LRZ被配置为存储仅与被指派给所述多个硬件切片中的对应硬件切片的像素瓦片相对应的高速缓存行。

11.根据权利要求10所述的基于处理器的设备,其中,每个LRZ被配置为通过被配置为针对每个硬件切片进行以下操作,存储仅与被指派给所述多个硬件切片中的所述对应硬件切片的像素瓦片相对应的高速缓存行:

12.一种基于处理器的设备,包括:

13.一种用于操作包括多个硬件切片的图形处理单元(GPU)的方法,包括:

14.根据权利要求13所述的方法,其中,所述多个硬件切片中的每个硬件切片包括多个切片硬件单元,所述多个切片硬件单元包括几何形状管线控制器(GPC)、顶点着色器(VS)、图形光栅化器(GRAS)、低分辨率Z缓冲器(LRZ)、渲染后端(RB)、高速缓存和压缩单元(CCU)、图形存储器(GMEM)、高级定序器(HLSQ)、片段着色器/纹理管道(FS/TP)以及集群高速缓存(CCHE)。

15.根据权利要求14所述的方法,其中:

16.根据权利要求13所述的方法,其中,分发每个子批次是基于轮询切片选择机制的。

17.根据权利要求13所述的方法,其中,分发每个子批次包括:

18.根据权利要求13所述的方法,其中,所述多个子批次中的每个子批次的大小是可配置的。

19.根据权利要求13所述的方法,其中,每个子批次包括256个图元。

20.根据权利要求14所述的方法,其中:

21.根据权利要求14所述的方法,还包括:由所述多个硬件切片中的每个硬件切片的每个LRZ存储仅与被指派给所述多个硬件切片中的对应硬件切片的像素瓦片相对应的高速缓存行。

22.根据权利要求21所述的方法,其中,存储仅与被指派给所述多个硬件切片中的所述对应硬件切片的像素瓦片相对应的高速缓存行包括:

23.一种其上存储有计算机可执行指令的非暂时性计算机可读介质,所述计算机可执行指令在由处理器执行时使得所述处理器进行以下操作:

24.根据权利要求23所述的非暂时性计算机可读介质,其中,所述多个硬件切片中的每个硬件切片包括多个切片硬件单元,所述多个切片硬件单元包括几何形状管线控制器(GPC)、顶点着色器(VS)、图形光栅化器(GRAS)、低分辨率Z缓冲器(LRZ)、渲染后端(RB)、高速缓存和压缩单元(CCU)、图形存储器(GMEM)、高级定序器(HLSQ)、片段着色器/纹理管道(FS/TP)以及集群高速缓存(CCHE)。

25.根据权利要求24所述的非暂时性计算机可读介质,其中,所述计算机可执行指令还使得所述处理器进行以下操作:

26.根据权利要求23所述的非暂时性计算机可读介质,其中,所述计算机可执行指令使得所述处理器进行以下操作:基于轮询切片选择机制来分发每个子批次。

27.根据权利要求23所述的非暂时性计算机可读介质,其中,所述计算机可执行指令通过使得所述处理器进行以下操作,来使得所述处理器分发每个子批次:

28.根据权利要求23所述的非暂时性计算机可读介质,其中,所述多个子批次中的每个子批次的大小是可配置的。

29.根据权利要求23所述的非暂时性计算机可读介质,其中,每个子批次包括256个图元。

30.根据权利要求24所述的...

【技术特征摘要】
【国外来华专利技术】

1.一种基于处理器的设备,包括:

2.根据权利要求1所述的基于处理器的设备,其中,所述多个硬件切片中的每个硬件切片包括多个切片硬件单元,所述多个切片硬件单元包括几何形状管线控制器(gpc)、顶点着色器(vs)、图形光栅化器(gras)、低分辨率z缓冲器(lrz)、渲染后端(rb)、高速缓存和压缩单元(ccu)、图形存储器(gmem)、高级定序器(hlsq)、片段着色器/纹理管道(fs/tp)以及集群高速缓存(cche)。

3.根据权利要求2所述的基于处理器的设备,其中:

4.根据权利要求3所述的基于处理器的设备,其中:

5.根据权利要求1所述的基于处理器的设备,其中,所述pc_us被配置为基于轮询切片选择机制来分发每个子批次。

6.根据权利要求1所述的基于处理器的设备,其中,所述pc_us被配置为通过被配置为进行以下操作来分发每个子批次:

7.根据权利要求1所述的基于处理器的设备,其中,所述多个子批次中的每个子批次的大小是可配置的。

8.根据权利要求1所述的基于处理器的设备,其中,每个子批次包括256个图元。

9.根据权利要求2所述的基于处理器的设备,其中:

10.根据权利要求2所述的基于处理器的设备,其中,每个lrz被配置为存储仅与被指派给所述多个硬件切片中的对应硬件切片的像素瓦片相对应的高速缓存行。

11.根据权利要求10所述的基于处理器的设备,其中,每个lrz被配置为通过被配置为针对每个硬件切片进行以下操作,存储仅与被指派给所述多个硬件切片中的所述对应硬件切片的像素瓦片相对应的高速缓存行:

12.一种基于处理器的设备,包括:

13.一种用于操作包括多个硬件切片的图形处理单元(gpu)的方法,包括:

14.根据权利要求13所述的方法,其中,所述多个硬件切片中的每个硬件切片包括多个切片硬件单元,所述多个切片硬件单元包括几何形状管线控制器(gpc)、顶点着色器(vs)、图形光栅化器(gras)、低分辨率z缓冲器(lrz)、渲染后端(rb)、高速缓存和压缩单元(ccu)、图形存储器(gmem)、高级定序器(hlsq)、片段着色器/纹理管道(fs/tp)以及集群高速缓存(cche)。

15.根据权利要求14所述的方法,其中:

16.根据权利要求13所述的方法,其中,分发每个子批次是基于轮询切片选择机制的。

17.根据权利要求13所述的方法,其中,分发每个子批次包括:

18.根据权利要求13所述的方法,其中,所述多...

【专利技术属性】
技术研发人员:梁坚A·E·格鲁贝尔王韬唐学峰V·S·尼卡姆N·普尔K·K·比拉瓦巴特拉徐飞Z·应
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1