当前位置: 首页 > 专利查询>英特尔公司专利>正文

高性能常量高速缓存和常量访问机制制造技术

技术编号:35254452 阅读:28 留言:0更新日期:2022-10-19 10:10
本申请公开了高性能常量高速缓存和常量访问机制。一种图形处理装置,包括图形处理器和常量高速缓存。图形处理器具有多个执行实例,这些执行实例将生成对来自常量高速缓存的常量数据的请求。常量高速缓存存储具有多个常量类型的常量。常量高速缓存具有单个级别的层级结构来存储常量数据。常量高速缓存具有基于多个执行实例的区块结构,其中执行实例生成利用对于不同类型的常量数据相同的统一消息收发的、对常量数据的请求。对常量数据的请求。对常量数据的请求。

【技术实现步骤摘要】
高性能常量高速缓存和常量访问机制


[0001]描述总体上关于图形处理,并且更具体的描述关于对常量高速缓存的管理。

技术介绍

[0002]常量指的是跨多个线程或执行单元具有共同值的一类数据。频繁地在图形处理器上运行的程序经常需要访问常量数据,该常量数据跨单个着色器调用的并行线程是相同的。常量数据元素通常由应用通过诸如DirectX或Vulkan之类的3D API(三维应用编程接口)指定为常量。所有商标仅用于标识目的,并且是其相应的所有者的财产。
[0003]图形处理器在历史上使用被称为“常量高速缓存”的专用高速缓存以用于读取常量数据。常量高速缓存的先前实现方式具有高等待时间、复杂的编译器访问模型,并且无法确定对不同常量进行高速缓存将如何影响系统性能。
[0004]等待时间是指从高速缓存的第一级检取数据元素所花费的时间。现有解决方案所提供的常量访问的等待时间是次优的。编译器访问模型的复杂性是指以下事实:现有的常量高速缓存实现方式必须在编译时在对不同类型的常量的访问之间进行区分。对于一些常量访问场景,区分不同类型的常量访问导致增加的实现方式复杂性和增加的等待时间。
[0005]传统系统无法确定对不同常量进行高速缓存将如何影响系统性能,这可能导致高速缓存的颠簸(thrash)。系统可能会驱逐那些原本留在高速缓存中更好的常量数据,或者将那些将不提高系统性能的数据放置在高速缓存中。传统系统可能倾向于过早地驱逐有用的常量,而不对将受益于处于高速缓存中的一些数据进行高速缓存。
附图说明
[0006]以下描述包括对附图的讨论,这些附图具有通过实现的示例的方式给出的例示。这些附图应被理解成作为示例,而不是作为限制。如本文中所使用,对一个或多个示例的引用应理解为描述被包括在本专利技术的至少一个实现方式中的特定特征、结构或特性。本文中出现的诸如“在一个示例中”或“在替代示例中”之类的短语提供了本专利技术的实现方式的示例,并且不一定全部指代同一实现方式。然而,它们也不一定是相互排他的。
[0007]图1是根据实施例的处理系统的框图。
[0008]图2A

图2D图示由本文中描述的实施例提供的计算系统和图形处理器。
[0009]图3A

图3C图示由本文中描述的实施例提供的附加的图形处理器和计算加速器架构的框图。
[0010]图4是根据一些实施例的图形处理器的图形处理引擎的框图。
[0011]图5A

图5B图示根据本文中描述的实施例的线程执行逻辑,该线程执行逻辑包括在图形处理器核中采用的处理元件的阵列。
[0012]图6图示根据实施例的附加的执行单元。
[0013]图7是图示根据一些实施例的图形处理器指令格式的框图。
[0014]图8是图形处理器的另一实施例的框图。
[0015]图9A是图示根据一些实施例的图形处理器命令格式的框图。
[0016]图9B是图示根据实施例的图形处理器命令序列的框图。
[0017]图10图示根据一些实施例的数据处理系统的示例性图形软件架构。
[0018]图11A是图示根据实施例的可用于制造集成电路以执行操作的IP核开发系统的框图。
[0019]图11B图示根据本文中描述的一些实施例的集成电路封装组件的截面侧视图。
[0020]图11C图示封装组件,该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片。
[0021]图11D图示根据实施例的包括可互换小芯片的封装组件。
[0022]图12、图13A和图13B图示根据本文中描述的各实施例的可以使用一个或多个IP核制造的示例性集成电路和相关联的图形处理器。
[0023]图14图示具有用于管理对常量的高速缓存操作的可缓存性管理器的系统的示例。
[0024]图15图示具有由执行单元共享的常量高速缓存的系统的示例。
[0025]图16是常量高速缓存流水线的示例。
[0026]图17是针对图16的常量高速缓存流水线的资源检查的示例。
[0027]图18是请求对新着色器进行编译的示例的流程图。
[0028]图19是评估用于编译着色器的常量的可缓存性的示例的流程图。
[0029]图20是评估已经被编译的着色器的可缓存性设置的示例的流程图。
[0030]接下来是某些细节和实现方式的描述,包括对附图的非限制性描述,这些附图可以描绘一些或所有示例,以及其他潜在实现方式。
具体实施方式
[0031]如本文所描述,计算系统包括图形处理器和常量高速缓存。图形处理器具有多个执行实例,这些执行实例将生成对来自常量高速缓存的常量数据的请求。常量高速缓存存储具有多个常量类型的常量。常量高速缓存具有单个级别的层级结构来存储常量数据。常量高速缓存具有基于多个执行实例的区块化结构,其中执行实例生成利用对于不同类型的常量数据相同的统一消息收发的、对常量数据的请求。
[0032]图形执行单元可以是图形处理单元(GPU)。在服务器系统中,具有下文描述的常量高速缓存管理的图形执行单元的实现方式能够为服务提供商实现更高的性能和更低的等待时间。例如,常量高速缓存管理的实现方式可以应用于云游戏服务或其他共享云应用环境。
[0033]所描述的常量高速缓存管理可以管理在GPU上的常量高速缓存硬件的硬件资源,以在执行单元(EU)和EU线程之间共享。与传统系统相比,利用常量高速缓存中的单个级别的层级结构以及具有对不同数据类型的共同访问的简化访问的高速缓存管理可以改善等待时间。对常量数据的访问的改善的等待时间提高了3D(三维)应用的性能。高速缓存管理还可以通过对常量数据的动态标识和可缓存性控制来实现3D应用的改善的性能。动态标识是指动态地标识什么常量数据应当被高速缓存以及哪些常量数据最好不要被高速缓存的能力。因此,高速缓存管理可以确定常量数据的可缓存性,并管理对该数据的高速缓存操作,以提高应用性能。高速缓存管理可以基于在常量的不同组合被高速缓存的情况下图形应用的改善的性能来迭代地确定什么常量应当被高速缓存。
[0034]在常量高速缓存操作的传统应用的一个示例中,常量数据的平均等待时间可以是大约32个时钟。所描述的高速缓存管理可以将平均等待时间降低到大约20个时钟,相比传统系统在更多的场景中提供更低的等待时间。高速缓存管理可以将常量高速缓存作为单个级别来管理。在一个示例中,高速缓存管理将智能区块化应用于高速缓存。在一个示例中,高速缓存管理提供统一消息收发访问方法,以便以相同的消息收发访问所有常量类型。在一个示例中,高速缓存管理动态地管理哪个常量数据被高速缓存相对于哪个常量数据未被高速缓存,这可以改善重要常量数据的访问时间,并在运行3D应用时提高整体系统性能。
[0035]系统概览
[0036]图1是根据实施例的处理系统100的框图。系统100可被用在以下各项中:单处理器台式机系统、多处理器工作站系统、或具有大量处理器102或处理器核10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图形处理装置,包括:图形处理器,包括多个执行实例,所述多个执行实例用于生成对常量数据的请求;以及常量高速缓存,用于存储多个常量类型,其中,所述常量高速缓存具有用于存储所述常量数据的单个级别的层级结构,其中,所述常量高速缓存具有基于所述多个执行实例的区块化结构,并且其中,所述执行实例用于生成利用对于所述多个常量类型相同的统一消息收发的、对所述常量数据的请求。2.如权利要求1所述的图形处理装置,其中,所述常量高速缓存包括在所述图形处理器外的并且在所述执行实例之间共享的高速缓存设备。3.如权利要求1至2中任一项所述的图形处理装置,其中,所述多个执行实例包括多个硬件执行单元,并且其中,所述常量高速缓存具有基于所述多个硬件执行单元的区块化结构。4.如权利要求1至3中任一项所述的图形处理装置,其中,所述多个执行实例包括由图形程序执行的多个线程,并且其中,所述常量高速缓存具有基于所述多个线程的区块化结构。5.如权利要求1至4中任一项所述的图形处理装置,其中,所述常量类型包括无绑定常量。6.如权利要求1至5中任一项所述的图形处理装置,其中,常量类型包括无状态常量。7.如权利要求1至6中任一项所述的图形处理装置,其中,常量类型包括被索引的常量。8.一种计算机系统,包括:图形处理单元,所述图形处理单元包括:图形处理器,具有多个执行实例,所述多个执行实例用于生成对常量数据的请求;以及常量高速缓存,用于存储多个常量类型,其中,所述常量高速缓存具有用于存储所述常量数据的单个级别的层级结构,其中,所述常量高速缓存具有基于所述多个执行实例的区块化结构,并且其中,所述执行实例用于生成利用对于所述多个常量类型相同的统一消息收发的、对所述常量数据的请求;以及中央处理单元,用于执行包括编译器的图形驱动器,所述编译器用于编译图形应用以供在所述图形处理单元上执行。9.如权利要求8所述的计算机系统,其中,所述常量高速缓存包括在所述图形处理器外的并且在所述执行实例之间共享的高速缓存设备。10.如权利要求8至9中任一项所述的计算机系统,其中,所述常量高速缓存具有基于多个硬件执行单元的区块化结构,或者其中,所述常量高速缓存具有基于所述多个线程的区块化结构。11.如权利要求8至10中任一项所述的计算机系统,其中,所述常量类型包括无绑定常量、无状态常量或被索引的常量中的一者或多者。12.如权利要求8至11中任一项所述的计算机系统,其中,所述中央处理单元用于执行可缓存性管理器,所述可缓存性管理器用于在图形应用的编译时标识要存储在所...

【专利技术属性】
技术研发人员:S
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1