乱序像素着色和栅格化制造技术

技术编号：36105943 阅读：9 留言：0更新日期：2022-12-28 14:06

方法、系统和设备可以提供确定多个基元的状态与乱序执行相关联的技术。多个基元与栅格顺序相关联。该技术根据栅格顺序对多个基元重新排序，并分发与多个基元相关联的像素处理操作或栅格化操作中的一个或多个操作，以跨图形处理器的多个执行单元中的一个或多个执行单元或者跨图形处理器的图形流水线进行负载平衡。衡。衡。

全部详细技术资料下载

【技术实现步骤摘要】
乱序像素着色和栅格化

[0001]本公开总体上关于数据处理，并且更具体地关于经由通用图形处理单元进行的数据处理。

技术介绍

[0002]当前的并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法，这些特定操作诸如例如，线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统意义上而言，图形处理器使用固定功能计算单元来处理图形数据。然而，更最近地，已使图形处理器的多个部分可编程，使得此类处理器能够支持更广泛种类的操作以处理顶点数据和片段数据。
[0003]为了进一步提升性能，图形处理器典型地实现诸如流水线化的处理技术，这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMT架构中，成组的并行线程尝试尽可能频繁地一起同步地执行程序指令以提高处理效率。
附图说明
[0004]因此，为了可详细地理解本实施例的特征的方式，可参照实施例进行对上文简要概述的实施例的更特定的描述，在所附附图中图示实施例中的一些。然而，要注意，所附附图仅图示典型实施例，并且因此不应视为限制实施例的范围。
[0005]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图；
[0006]图2A
‑
图2D图示并行处理器部件；
[0007]图3A
‑
图3C是图形多处理器和基于多处理器的GPU的框图；
[0008]图4Ar/>‑
图4F图示在其中多个GPU通信地耦合至多个多核处理器的示例性架构；
[0009]图5图示图形处理流水线；
[0010]图6图示机器学习软件栈；
[0011]图7图示通用图形处理单元；
[0012]图8图示多GPU计算系统；
[0013]图9A
‑
图9B图示示例性深度神经网络的层；
[0014]图10图示示例性循环神经网络；
[0015]图11图示深度神经网络的训练和部署；
[0016]图12A是图示分布式学习的框图；
[0017]图12B是图示可编程网络接口和数据处理单元的框图；
[0018]图13图示适于使用经训练的模型执行推断的示例性推断芯片上系统(SOC)；
[0019]图14是处理系统的框图；
[0020]图15A
‑
图15C图示计算系统和图形处理器；
[0021]图16A
‑
图16C图示附加的图形处理器和计算加速器架构的框图；
[0022]图17是图形处理器的图形处理引擎的框图；
[0023]图18A
‑
图18B图示包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑；
[0024]图19图示附加的执行单元；
[0025]图20是图示图形处理器指令格式的框图；
[0026]图21是附加的图形处理器架构的框图；
[0027]图22A
‑
图22B图示图形处理器命令格式和命令序列；
[0028]图23图示用于数据处理系统的示例性图形软件架构；
[0029]图24A是图示IP核开发系统的框图；
[0030]图24B图示集成电路封装组件的横截面侧视图；
[0031]图24C图示封装组件，该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片(例如，基础管芯)；
[0032]图24D图示包括可互换小芯片的封装组件；
[0033]图25是图示示例性芯片上系统集成电路的框图；
[0034]图26A
‑
图26B是图示用于在SoC内使用的示例性图形处理器的框图；
[0035]图27A
‑
图27B是根据实施例的乱序和负载平衡过程的示例的过程；
[0036]图28是根据实施例的以乱序方式处理基元的方法的示例的流程图；
[0037]图29是根据实施例的在乱序和有序像素着色之间切换的方法的示例的流程图；
[0038]图30是根据实施例的执行乱序像素着色的方法的示例的流程图；
[0039]图31是根据实施例的绕过栅格顺序的方法的示例的流程图；
[0040]图32是根据实施例的图形处理架构的示例的图；
[0041]图33是根据实施例的可在有序处理和乱序处理之间切换的图形处理架构的示例的图；以及
[0042]图34是根据实施例的性能增强的计算系统的示例的框图。
具体实施方式
[0043]图形处理单元(GPU)通信地耦合至主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作、和/或各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如，诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核。替代地，GPU可集成在与核相同的封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合至核。无论GPU被连接所采取的方式如何，处理器核都可将工作以工作描述符中所包含的命令/指令序列的形式分配给GPU。GPU随后使用专用电路/逻辑来高效地处理这些命令/指令。
[0044]在以下描述中，陈述了众多特定细节以提供更透彻的理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些特定细节中的一个或多个细节的情况下实践本文中描述的实施例。在其他实例中，未描述公知的特征以免混淆当前实施例的细节。系统概览
[0045]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101，该处理子系统具有经由互连路径通信的一个
或多个处理器102和系统存储器104，该互连路径可包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独部件，或者可被集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,该I/O中枢107可使计算系统100能够从一个或多个输入设备108接收输入。此外，I/O中枢107可使显示控制器(其可被包括在一个或多个处理器102中)将输出提供给一个或多个显示设备110A。在一个实施例中，与I/O中枢107耦合的一个或多个显示设备110A可包括本地的、内部的、或嵌入式的显示设备。
[0046]处理子系统101例如包括经由总线或其他通信链路113耦合至存储器中枢105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议中的一种，诸如但不限于PCI Express(PCI快捷)，或者可以是供应方特定的通信接口或通信结构。一个或多个并行处理器112可形成可包括大量处理核和/或处理集群的计算集中的并行或向量处理系统，诸如，集成众核(MIC)处理器。例如，一个或多个并行处理器112形成图形处理子系统，该图形本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算系统，包括：显示器，用于呈现图像；以及图形处理器，耦合至所述显示器，其中，所述图形处理器包括耦合至一个或多个衬底的逻辑，所述逻辑用于：确定多个基元的状态用于与乱序执行相关联，其中所述多个基元与栅格顺序相关联；根据所述栅格顺序对所述多个基元重新排序；以及分发与所述多个基元相关联的像素处理操作或栅格化操作中的一个或多个操作，以跨所述图形处理器的多个执行单元中的一个或多个执行单元或跨所述图形处理器的图形流水线进行负载平衡。2.如权利要求1所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：分发与所述多个基元相关联的所述像素处理操作或所述栅格化操作中的一个或多个操作，而不考虑与所述多个基元相关联的屏幕空间。3.如权利要求2所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：响应于所述多个基元的所述状态与所述乱序执行相关联，将与所述有序执行相关联的基元从所述多个执行单元中的所述一个或多个执行单元或从所述图形流水线转储清除。4.如权利要求1所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：标识来自与所述多个基元相关联的应用的提示；以及基于所述提示确定将启用所述乱序执行。5.如权利要求4所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：绕过所述栅格顺序以执行所述乱序执行，其中所述栅格顺序由所述应用确定。6.如权利要求4所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：确定多个像素值；发射所述多个像素值中的与第一像素位置相关联的第一像素值，其中所述第一像素值与所述多个基元中的第一基元相关联；以及在所述第一像素值被发射之后，发射所述多个像素值中的与所述第一像素位置相关联的第二像素值，其中所述第二像素值与所述多个基元中的第二基元相关联，其中所述栅格顺序用于指示所述第二基元将在所述第一基元之前发射。7.如权利要求6所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：禁用用于跟踪所述多个像素值之间的依赖关系的依赖关系跟踪操作。8.如权利要求1至权利要求7中任一项所述的计算系统，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：分发与所述多个基元相关联的几何处理操作，以跨所述多个执行单元中的所述一个或多个执行单元或跨所述图形流水线进行负载平衡。
9.一种半导体装置，包括：一个或多个衬底；以及逻辑，所述逻辑耦合至所述一个或多个衬底，其中所述逻辑至少部分地在可配置硬件逻辑或固定功能硬件逻辑中的一者或多者中实现，耦合至所述一个或多个衬底的所述逻辑用于：确定多个基元的状态用于与乱序执行相关联，其中所述多个基元与栅格顺序相关联；根据所述栅格顺序对所述多个基元重新排序；以及分发与所述多个基元相关联的像素处理操作或栅格化操作中的一个或多个操作，以跨图形处理器的多个执行单元中的一个或多个执行单元或跨所述图形处理器的图形流水线进行负载平衡。10.如权利要求9所述的半导体装置，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：分发与所述多个基元相关联的所述像素处理操作或所述栅格化操作中的一个或多个操作，而不考虑与所述多个基元相关联的屏幕空间。11.如权利要求10所述的半导体装置，其特征在于，耦合至所述一个或多个衬底的所述逻辑用于：响应于所述多个基元的所述状态与所述乱序执行相关联，将与所述有序执行相关联的基元从所述多个执行单元中的所述一个或多个执行单元...

【专利技术属性】
技术研发人员：P，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人