当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用稀疏度元数据降低脉动阵列功耗制造技术

技术编号:36105910 阅读:8 留言:0更新日期:2022-12-28 14:06
本申请公开了使用稀疏度元数据降低脉动阵列功耗。一种处理装置可包括通用并行处理引擎,该通用并行处理引擎包括矩阵加速器,该矩阵加速器包括多级脉动阵列,其中,每个级包括与多个处理通道相关联的多个处理元件。多个处理元件配置成用于:接收独立于输入矩阵元素的输入稀疏度的输出稀疏度元数据,并且基于输出稀疏度元数据对输入矩阵元素执行处理操作。稀疏度元数据对输入矩阵元素执行处理操作。稀疏度元数据对输入矩阵元素执行处理操作。

【技术实现步骤摘要】
使用稀疏度元数据降低脉动阵列功耗


[0001]本公开总体上关于数据处理,并且更具体地关于经由并行图形处理单元的矩阵加速器进行的数据处理。

技术介绍

[0002]并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,这些特定操作诸如例如,线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统意义上而言,图形处理器使用固定功能计算单元来处理图形数据。更最近地,已使图形处理器的多个部分可编程,使得此类处理器能够支持更广泛种类的操作以处理顶点数据和片段数据。可编程图形处理器已经适于执行通用数值计算应用,诸如,高性能计算(HPC)、深度学习(例如,人工神经网络和相关的机器学习算法的研究)和数字信号处理(DSP)。这些通用数值计算应用广泛地应用矩阵乘法计算。相应地,并行图形数据处理单元的可编程部分已经适于包括配置成用于执行高吞吐量矩阵操作(包括矩阵乘法和加法操作或点积操作)的处理资源和/或功能单元。
附图说明
[0003]在所附附图中以示例方式而非限制方式来图示本专利技术,在附图中,类似的附图标记指示类似的要素,其中:
[0004]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图;
[0005]图2A

图2D图示并行处理器部件;
[0006]图3A

图3C是图形多处理器和基于多处理器的GPU的框图;
[0007]图4A

图4F图示在其中多个GPU通信地耦合至多个多核处理器的示例性架构;
[0008]图5图示图形处理流水线;
[0009]图6图示机器学习软件栈;
[0010]图7图示通用图形处理单元;
[0011]图8图示多GPU计算系统;
[0012]图9A

图9B图示示例性深度神经网络的层;
[0013]图10图示示例性循环神经网络;
[0014]图11图示深度神经网络的训练和部署;
[0015]图12A是图示分布式学习的框图;
[0016]图12B是图示可编程网络接口和数据处理单元的框图;
[0017]图13图示适于使用经训练的模型执行推断的示例性推断芯片上系统(SOC);
[0018]图14是处理系统的框图;
[0019]图15A

图15C图示计算系统和图形处理器;
[0020]图16A

图16C图示附加的图形处理器和计算加速器架构的框图;
[0021]图17是图形处理器的图形处理引擎的框图;
[0022]图18A

图18B图示包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑;
[0023]图19图示附加的执行单元;
[0024]图20是图示图形处理器指令格式的框图;
[0025]图21是附加的图形处理器架构的框图;
[0026]图22A

图22B图示图形处理器命令格式和命令序列;
[0027]图23图示用于数据处理系统的示例性图形软件架构;
[0028]图24A是图示IP核开发系统的框图;
[0029]图24B图示集成电路封装组件的横截面侧视图;
[0030]图24C图示封装组件,该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片(例如,基础管芯);
[0031]图24D图示包括可互换小芯片的封装组件;
[0032]图25是图示示例性芯片上系统集成电路的框图;
[0033]图26A

图26B是图示用于在SoC内使用的示例性图形处理器的框图;
[0034]图27是根据实施例的数据处理系统的框图;
[0035]图28A

图28B图示根据实施例的由指令流水线执行的矩阵操作;
[0036]图29图示包括以流水线化的方式组织的乘法器电路和加法器电路的脉动阵列;
[0037]图30A

图30B包括对配置成用于以任意脉动深度执行操作的脉动阵列的使用;
[0038]图31图示两路径矩阵乘法加速器,其中每个路径具有四个级的深度;
[0039]图32图示四路径矩阵乘法加速器,其中每个路径具有两个级的深度;
[0040]图33图示使用具有反馈输入的脉动阵列的可缩放稀疏矩阵乘法加速器;
[0041]图34图示在每个级上使用具有反馈输入和输出的脉动阵列的可缩放稀疏矩阵乘法加速器;
[0042]图35A

图35B图示使用输出稀疏度元数据来禁用脉动阵列的处理通道;
[0043]图36图示用于包括半精度矩阵元素的矩阵乘法操作的元数据;
[0044]图37图示按矩阵形式被描绘并被描绘为存储在元数据寄存器内的元数据;
[0045]图38图示具有结构化输出稀疏度支持的处理元件;
[0046]图39A

图39B图示在输出稀疏度被启用时在指令执行的周期0和周期1处的处理元件的快照;
[0047]图40是由脉动阵列使用输出稀疏度元数据执行以降低功耗的方法的流程图;
[0048]图41图示使用输出稀疏度执行用于机器学习模型的处理操作的方法;
[0049]图42是基于稀疏度百分比来生成输出稀疏度元数据的方法的流程图;以及
[0050]图43是根据实施例的包括图形处理器的计算设备的框图。
具体实施方式
[0051]图形处理单元(GPU)通信地耦合至主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作、和/或各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核。替代地,GPU可集成在与核
相同的封装或芯片上,并且通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合至核。无论GPU被连接所采取的方式如何,处理器核都可将工作以工作描述符中所包含的命令/指令序列的形式分配给GPU。GPU随后使用专用电路/逻辑来高效地处理这些命令/指令。
[0052]当前的并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,这些特定操作诸如例如,线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统意义上而言,图形处理器使用固定功能计算单元来处理图形数据。然而,更最近地,已使图形处理器的多个部分可编程,使得此类处理器能够支持更广泛种类的操作以处理顶点数据和片段数据。
[0053]为了进一步提升性能,图形处理器典型地实现诸如流水线化的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMT架构中,成组的并行线程尝试尽可能频繁地一起同步地执行程序指令以提高处理效率。可在Shan本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具有降低的脉动阵列功耗的处理装置,所述处理装置包括:通用并行处理引擎,包括矩阵加速器,所述矩阵加速器包括一个或多个脉动阵列,所述一个或多个脉动阵列中的至少一个脉动阵列包括多个流水线级,所述多个流水线级中的每个流水线级包括多个处理元件,所述多个处理元件与多个处理通道相关联,其中,所述多个处理元件配置成用于:在第一流水线级处接收输出稀疏度元数据,所述输出稀疏度元数据与所述多个处理通道相关联,其中,所述输出稀疏度元数据独立于输入矩阵元素的输入稀疏度;基于所述输出稀疏度元数据对所述输入矩阵元素执行处理操作,其中,执行所述处理操作包括:在与第一处理通道相关联的第一处理元件处绕过乘法,并对所述第一处理元件的部分进行功率门控;以及在与第二处理通道相关联的第二处理元件处将输入元素相乘。2.如权利要求1所述的处理装置,其中,对所述第一处理元件的部分进行功率门控包括:对处理元件的乘法器进行功率门控。3.如权利要求2所述的处理装置,其中,对所述第一处理元件的部分进行功率门控附加地包括:对所述处理元件的加法器进行功率门控。4.如权利要求1或2所述的处理装置,其中,所述多个处理元件中的每个处理元件包括与累加器值相关联的第一源输入、与第一矩阵相关联的第二源输入、以及与第二矩阵相关联的第三源输入。5.如权利要求4所述的处理装置,其中,在所述第一处理元件处绕过乘法包括:输出在所述第一源输入处接收的所述累加器值。6.如权利要求1

5中的任一项所述的处理装置,其中,执行所述处理操作包括:将在所述第一流水线级处接收的所述输出稀疏度元数据传播到第二流水线级,并且根据所述输出稀疏度元数据处理所述多个处理通道的输入元素。7.如权利要求6所述的处理装置,其中,所述输出稀疏度元数据包括与所述多个处理通道中的每个处理通道相关联的位。8.如权利要求7所述的处理装置,其中,所述输出稀疏度元数据附加地包括与输入矩阵的多个行中的每一行相关联的位。9.如权利要求8所述的处理装置,其中,在第一处理周期中,所述输出稀疏度元数据用于指示所述第一处理元件将第二矩阵的输入元素与第一矩阵的输入元素相乘,并且在第二处理周期中,所述输出稀疏度元数据用于指示所述第一处理元件绕过针对所述输入元素的乘法操作。10.一种使用稀疏度元数据来降低脉动阵列功耗的方法,所述方法包括:在图形处理器的处理资源处取出指令,所述指令用于执行与指定用于输出稀疏度的元数据的矩阵指令相关联的操作;将所述指令解码为经解码的指令;从所述处理资源的寄存器堆读取用于所述经解码的指令的操作数数据,所述操作数数据包括矩阵元素和所述元数据,其中,所述元数据独立于所述矩阵元素的输入稀疏度;经由包括多个流水线级的脉动阵列的矩阵加速器、通过以下步骤来执行所述经解码的
指令:根据所述元数据对与第一通道相关联的矩阵元素执行乘法累加操作,并且绕过对与第二通道相关联的所述矩阵元素的所述乘法累加操作;以及将所述乘法累加操作的输出写入到所述寄存器堆。11.如权利要求10所述的方法,其中,绕过对与所述第二通道相关联的所述矩阵元素的所述乘法累加操作包括:对与所述第二通道相关联的处理元件的乘法器...

【专利技术属性】
技术研发人员:J
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1