【技术实现步骤摘要】
使用稀疏度元数据降低脉动阵列功耗
[0001]本公开总体上关于数据处理,并且更具体地关于经由并行图形处理单元的矩阵加速器进行的数据处理。
技术介绍
[0002]并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,这些特定操作诸如例如,线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统意义上而言,图形处理器使用固定功能计算单元来处理图形数据。更最近地,已使图形处理器的多个部分可编程,使得此类处理器能够支持更广泛种类的操作以处理顶点数据和片段数据。可编程图形处理器已经适于执行通用数值计算应用,诸如,高性能计算(HPC)、深度学习(例如,人工神经网络和相关的机器学习算法的研究)和数字信号处理(DSP)。这些通用数值计算应用广泛地应用矩阵乘法计算。相应地,并行图形数据处理单元的可编程部分已经适于包括配置成用于执行高吞吐量矩阵操作(包括矩阵乘法和加法操作或点积操作)的处理资源和/或功能单元。
附图说明
[0003]在所附附图中以示例方式而非限制方式来图示本专利技术,在附图中,类似的附图标记指示类似的要素,其中:
[0004]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图;
[0005]图2A
‑
图2D图示并行处理器部件;
[0006]图3A
‑
图3C是图形多处理器和基于多处理器的GPU的框图;
[0007]图4A
‑
图4F图示在其中多个GPU通信地耦合至多个多核处理器的示例性架构; ...
【技术保护点】
【技术特征摘要】
1.一种具有降低的脉动阵列功耗的处理装置,所述处理装置包括:通用并行处理引擎,包括矩阵加速器,所述矩阵加速器包括一个或多个脉动阵列,所述一个或多个脉动阵列中的至少一个脉动阵列包括多个流水线级,所述多个流水线级中的每个流水线级包括多个处理元件,所述多个处理元件与多个处理通道相关联,其中,所述多个处理元件配置成用于:在第一流水线级处接收输出稀疏度元数据,所述输出稀疏度元数据与所述多个处理通道相关联,其中,所述输出稀疏度元数据独立于输入矩阵元素的输入稀疏度;基于所述输出稀疏度元数据对所述输入矩阵元素执行处理操作,其中,执行所述处理操作包括:在与第一处理通道相关联的第一处理元件处绕过乘法,并对所述第一处理元件的部分进行功率门控;以及在与第二处理通道相关联的第二处理元件处将输入元素相乘。2.如权利要求1所述的处理装置,其中,对所述第一处理元件的部分进行功率门控包括:对处理元件的乘法器进行功率门控。3.如权利要求2所述的处理装置,其中,对所述第一处理元件的部分进行功率门控附加地包括:对所述处理元件的加法器进行功率门控。4.如权利要求1或2所述的处理装置,其中,所述多个处理元件中的每个处理元件包括与累加器值相关联的第一源输入、与第一矩阵相关联的第二源输入、以及与第二矩阵相关联的第三源输入。5.如权利要求4所述的处理装置,其中,在所述第一处理元件处绕过乘法包括:输出在所述第一源输入处接收的所述累加器值。6.如权利要求1
‑
5中的任一项所述的处理装置,其中,执行所述处理操作包括:将在所述第一流水线级处接收的所述输出稀疏度元数据传播到第二流水线级,并且根据所述输出稀疏度元数据处理所述多个处理通道的输入元素。7.如权利要求6所述的处理装置,其中,所述输出稀疏度元数据包括与所述多个处理通道中的每个处理通道相关联的位。8.如权利要求7所述的处理装置,其中,所述输出稀疏度元数据附加地包括与输入矩阵的多个行中的每一行相关联的位。9.如权利要求8所述的处理装置,其中,在第一处理周期中,所述输出稀疏度元数据用于指示所述第一处理元件将第二矩阵的输入元素与第一矩阵的输入元素相乘,并且在第二处理周期中,所述输出稀疏度元数据用于指示所述第一处理元件绕过针对所述输入元素的乘法操作。10.一种使用稀疏度元数据来降低脉动阵列功耗的方法,所述方法包括:在图形处理器的处理资源处取出指令,所述指令用于执行与指定用于输出稀疏度的元数据的矩阵指令相关联的操作;将所述指令解码为经解码的指令;从所述处理资源的寄存器堆读取用于所述经解码的指令的操作数数据,所述操作数数据包括矩阵元素和所述元数据,其中,所述元数据独立于所述矩阵元素的输入稀疏度;经由包括多个流水线级的脉动阵列的矩阵加速器、通过以下步骤来执行所述经解码的
指令:根据所述元数据对与第一通道相关联的矩阵元素执行乘法累加操作,并且绕过对与第二通道相关联的所述矩阵元素的所述乘法累加操作;以及将所述乘法累加操作的输出写入到所述寄存器堆。11.如权利要求10所述的方法,其中,绕过对与所述第二通道相关联的所述矩阵元素的所述乘法累加操作包括:对与所述第二通道相关联的处理元件的乘法器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。