当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用带有反馈输入的脉动阵列的可缩放稀疏矩阵乘法加速制造技术

技术编号:30655193 阅读:27 留言:0更新日期:2021-11-06 08:22
本文中描述了一种加速器设备,其包括:主机接口;与主机接口耦合的结构互连;以及与结构互连耦合的一个或多个硬件片,该一个或多个硬件片包括稀疏矩阵乘法加速硬件,该稀疏矩阵乘法加速硬件包括带有反馈的输入脉动阵列。乘法加速硬件包括带有反馈的输入脉动阵列。乘法加速硬件包括带有反馈的输入脉动阵列。

【技术实现步骤摘要】
使用带有反馈输入的脉动阵列的可缩放稀疏矩阵乘法加速
[0001]交叉引用
[0002]本申请要求2020年5月5日提交的印度临时专利申请号202041019059的优先权,该专利申请据此通过引用纳入本文。

技术介绍

[0003]机器学习工作负荷中使用的脉动矩阵乘法具有很大比例的零(稀疏数据工作负荷)。这些零的乘法操作可被跳过,从而提高整体性能。当前的脉动架构可以为工作负荷中的稀疏性提供支持,但是这样的架构可能无法优美地(gracefully)缩放。
附图说明
[0004]因此,为了可详细地理解上文陈述的当前实施例的特征的方式,可参照实施例进行对上文简要概述的实施例的更特定的描述,在所附附图中图示实施例中的一些。然而,应注意的是,所附附图仅图示典型实施例,并且因此不应视为限制实施例的范围。
[0005]图1是根据实施例的处理系统的框图;
[0006]图2A

图2D图示由本文中描述的实施例提供的计算系统和图形处理器;
[0007]图3A

图3C图示由本文中描述的实施例提供的附加的图形处理器和计算加速器架构的框图;
[0008]图4是根据一些实施例的图形处理器的图形处理引擎410的框图;
[0009]图5A

图5B图示根据本文中描述的实施例的线程执行逻辑,该线程执行逻辑包括在图形处理器核中采用的处理元件的阵列;
[0010]图6图示根据实施例的附加的执行单元;
[0011]图7是图示根据一些实施例的图形处理器指令格式的框图;
[0012]图8是根据另一实施例的图形处理器的框图;
[0013]图9A

图9B图示根据一些实施例的图形处理器命令格式和命令序列;
[0014]图10图示根据一些实施例的用于数据处理系统的示例性图形软件架构;
[0015]图11A是图示根据实施例的IP核开发系统的框图;
[0016]图11B图示根据本文中描述的一些实施例的集成电路封装组件的截面侧视图;
[0017]图11C图示封装组件,该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片;
[0018]图11D图示根据实施例的包括可互换小芯片的封装组件;
[0019]图12是图示根据实施例的可以使用一个或多个IP核来制造的示例性芯片上系统集成电路的框图;
[0020]图13A

图13B是图示根据本文中所描述的实施例的用于在SoC内使用的示例性图形处理器的框图;
[0021]图14是根据实施例的数据处理系统的框图;
[0022]图15图示根据实施例的由指令流水线执行的矩阵操作;
[0023]图16图示以流水线化的(pipelined)方式组织的乘法器/加法器电路的脉动阵列;
[0024]图17A

图17B图示使用深度为四的脉动阵列来计算具有八个脉动级的等效阵列;
[0025]图18A

图18B图示脉动架构的时序图;
[0026]图19图示两路径矩阵乘法加速器,其上的每条路径具有四级深度;
[0027]图20图示四路径矩阵乘法加速器,其上的每条路径具有两级深度。
[0028]图21图示使用带有反馈输入的脉动阵列的可缩放稀疏矩阵乘法加速器;
[0029]图22图示包括稀疏数据的Src2输入;
[0030]图23图示在每个级上使用带有反馈输入和输出的脉动阵列的可缩放稀疏矩阵乘法加速器;
[0031]图24图示在本文所述的可缩放稀疏矩阵乘法加速器上执行操作的方法;
[0032]图25图示使用稀疏Src2输入矩阵来执行矩阵乘法操作的方法;以及
[0033]图26是根据实施例的包括图形处理器的计算设备的框图。
具体实施方式
[0034]本文描述了用于使用带有反馈输入的脉动阵列来实现可缩放稀疏矩阵乘法加速的设备、系统和方法。
[0035]出于解释的目的,陈述了众多特定细节以提供对下文描述的各实施例的透彻理解。然而,对于本领域的技术人员将显而易见的是,可以在没有这些特定细节中的一些细节的情况下实践实施例。在其他实例中,以框图形式图示公知的结构和设备,以避免使基本原理变得含糊,并且提供对实施例的更透彻的理解。虽然以下实施例中的一些实施例参照图形处理器来描述,但是本文中描述的技术和教导可应用于各种类型的电路或半导体设备,包括通用处理设备或图形处理设备。本文中提到“一个实施例”或“实施例”指示结合或关联于该实施例所描述的特定特征、结构或特性可以被包括在此类实施例中的至少一个实施例中。然而,在本说明书中的不同位置出现短语“在一个实施例中”不一定全都是指同一个实施例。
[0036]在以下说明书和权利要求书中,可使用术语“耦合的”和“连接的”及其衍生词。应当理解,这些术语并不旨在作为彼此的同义词。“耦合的”用于指示彼此可以或可以不直接物理接触或电气接触的两个或更多个元件彼此协作或相互作用。“连接的”用于指示彼此耦合的两个或更多个元件之间的通信的建立。
[0037]在以下说明书中,图1到图13A-图13B提供涵盖各实施例或与各实施例相关的示例性数据处理系统和图形处理器逻辑的概览。图14

图26提供各实施例的特定细节。以下实施例的一些方面参照图形处理器来描述,而其他方面参照诸如中央处理单元(CPU)之类的通用处理器来描述。类似的技术和教导可应用于其他类型的电路或半导体设备,包括但不限于集成众核处理器、GPU集群、或现场可编程门阵列(FPGA)的一个或多个实例。一般而言,各教导适用于操纵或处理图像(例如,样本、像素)、顶点数据、或几何数据的,或执行针对机器学习和高性能计算应用的并行处理操作的任何处理器或机器。
[0038]图1是根据实施例的处理系统100的框图。系统100可被用在以下各项中:单处理器台式机系统、多处理器工作站系统、或具有大量处理器102或处理器核107的服务器系统。在一个实施例中,系统100是被并入在芯片上系统(SoC)集成电路内的处理平台,该芯片上系统(SoC)集成电路用于在移动设备、手持式设备或嵌入式设备中使用,诸如,用于在具有至
局域网或广域网的有线或无线连接性的物联网(IoT)设备内使用。
[0039]在一个实施例中,系统100可包括以下各项,可与以下各项耦合,或可并入在以下各项内:基于服务器的游戏平台、包括游戏和媒体控制台的游戏控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动互联网连接的设备(诸如,具有低内部存储容量的笔记本)的部分。处理系统100也可包括以下各项,与以下各项耦合,或被集成在以下各项内:可穿戴设备,诸如,智能手表可穿戴设备;利用增强现实(AR)或虚拟现实(VR)特征来增强以提供视觉、音频或触觉输出来补充现实世界视觉、音频或触觉体验或以其他方式提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种并行处理器,包括:解码单元,用于将指令解码成经解码的指令,其中,所述经解码的指令是执行并行点积操作的指令;以及流水线化的脉动点积单元,用于经由脉动处理流水线的多个流水线级执行所述经解码的指令,其中,在执行所述经解码的指令期间,在第一流水线级处计算的点积被配置成经由输出硬件被可选择地写入从输出存储器和第二流水线级之一选择的位置,并且在第三流水线级处计算的点积被配置成经由输出硬件被可选择地写入从所述输出存储器和所述第一流水线级之一选择的位置。2.如权利要求1所述的并行处理器,其特征在于,所述经解码的指令与第一源操作数以及第二源操作数相关联,所述第一源操作数是对存储第一矩阵的多个数据元素的存储器的引用,并且所述第二操作数是对存储第二矩阵的多个数据元素的存储器的引用。3.如权利要求2所述的并行处理器,其特征在于,附加地包括硬件电路,用于:基于所述第一源操作数,将所述第一矩阵的所述多个数据元素读取到所述脉动点积单元的存储器中;以及基于所述第二源操作数,将所述第二矩阵的所述多个数据元素读取到所述脉动点积单元的存储器中。4.如权利要求3所述的并行处理器,其特征在于,附加地包括:硬件电路,所述硬件电路用于检测所述第二矩阵的所述多个数据元素内的非零值,并将所述第二矩阵的所述多个数据元素内的检测到的非零值分组到包括一个或多个数据的组中。5.如权利要求4所述的并行处理器,其特征在于,所述组包括与所述脉动处理流水线的流水线级的数量相对应的数据元素数量。6.如权利要求5所述的并行处理器,其特征在于,附加地包括硬件电路,用于:将所述组的第一数据元素提供给第一流水线级;以及将所述组的第二数据元素提供给第二流水线级。7.如权利要求6所述的并行处理器,其特征在于,第三流水线级是所述第二流水线级,并且所述脉动处理流水线包括两个流水线级。8.如权利要求6所述的并行处理器,其特征在于,附加地包括所述第二流水线级和第三流水线级之间的第四流水线级,并且其中,所述脉动处理流水线包括四个流水线级。9.如权利要求6所述的并行处理器,其特征在于,附加地包括硬件电路,用于:将所述第一矩阵的第一组多个数据元素提供给所述第一流水线级;以及将所述第二矩阵的第二组多个数据元素提供给所述第二流水线级。10.如权利要求1-9中任一项所述的并行处理器,其特征在于,所述脉动处理流水线是第一脉动处理流水线,并且所述流水线化的脉动点积单元包括第二脉动处理流水线。11.如权利要求10所述的并行处理器,其特征在于,所述第一脉动处理流水线和所述第二脉动处理流水线的每个流水线级包括一个或多个处理元件,每个处理元件包括多个并行的处理器通道,并且每个并行的处理器通道能配置成对具有多个数据元素的向量执行操作。12.一种加速器设备,包括:主机接口;
结构互连,与所述主机接口耦合;以及一个或多个硬件片,与所述结构互连耦合,所述一个或多个硬件片包括稀疏矩阵乘法加速硬件,所述稀疏矩阵乘法加速硬件包括带有反馈输入的模块化脉动处理阵列,所述模块化脉动处理阵列包括具有第一数量的流水线路径的一个或...

【专利技术属性】
技术研发人员:S
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1