当前位置: 首页 > 专利查询>英特尔公司专利>正文

大规模矩阵重构和矩阵-标量操作制造技术

技术编号:33074658 阅读:56 留言:0更新日期:2022-04-15 10:10
本申请公开了大规模矩阵重构和矩阵

【技术实现步骤摘要】
大规模矩阵重构和矩阵

标量操作
政府权利声明
[0001]本专利技术是在由DARPA授予的合同号HR0011

17
‑3‑
0004的政府支持下进行的。政府具有本专利技术中的特定权利。


[0002]本专利技术的领域一般涉及计算机处理器架构,更具体地涉及处理矩阵数据。

技术介绍

[0003]在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。
[0004]用于深度学习的两种工具推理和训练正趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以辅助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。
[0005]矩阵

矩阵乘法(也称为GEMM或通用矩阵乘法)是在当今处理器上的常见的重计算操作。用于矩阵乘法(例如,GEMM)的特殊硬件是用于改善诸如深度学习之类的某些应用的峰值计算(和能效)的好的选项。只要输出元素具有足够的位(即,多于输入),这些应用中的一些,包括深度学习,就可以对具有相对少的位的输入数据元素进行操作而不损失准确度。
附图说明
[0006]在所附附图中以示例方式而非限制方式来图示本专利技术,在附图中,类似的附图标记指示类似的要素,其中:
[0007]图1A图示经配置的片的实施例;
[0008]图1B图示经配置的片的实施例;
[0009]图2图示矩阵存储的若干示例;
[0010]图3图示利用矩阵(片)操作加速器的系统的实施例;
[0011]图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例;
[0012]图6图示使用片的矩阵乘法累加操作(“TMMA”)的实施例;
[0013]图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0014]图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0015]图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0016]图10图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0017]图11图示根据实施例的尺寸为2的幂的SIMD实现方式,其中,累加器使用比至乘法器的输入的尺寸大的输入尺寸;
[0018]图12图示利用矩阵操作电路的系统的实施例;
[0019]图13图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
[0020]图14图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
[0021]图15图示按行为主格式和列为主格式表达的矩阵的示例;
[0022]图16图示矩阵(片)的使用的示例;
[0023]图17图示矩阵(片)的使用的方法的实施例;
[0024]图18图示根据实施例的对片的使用的配置的支持;
[0025]图19图示将支持的矩阵(片)的描述的实施例;
[0026]图20(A)

图20(D)图示(多个)寄存器的示例;
[0027]图21图示根据一些实施例的3x4矩阵和存储器中的对应的组织;
[0028]图22图示根据一些实施例的被转换为4x4矩阵的3x4矩阵和对应的存储器组织;
[0029]图23A图示根据一些实施例的dma.copy指令,其中2x4矩阵被复制为3x4矩阵;
[0030]图23B示出根据一些实施例的用于dma.copy指令的伪代码;
[0031]图23C图示根据一些实施例的用于矩阵复制的方法;
[0032]图24是根据一些实施例的硬件的框图;
[0033]图25A

图25B是图示根据实施例的通用向量友好指令格式及其指令模板的框图;
[0034]图25A是图示根据实施例的通用向量友好指令格式及其A类指令模板的框图;
[0035]图25B是图示根据实施例的通用向量友好指令格式及其B类指令模板的框图;
[0036]图26A是图示根据实施例的示例性专用向量友好指令格式的框图;
[0037]图26B是图示根据一个实施例的构成完整操作码字段的具有专用向量友好指令格式的字段的框图;
[0038]图26C是图示根据一个实施例的构成寄存器索引字段的具有专用向量友好指令格式的字段的框图;
[0039]图26D是图示根据一个实施例的构成扩充操作字段的具有专用向量友好指令格式的字段的框图;
[0040]图27是根据一个实施例的寄存器架构的框图;
[0041]图28A是图示根据实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图;
[0042]图28B是图示根据实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图;
[0043]图29A

图29B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核);
[0044]图29A是根据实施例的单个处理器核以及它与管芯上互连网络的连接及其第二级(L2)高速缓存的本地子集的框图;
[0045]图29B是根据实施例的图29A中的处理器核的一部分的展开图;
[0046]图30是根据实施例的可具有超过一个的核、可具有集成存储器控制器、并且可具有集成图形器件的处理器的框图;
[0047]图31

图34是示例性计算机架构的框图;
[0048]图31示出根据本专利技术的一个实施例的系统的框图;
[0049]图32是根据本专利技术的实施例的第一更具体的示例性系统的框图;
[0050]图33是根据本专利技术的实施例的第二更具体的示例性系统的框图;
[0051]图34是根据本专利技术的实施例的芯片上系统(SoC)的框图;以及
[0052]图35是根据实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
[0053]在下列描述中,阐述了众多特定细节。然而,应当理解,实施例可在没有这些特定细节的情况下实施。在其他实例中,未详细示出公知的电路、结构和技术,以免使对本描述的理解模糊。
[0054]说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表明所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例可能不一定都包括该特定的特征、结构或特性。此外,此类短语不一定是指同一个实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合无论是否被明确描述的其他实施例而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于矩阵重构的装置,包括:硬件指令解码器,用于对单条指令解码,所述单条指令具有用于引用源矩阵的第一表示的基址的第一操作数和用于引用目的地矩阵的第二表示的基址的第二操作数;以及执行电路,用于执行与所述单条指令对应的一个或多个操作,包括:将所述源矩阵的元素复制到所述目的地矩阵中的对应的元素位置;以及利用单个值填充所述目的地矩阵的空元素位置。2.如权利要求1所述的装置,其中,所述单条指令还具有第三操作数,所述第三操作数具有用于指定所述源矩阵的第一行数的第一字段。3.如权利要求2所述的装置,其中,所述第三操作数还具有用于指定所述目的地矩阵的第二行数的第二字段。4.如权利要求1所述的装置,其中,所述单条指令还具有第三操作数,所述第三操作数具有用于指定所述源矩阵的第一列数的第一字段。5.如权利要求4所述的装置,其中,所述第三操作数还具有用于指定所述目的地矩阵的第二列数的第二字段。6.如权利要求1所述的装置,其中,所述单条指令还用于指定所述单个值。7.如权利要求1所述的装置,其中,所述单条指令还用于指定每个元素的尺寸。8.如权利要求1所述的装置,其中,所述单条指令还用于指定用于在复制到所述目的地矩阵之前对所述源矩阵的每个元素执行的操作。9.如权利要求8所述的装置,其中,所述操作用于使用要由所述指令指定的标量值来对所述源矩阵的每个元素执行。10.一种用于矩阵重构的装置,包括:硬件指令解码器,用于对单条指令解码,所述单条指令具有用于引用源矩阵的第一表示的基址的第一操作数和用于引用目的地矩阵的第二表示的基址的第二操作数;以及执行电路,用于执行与所述单条指令对应的一个或多个操作,包括:利用基于来自所述源矩阵的对应的位置的源元素值的目的地元...

【专利技术属性】
技术研发人员:R
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1