大规模矩阵重构和矩阵-标量操作制造技术

技术编号：33074658 阅读：56 留言：0更新日期：2022-04-15 10:10

本申请公开了大规模矩阵重构和矩阵

全部详细技术资料下载

【技术实现步骤摘要】
大规模矩阵重构和矩阵
‑
标量操作
政府权利声明
[0001]本专利技术是在由DARPA授予的合同号HR0011
‑
17
‑3‑
0004的政府支持下进行的。政府具有本专利技术中的特定权利。

[0002]本专利技术的领域一般涉及计算机处理器架构，更具体地涉及处理矩阵数据。

技术介绍

[0003]在诸如机器学习和其他批量数据处理之类的许多计算任务中，矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。
[0004]用于深度学习的两种工具推理和训练正趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以辅助满足深度学习处理器的需求，深度学习处理器例如在数据中心中执行深度学习的那些处理器。
[0005]矩阵
‑
矩阵乘法(也称为GEMM或通用矩阵乘法)是在当今处理器上的常见的重计算操作。用于矩阵乘法(例如，GEMM)的特殊硬件是用于改善诸如深度学习之类的某些应用的峰值计算(和能效)的好的选项。只要输出元素具有足够的位(即，多于输入)，这些应用中的一些，包括深度学习，就可以对具有相对少的位的输入数据元素进行操作而不损失准确度。
附图说明
[0006]在所附附图中以示例方式而非限制方式来图示本专利技术，在附图中，类似的附图标记指示类似的要素，其中：
[0007]图1A...

【技术保护点】

【技术特征摘要】
1.一种用于矩阵重构的装置，包括：硬件指令解码器，用于对单条指令解码，所述单条指令具有用于引用源矩阵的第一表示的基址的第一操作数和用于引用目的地矩阵的第二表示的基址的第二操作数；以及执行电路，用于执行与所述单条指令对应的一个或多个操作，包括：将所述源矩阵的元素复制到所述目的地矩阵中的对应的元素位置；以及利用单个值填充所述目的地矩阵的空元素位置。2.如权利要求1所述的装置，其中，所述单条指令还具有第三操作数，所述第三操作数具有用于指定所述源矩阵的第一行数的第一字段。3.如权利要求2所述的装置，其中，所述第三操作数还具有用于指定所述目的地矩阵的第二行数的第二字段。4.如权利要求1所述的装置，其中，所述单条指令还具有第三操作数，所述第三操作数具有用于指定所述源矩阵的第一列数的第一字段。5.如权利要求4所述的装置，其中，所述第三操作数还具有用于指定所述目的地矩阵的第二列数的第二字段。6.如权利要求1所述的装置，其中，所述单条指令还用于指定所述单个值。7.如权利要求1所述的装置，其中，所述单条指令还用于指定每个元素的尺寸。8.如权利要求1所述的装置，其中，所述单条指令还用于指定用于在复制到所述目的地矩阵之前对所述源矩阵的每个元素执行的操作。9.如权利要求8所述的装置，其中，所述操作用于使用要由所述指令指定的标量值来对所述源矩阵的每个元素执行。10.一种用于矩阵重构的装置，包括：硬件指令解码器，用于对单条指令解码，所述单条指令具有用于引用源矩阵的第一表示的基址的第一操作数和用于引用目的地矩阵的第二表示的基址的第二操作数；以及执行电路，用于执行与所述单条指令对应的一个或多个操作，包括：利用基于来自所述源矩阵的对应的位置的源元素值的目的地元...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人