本发明专利技术涉及一种处理器,在其指令集中包括位矩阵乘法指令(sbmm),具有第一双精度操作数(A),表示要相乘的第一矩阵;第二操作数(B),明确指定任意两个单精度工作寄存器,所述两个单精度工作寄存器的联合内容表示待相乘的第二矩阵;以及目的参数(C),明确指定任意两个单精度工作寄存器,用于联合包含表示乘法运算结果的矩阵。
【技术实现步骤摘要】
本专利技术涉及具有数据重组功能的处理器,尤其涉及使用位矩阵乘法单元的处理 器。
技术介绍
位矩阵乘法单元("Bit-Matrix Multiply",BMM)能够实现重组指令单循环数据。 可具有多种类型的重组类型,实现处理数据单独位的重组。文章 中描述了 BMM单元的应用。 事实上,所使用的BMM操作器带有选定常数值的其中一个操作数,以定义在另一 操作数内容上的特定操作。为第一操作数选择的常数能够转置关联于第二操作数的矩阵 行,即转置由行表示的字段。为第二操作数选择的常数能够转置关联于第一操作数的矩阵 列,即根据应用到矩阵所有行的相同模式的位转置。 然而,当重组混合了多个矩阵数据时,BMM单元在有效性上具有限制。
技术实现思路
总体上提供一种处理器,在其指令集中包括:位矩阵乘法指令,具有表示待相乘的 第一矩阵的第一双精度操作数;第二操作数,明确指定任意两个单精度工作寄存器,其联合 内容表示待相乘的第二矩阵;以及目的参数,明确指定用于联合包含表示相乘结果的矩阵 的任意两个单精度工作寄存器。 所述处理器可包括单精度工作寄存器的寄存器文件(register file),配置来在 读取时联合双精度输出字段中的分别选定的两个寄存器的内容,并且在写入时将双精度输 入字段分到分别选定的两个寄存器中;位矩阵乘法单元,配置来接收以双精度字段形式的 两个被相乘矩阵并以双精度字段的形式将结果矩阵写入到寄存器文件;以及指令处理单 元,配置来执行位矩阵乘法器的指令: -直接提供第一操作数,作为位矩阵乘法单元的两个被乘数中的第一个被乘数, -使用第二操作数,以在寄存器文件中读取位矩阵乘法单元的第二个被乘数,以及 -使用目标参数,以将位矩阵乘法单元提供的结果写入到寄存器文件。 可以进一步设置位矩阵乘法单元以通过提供对应于相乘结果的转置矩阵的双精 度结果来响应位矩阵乘法指令的变化。 还可以提供一种位矩阵相乘的方法,包括以下步骤:用双精度字段表示位矩阵; 从在单精度工作寄存器的寄存器文件中读取分别选定的两个寄存器;联合已读的两个寄存 器内容以形成第一被乘矩阵;用第二被乘矩阵乘以第一被乘矩阵;将相乘结果分成两个单 精度字段;以及将两个单精度字段写入到寄存器文件的分别选定的两个寄存器中。 所述方法可以进一步包括以下步骤:在位矩阵乘法指令的第一操作数中直接定义 第二被乘矩阵;定义用于在位矩阵乘法指令的第二操作数中形成第一被乘矩阵的寄存器; 以及定义用于在位矩阵乘法指令的目标参数中包含(holding)相乘结果的寄存器。【附图说明】 通过以下仅以示例性目的并且如附图所示的本专利技术的具体实施例的描述,其他优 点以及特征变得更加清楚和明显,其中: 图1为设计用于处理8X8位矩阵的BMM单元的方框图; 图2示出了 BMM单元的操作; 图3为与特定结构的处理器寄存器文件相关联的BMM单元的方框图; 图4示出了来自两个数据包的交错字段的操作; 图5A到5C示出了执行用于处理图4的重组的特定BMM指令的不同阶段的数据; 图6示出了两个数据包的位交错操作;以及 图7A到7D示出了执行用于处理图6的重组的两个特定BMM指令的不同阶段的数 据。【具体实施方式】 图1为BMM单元的方框图。操作矩阵的形状总体是方形的并且符合由处理器管理 的精度格式中的一种。 下面以32位处理器作为例,支持32位"单"精度和64位"双"精度。在上下文中, 矩阵为8X8位矩阵,用双精度字段(64位)表示每个矩阵。 BMM单元接收代表两个8 X 8位被乘矩阵MATa和MATb的两个64位字段A和B。通 过硬连电缆电路MMULT将矩阵MATa和MATb相乘,以产生8X8位的结果矩阵MATc。通过 BMM单元提供以64位字段C的形式的矩阵MATc。 下面,考虑以下列方式存储形成表示矩阵的64位字段的字节:从矩阵的第一行到 第八行以权重增大的顺序进行排列,并且从矩阵的第一列到第八列以权重减小的顺序排列 每个字节的位。而且,如果用bji指示64位字段的权重i的字节的权重j的位,那么相应 的矩阵可表达为: 如前所示,其中一个操作数接收的常数定义操作在另一变化操作数上的重组。如 果BMM单元通过为操作数A选择常数来执行AXB乘法运算,定义与操作数B相关联的矩阵 行的重组,即形成操作数B的字节。通过选择用于操作数B的常数,定义与操作数A相关联 的矩阵列的重组。接下来以举例方式而考虑通过使用用于操作数A的常数进行处理的情 况。 特定常数与标识矩阵相关联,仅在第一对角线上包括1。对于表示64位操作数B 的8X8矩阵,例如用十六进制表达标识矩阵: MID = 0x80 40 20 10 08 04 02 01 常数的每一对数字代表字节或矩阵的行,对应于矩阵第一行的字节权重较小 (0x01) 〇 根据该常数MID,可组成定义任意字节转置操作的十六进制常数Μ0Ρ。考虑操作数 和结果的字节权重自右向左从〇值开始增加。此时,如果常数MOP的位置i包含值OxXY, 其中OxXY为常数MID的位置j的内容,操作产生结果C,其位置i的字节接收第二操作数B 的位置j上的字节。 图2通过一种实施例示出该功能。例如,第一操作数A接收常数Μ0Ρ,其权重为2 的字节包含值0x20。操作数B接收仏到B 7的八个字节。常数MOP中的值0x20的字节标识 标识矩阵MID中的权重5。在这种情况下,将操作数B的权重5的字节B5放置在结果C的 权重2处。 根据该方式,可定义多个有用常数,例如: 0x01 02 04 08 10 20 40 80 :将第二操作数B的字节顺序颠倒, 0x80 40 08 04 20 10 02 01 :将形成操作数B的两个32位字段的16位字段相交 错, 0x80 08 40 04 20 02 10 01 :交错两个形成操作数B的32位字段的字节等。 由此可以通过适当构建用于操作数A的常数MOP进行相同操作数B中的所有字节 重组。然而,存在希望重组不适用于由BMM单元处理的矩阵的数据序列的数据的情况。数 据序列还可被分成多个矩阵尺寸的数据包,并且BMM单元可轮流处理各个数据包。如果两 个连续数据包的数据应被混合到一个相乘结果C,则可能需要传统结构来实现寄存器之间 的多个转换,以在提供到BMM单元之前准备操作数。 图3为具有BMM单元的处理器的实施方式的局部方框图,其能够利用特定BMM指 令减少需要混合来自多个数据包的数据的指令循环次数。 处理器包括工作寄存器文件REGS。寄存器的大小适合于处理器结构。在32位处 理器的上下文内,寄存器也具有32位大小,对应于单精度。反之,设计BMM单元以处理双精 度字段(64位)。寄存器文件被关联到控制电路CTRL,其被设计为同时向BMM单元提供作 为64位被乘数的寄存器对的内容。还可以设计控制电路以将双精度的相乘结果写入到寄 存器对当中。 在设计为使用寄存器对处理双精度数据的传统处理器结构中,指令仅标识寄存器 对中的第一个寄存器。寄存器对中的第二个隐式地为寄存器文件的地址系统中的下一个寄 存器。而且,处理双精度数据的指令仅可标识偶数行寄存器,即奇数行寄存器被保留以与指 令标识的寄存器形成隐式的寄存器对。 设计图3的结构以能够使指令明确地标识任意两个寄存本文档来自技高网...
【技术保护点】
一种处理器,在其指令集中包括位矩阵乘法指令(sbmm),所述指令具有:第一双精度操作数(A),表示要相乘的第一矩阵;第二操作数(B),明确指定任意两个单精度工作寄存器,所述两个单精度工作寄存器的联合内容表示待相乘的第二矩阵;以及目的参数(C),明确指定任意两个单精度工作寄存器,用于联合包含表示乘法运算结果的矩阵。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:B·杜邦德戴恩钦,M·赖布齐恩斯卡,
申请(专利权)人:卡雷公司,
类型:发明
国别省市:法国;FR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。