System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 向量紧缩矩阵乘法和累加处理器、方法、系统和指令技术方案_技高网
当前位置: 首页 > 专利查询>英特尔公司专利>正文

向量紧缩矩阵乘法和累加处理器、方法、系统和指令技术方案

技术编号:43896183 阅读:2 留言:0更新日期:2025-01-03 13:09
公开了向量紧缩矩阵乘法和累加处理器、方法、系统和指令。解码器电路对指令解码,该指令指示:第一向量寄存器,具有存储具有2行乘K列数据元素的第一矩阵的128比特通道,数据元素具有一比特数;存储位置,具有存储具有K行乘2列数据元素的第二矩阵的128比特,这些数据元素具有该比特数;以及第二向量寄存器,具有存储具有2行乘2列数据元素的第三矩阵的128比特通道,这些数据元素具有一更大的比特数。执行电路执行指令的操作,包括生成结果矩阵并将其存储在第二向量寄存器的128比特通道中,结果矩阵具有2行乘2列结果数据元素,结果数据元素具有该更大的比特数。结果矩阵表示第三矩阵与从使用第一和第二矩阵的矩阵乘法生成的乘积矩阵的累加。

【技术实现步骤摘要】

实施例总体上涉及处理器。具体而言,本文中所描述的实施例总体上设计用于处理矩阵的处理器和指令。


技术介绍

1、矩阵典型地被当作数字到矩阵的行和列中的二维的正方形或矩形阵列或布置。例如,4×4矩阵可具有被布置为4行和4列的16个数。

2、矩阵可以被用于各种各样的应用中,并且可以被用于各种各样不同的目的(例如,图形处理、信号处理、地震学等)。近来,矩阵被广泛地用于处理人工智能、机器学习、深度学习、神经网络、通用图形处理等等的数据。


技术实现思路

【技术保护点】

1.一种处理器,包括:

2.如权利要求1所述的处理器,其中,所述执行电路为了生成并存储所述结果矩阵而要进行:

3.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素和所述第二矩阵的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特。

4.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素和所述第二矩阵的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特。

5.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特,并且其中,所述第二矩阵的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特。

6.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特,并且其中,所述第二矩阵的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特。

7.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定浮点操作要使用的浮点舍入模式的一个或多个字段,并且其中,所述执行电路为了生成所述结果矩阵而要进行:根据就近向偶舍入RNE舍入模式来执行浮点舍入,而不论所述一个或多个字段是否指定所述浮点舍入模式是所述RNE舍入模式。

8.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定输入非正规值是否要被当作零的一个或多个字段,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进行:不将所述输入非正规值当作零,而不论所述一个或多个字段是否指定所述输入非正规值要被当作零。

9.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定非正规结果是否要被置零的一个或多个字段,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进行:将所述非正规结果置零,而不论所述一个或多个字段是否指定所述非正规结果要被置零。

10.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定浮点异常是否要被报告的一个或多个字段,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进行:不对所述浮点异常进行报告,而不论所述一个或多个字段是否指定所述浮点异常要被报告。

11.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,并且其中,所述执行电路用于在不访问所述浮点控制寄存器的情况下完成对与所述指令相对应的操作的执行。

12.如权利要求1至6中任一项所述的处理器,其中,所述执行电路为了生成所述结果矩阵而要进行:在使用所述第一矩阵和所述第二矩阵的所述矩阵乘法的所有乘积中的任何乘积与所述第三矩阵的累加之前,生成所述矩阵乘法的所述所有乘积。

13.如权利要求1至6中任一项所述的处理器,其中,所述指令允许所述存储位置是第三向量寄存器,但不允许所述存储位置是在存储器中。

14.如权利要求1至6中任一项所述的处理器,其中,所述第一向量寄存器具有用于存储具有2行乘8列8比特浮点数据元素的第四矩阵的第二128比特通道,所述存储位置具有用于存储具有8行乘2列8比特浮点数据元素的第五矩阵的第二128比特,并且所述第二向量寄存器具有用于存储具有2行乘2列32比特单精度浮点数据元素的第六矩阵的第二128比特通道,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进一步进行:

15.一种由处理器执行的方法,所述方法包括:

16.如权利要求15所述的方法,其中,所述第一矩阵和所述第二矩阵中的一者的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特,并且其中,所述第一矩阵和所述第二矩阵中的另一者的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特。

17.如权利要求15所述的方法,其中,生成所述结果数据包括:在使用所述第一矩阵和所述第二矩阵的所述矩阵乘法的所有乘积中的任何乘积与所述第三矩阵的累加之前,生成所述矩阵乘法的所述所有乘积。

18.一种计算机系统,包括:

19.如权利要求18所述的计算机系统,其中,所述第一矩阵和所述第二矩阵中的一者的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特,并且其中,所述第一矩阵和所述第二矩阵中的另一者的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特。

20.如权利要求18至19中任一项所述的计算机系统,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定对浮点操作的输入中的非正规值是否要被...

【技术特征摘要】

1.一种处理器,包括:

2.如权利要求1所述的处理器,其中,所述执行电路为了生成并存储所述结果矩阵而要进行:

3.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素和所述第二矩阵的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特。

4.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素和所述第二矩阵的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特。

5.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特,并且其中,所述第二矩阵的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特。

6.如权利要求1所述的处理器,其中,所述第一矩阵的8比特浮点数据元素各自具有5个指数比特和2个显式尾数比特,并且其中,所述第二矩阵的8比特浮点数据元素各自具有4个指数比特和3个显式尾数比特。

7.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定浮点操作要使用的浮点舍入模式的一个或多个字段,并且其中,所述执行电路为了生成所述结果矩阵而要进行:根据就近向偶舍入rne舍入模式来执行浮点舍入,而不论所述一个或多个字段是否指定所述浮点舍入模式是所述rne舍入模式。

8.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定输入非正规值是否要被当作零的一个或多个字段,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进行:不将所述输入非正规值当作零,而不论所述一个或多个字段是否指定所述输入非正规值要被当作零。

9.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定非正规结果是否要被置零的一个或多个字段,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进行:将所述非正规结果置零,而不论所述一个或多个字段是否指定所述非正规结果要被置零。

10.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,所述浮点控制寄存器具有用于指定浮点异常是否要被报告的一个或多个字段,并且其中,所述执行电路为了执行与所述指令相对应的操作而要进行:不对所述浮点异常进行报告,而不论所述一个或多个字段是否指定所述浮点异常要被报告。

11.如权利要求1至6中任一项所述的处理器,进一步包括浮点控制寄存器,并且其中,所述执行电路用于在不访问所述浮点控制寄存器的情况下完成对与所述指令相对应的操作的执行。

12.如权利要求1至6中任一项所述的处理器,其中,所述执行电...

【专利技术属性】
技术研发人员:A·海内克W·S·王S·鲁滨逊R·萨德A·格雷德斯廷S·卢巴诺维奇M·艾斯皮格D·鲍姆E·吉奥加纳斯D·卡拉姆卡
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1