当前位置: 首页 > 专利查询>英特尔公司专利>正文

点积乘法器机制制造技术

技术编号:28449800 阅读:14 留言:0更新日期:2021-05-15 21:11
本公开的发明专利技术名称是“点积乘法器机制”。一种用于促进矩阵乘法运算的设备。该设备包括乘法硬件,所述乘法硬件用于在点积模式中操作,其中包含在乘法硬件中的乘法阶段被配置为多个位向量(N)的点积,以对多个被乘数执行N

【技术实现步骤摘要】
点积乘法器机制


[0001]实施例一般涉及数据处理,并且更特定地涉及经由通用图形处理单元的数据处理。
[0002]专利技术背景深度学习算法当前正在各种机器学习应用中实现,所述机器学习应用诸如音频/视频识别、视频摘要等。各种形式的神经网络(例如,卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆(long short-term memory)(LSTM)等)由于其高度并行性质而被用于执行此类工作负载。机器学习应用通常经由乘法器实现矩阵乘法工作负载。
附图说明
[0003]为了可详细地理解本实施例的上述特征的方式,可通过参考实施例来得到对上文简要概述的实施例的更特定描述,实施例中的一些在附图中示出。然而,要注意,附图仅示出了典型的实施例,并且因此不应被认为是对其范围的限制。
[0004]图1是根据实施例的处理系统的框图;图2A-2D示出了由本文中描述的实施例提供的计算系统和图形处理器;图3A-3C示出了由实施例提供的附加图形处理器和计算加速器架构的框图;图4是根据一些实施例的图形处理器的图形处理引擎的框图;图5A-5B示出了根据实施例的包含在图形处理器核中采用的处理元件的阵列的线程执行逻辑500;图6示出了根据实施例的附加执行单元600;图7是示出根据一些实施例的图形处理器指令格式的框图;图8是根据另一实施例的图形处理器的框图;图9A和9B示出了根据一些实施例的图形处理器命令格式和命令序列;图10示出了根据一些实施例的用于数据处理系统的示例性图形软件架构;图11A-11D示出了根据实施例的集成电路封装组装件;图12是示出根据实施例的在芯片集成电路上的示例性系统的框图;图13A和13B是示出附加示例性图形处理器的框图;图14示出了根据实施例的机器学习软件栈(software stack);图15A-15B示出了示例性深度神经网络的层;图16示出了示例性递归神经网络;图17示出了深度神经网络的训练和部署;图18是示出分布式学习的框图;图19示出了采用加速器的计算装置的一个实施例;图20A和20B示出了常规的乘法器;图21示出了点积乘法器的一个实施例;图22示出了点积乘法器的另一实施例;
图23是示出用于执行乘法运算的过程的一个实施例的流程图;以及图24是示出用于执行点积乘法运算的过程的一个实施例的流程图。
具体实施方式
[0005]在实施例中,加速器包括用于在常规模式或点积模式中操作的乘法硬件,其中乘法硬件中的乘法阶段(multiplication stage)被配置为多个N位向量的点积,以对NxN乘法运算的结果执行加法运算。
[0006]在下面的描述中,阐述了许多特定细节以提供更透彻的理解。然而,对于本领域的技术人员将明显的是,可在没有这些特定细节中的一个或多个的情况下实践本文中描述的实施例。在其他情况下,尚未描述公知的特征,以避免模糊本实施例的细节。
[0007]系统概述图1是根据实施例的处理系统100的框图。系统100可用于单处理器台式计算机系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中,系统100是并入在供移动、手持式或嵌入式装置中(诸如在带有到局域或广域网的有线或无线连接性的物联网(IoT)装置内)使用的片上系统(SoC)集成电路内的处理平台。
[0008]在一个实施例中,系统100可包含以下各项、与以下各项耦合或者被集成在以下各项内:基于服务器的游戏平台;游戏控制台,包含游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统100是以下各项的一部分:移动电话、智能电话、平板计算装置或诸如带有低内部存储容量的膝上型计算机之类的移动因特网连接的装置。处理系统100还可包含以下各项、与以下各项耦合或者被集成在以下各项内:可穿戴装置,诸如智能手表可穿戴装置;智能眼镜(smart eyewear)或服装,其用增强现实(AR)或虚拟现实(VR)特征来被增强以提供视觉、音频或触觉输出,以补充现实世界视觉、音频或触觉体验或者以其他方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈;其他增强现实(AR)装置;或者其他虚拟现实(VR)装置。在一些实施例中,处理系统100包含电视或机顶盒装置,或者是电视或机顶盒装置的一部分。在一个实施例中,系统100可包含以下各项、与以下各项耦合或者被集成在以下各项内:自动驾驶交通工具,诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)。自动驾驶交通工具可使用系统100来处理在交通工具周围感测到的环境。
[0009]在一些实施例中,一个或多个处理器102各自包含一个或多个处理器核107以处理指令,所述指令在被执行时,执行用于系统或用户软件的操作。在一些实施例中,一个或多个处理器核107中的至少一个处理器核被配置成处理特定指令集109。在一些实施例中,指令集109可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。一个或多个处理器核107可处理不同指令集109,所述指令集109可包含用于促进对其他指令集的仿真的指令。处理器核107还可包含其他处理装置,诸如数字信号处理器(DSP)。
[0010]在一些实施例中,处理器102包含高速缓冲存储器104。取决于架构,处理器102可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(L3)高速缓存或末级高速缓存(LLC))(未示出),其可在使用已知高速缓存一致性技术的
处理器核107之间被共享。寄存器堆106可另外被包含在处理器102中,并且可包含用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可特定于处理器102的设计。
[0011]在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与系统100中的其他组件之间传送通信信号,诸如地址、数据或控制信号。接口总线110在一个实施例中可以是处理器总线,诸如某一版本的直接媒体接口(DMI)总线。然而,处理器总线不限于DMI总线,并且可包含一个或多个外设组件互连总线(Peripheral Component Interconnect bus)(例如,PCI、PCI express)、存储器总线或其他类型的接口总线。在一个实施例中,(一个或多个)处理器102包含集成的存储器控制器116和平台控制器集线器130。存储器控制器116促进存储器装置与系统100的其他组件之间的通信,而平台控制器集线器(PCH)130经由本地I/O总线提供到I/O装置的连接。
[0012]存储器装置120可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其他存储器装置。在一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于促进矩阵乘法运算的设备,包括:乘法硬件,所述乘法硬件用于在点积模式中操作,其中包含在所述乘法硬件中的乘法阶段被配置为多个位向量(N)的点积,以对多个被乘数执行NxN乘法运算,并且对所述NxN乘法运算的结果执行加法运算。2.根据权利要求1所述的设备,其中所述乘法阶段还在执行所述乘法运算之前执行所述多个被乘数中的第一个的最高有效位与最低有效位的交换。3.根据权利要求2所述的设备,其中所述乘法阶段将所述乘法运算的第一项和最后项减少到零。4.根据权利要求3所述的设备,其中所述乘法硬件还包括加法阶段,以对所述乘法运算的中间项执行加法运算。5.根据权利要求1所述的设备,其中所述乘法硬件还被配置成在常规模式中操作以执行2N个矩阵乘加运算。6.根据权利要求5所述的设备,其中所述乘法硬件接收输入并且将所述输入分离成多个元素。7.根据权利要求6所述的设备,其中所述乘法硬件确定是要在所述常规模式中还是在所述点积模式中操作。8.一种用于促进矩阵乘法运算的方法,所述方法包括在点积模式中操作乘法硬件,所述方法包含:将乘法阶段配置为多个位向量(N)的点积,以对多个被乘数执行N
×
N乘法运算;以及对所述N
×
N乘法运算的结果执行加法运算。9.根据权利要求8所述的方法,还包括在执行所述乘法运算之前执行所述多个被乘数中的第一个的最高有效位与最低有效位的交换。10.根据权利要求9所述的方法,还包...

【专利技术属性】
技术研发人员:N
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1