当前位置: 首页 > 专利查询>英特尔公司专利>正文

低精度机器学习操作的计算优化制造技术

技术编号:30346034 阅读:19 留言:0更新日期:2021-10-12 23:33
本申请发明专利技术名称为:低精度机器学习操作的计算优化。一个实施例提供了一种包括动态精度浮点单元的通用图形处理单元,所述动态精度浮点单元包括控制单元,所述控制单元具有精度跟踪硬件逻辑以跟踪与目标精度相关的计算数据的精度位的可用数量,其中动态精度浮点单元包括计算逻辑来以多个精度输出数据。括计算逻辑来以多个精度输出数据。括计算逻辑来以多个精度输出数据。

【技术实现步骤摘要】
低精度机器学习操作的计算优化


[0001]实施例一般涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。

技术介绍

[0002]当前并行图形数据处理包括开发成对图形数据执行特定操作(诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,已经使图形处理器的部分可编程,使此类处理器能够支持用于处理顶点和片段数据的各种各样的操作。
[0003]为了进一步增加性能,图形处理器通常实现诸如尝试并行处理遍及图形流水线的不同部分的尽可能多的图形数据的流水线操作的处理技术。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中,并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。用于SIMT架构的软件和硬件的一般概述可以在Shane Cook的CUDA Programming,第3章,第37

51页 (2013)和/或Nicholas Wilt的CUDA Handbook, A Comprehensive Guide to GPU Programming,第2.6.2至3.1.2节(2013年6月)中找到。
附图说明
[0004]通过参考实施例可具有本专利技术的更具体的描述以便可以详细理解本专利技术的特征,所述实施例中的一些在附图中示出。然而,要注意,附图仅示出了典型实施例,并且因此不被视为限制所有实施例的范围。
[0005]图1是示出了配置成实现本文描述的实施例的一个或多个方面的计算机系统的框图。
[0006]图2A

2D示出了根据实施例的并行处理器部件。
[0007]图3A

3B是根据实施例的图形多处理器的框图。
[0008]图4A

4F示出了示范架构,在其中多个GPU通信地耦合到多个多核处理器。
[0009]图5示出了根据实施例的图形处理流水线。
[0010]图6示出了根据实施例的机器学习软件栈。
[0011]图7示出了根据实施例的高度并行通用图形处理单元。
[0012]图8示出了根据实施例的多GPU计算系统。
[0013]图9A

9B示出了示范深度神经网络的层。
[0014]图10示出了示范递归神经网络。
[0015]图11示出了深度神经网络的训练和部署。
[0016]图12是示出分布式学习的框图。
[0017]图13示出了适合用于使用训练模型执行推理的示范推理片上系统(SOC)。
[0018]图14示出了根据实施例的动态精度浮点单元的部件。
[0019]图15提供根据实施例的相对于动态精度浮点单元的附加细节。
[0020]图16示出了根据实施例的动态精度处理系统的线程指派。
[0021]图17示出了根据实施例的以低于要求的精度执行数值操作的逻辑。
[0022]图18示出了根据实施例的SIMD单元的循环向量化。
[0023]图19示出了根据实施例的线程处理系统。
[0024]图20示出了根据实施例的指派用于计算的线程的逻辑。
[0025]图21示出了可以使用由本文描述的实施例提供的计算逻辑处理的深度神经网络2100。
[0026]图22是根据实施例的当执行用于机器学习的低精度操作时防止误差或显著精度损失的逻辑2200的框图。
[0027]图23是根据实施例的处理系统的框图。
[0028]图24是具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的实施例的框图。
[0029]图25是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器的框图。
[0030]图26是根据一些实施例的图形处理器的图形处理引擎的框图。
[0031]图27是由附加实施例提供的图形处理器的框图。
[0032]图28示出了包括在一些实施例中采用的处理元件阵列的线程执行逻辑。
[0033]图29是示出根据一些实施例的图形处理器指令格式的框图。
[0034]图30是根据另一实施例的图形处理器的框图。
[0035]图31A

31B示出了根据一些实施例的图形处理器命令格式和命令序列。
[0036]图32示出了根据一些实施例的用于数据处理系统的示范图形软件架构。
[0037]图33是示出根据实施例的IP核开发系统的框图。
[0038]图34是示出根据实施例的示范片上系统集成电路的框图。
[0039]图35是示出根据实施例的附加图形处理器的框图。
[0040]图36是示出根据实施例的片上系统集成电路的附加示范图形处理器的框图。
具体实施方式
[0041]在一些实施例中,图形处理单元(GPU)通信地耦合至主机/处理器核以使图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能加速。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核。在其他实施例中,GPU可被集成在与核相同的封装或芯片上,并通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合至核。不管GPU被连接的方式,处理器核都可以以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU然后使用专用电路/逻辑以用于高效地处理这些命令/指令。
[0042]在以下描述中,阐述了很多特定细节来提供更彻底的理解。然而,将对本领域技术人员显而易见的是,可以在没有这些特定细节中的一个或多个的情况下实践本文中所描述的实施例。在其他实例中,没有描述公知的特征以避免使本专利技术的实施例的细节模糊。
[0043]系统概述
图1是示出了配置成实现本文中所描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,所述处理子系统101具有经由互连路径进行通信的一个或多个处理器102和系统存储器104,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,或者可以集成在所述一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢107可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器能够向一个或多个显示设备110A提供输出,所述显示控制器可以被包括在所述一个或多个处理器102中。在一个实施例中,与I/O中枢107耦合的所述一个或多个显示设备110A可以包括本地的、内部的或嵌入式的显示设备。
[0044]在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器112经由总线或其他通信链路113耦合至存储器中枢105本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1. 一种多芯片模块上的加速器,所述加速器包括:堆叠式存储器,其包括多个存储器管芯;以及图形处理单元GPU,其经由一个或多个存储器控制器与所述堆叠式存储器耦合,所述GPU包括具有单指令多线程SIMT架构的多个多处理器,所述多处理器用于执行至少一个单指令,所述至少一个单指令用于加速与机器学习框架关联的线性代数子程序;所述至少一个单指令用于使得所述GPU的至少一部分对具有不同精度的输入执行浮点操作,所述浮点操作是二维矩阵乘法操作;其中所述多个多处理器的至少一部分包括混合精度核,所述混合精度核用于执行所述至少一个单指令的线程,所述混合精度核包括浮点单元,所述浮点单元用于以第一精度执行所述线程的第一操作并且以第二精度执行所述线程的第二操作;以及其中所述第一操作是具有至少一个16位浮点输入的乘法并且所述第二操作是具有32位浮点输入的累加;其中所述堆叠式存储器位于与所述GPU相同的物理封装上。2.如权利要求1所述的加速器,所述堆叠式存储器包括高带宽存储器。3.如权利要求1所述的加速器,所述混合精度核用于以16位精度执行所述第一操作并且以32位精度执行所述第二操作。4.如权利要求1所述的加速器,其中,所述第一操作具有两个或更多16位浮点输入。5.如权利要求1所述的加速器,所述混合精度核可配置成从所述二维矩阵乘法操作输出16位浮点值。6. 一种加速机器学习操作的方法,所述方法包括:在图形处理单元GPU上解码单指令,所述GPU具有单指令多线程SIMT架构,所述GPU经由一个或多个存储器控制器与堆叠式存储器耦合;以及经由所述GPU内的一个或多个多处理器执行所述单指令,所述单指令用于使得所述GPU的至少一部分执行二维矩阵乘法操作以加速与机器学习框架关联的线性代数子程序,其中执行所述单指令包括在所述一个或多个多处理器的混合精度核上执行所述单指令的线程,所述混合精度核包括浮点单元,所述浮点单元用于以第一精度执行所述线程的第一操作以及以第二精度执...

【专利技术属性】
技术研发人员:A
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1