低精度机器学习操作的计算优化制造技术

技术编号：30346034 阅读：19 留言：0更新日期：2021-10-12 23:33

本申请发明专利技术名称为：低精度机器学习操作的计算优化。一个实施例提供了一种包括动态精度浮点单元的通用图形处理单元，所述动态精度浮点单元包括控制单元，所述控制单元具有精度跟踪硬件逻辑以跟踪与目标精度相关的计算数据的精度位的可用数量，其中动态精度浮点单元包括计算逻辑来以多个精度输出数据。括计算逻辑来以多个精度输出数据。括计算逻辑来以多个精度输出数据。

全部详细技术资料下载

【技术实现步骤摘要】
低精度机器学习操作的计算优化

[0001]实施例一般涉及数据处理，并且更具体地涉及经由通用图形处理单元的数据处理。

技术介绍

[0002]当前并行图形数据处理包括开发成对图形数据执行特定操作（诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等）的系统和方法。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，已经使图形处理器的部分可编程，使此类处理器能够支持用于处理顶点和片段数据的各种各样的操作。
[0003]为了进一步增加性能，图形处理器通常实现诸如尝试并行处理遍及图形流水线的不同部分的尽可能多的图形数据的流水线操作的处理技术。具有单指令多线程（SIMT）架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中，并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。用于SIMT架构的软件和硬件的一般概述可以在Shane Cook的CUDA Programming，第3章，第37
‑
51页 (2013)和/或Nicholas Wilt的CUDA Handbook, A Comprehensive Guide to GPU Programming,第2.6.2至3.1.2节（2013年6月）中找到。
附图说明
[0004]通过参考实施例可具有本专利技术的更具体的描述以便可以详细理解本专利技术的特征，所述实施例中的一些在附图中示出。然而，要注意，附图仅示出了典型实施例，并且因此不被视为限制所有实施例的范围。
[0005]图...

【技术保护点】

【技术特征摘要】
1. 一种多芯片模块上的加速器，所述加速器包括：堆叠式存储器，其包括多个存储器管芯；以及图形处理单元GPU，其经由一个或多个存储器控制器与所述堆叠式存储器耦合，所述GPU包括具有单指令多线程SIMT架构的多个多处理器，所述多处理器用于执行至少一个单指令，所述至少一个单指令用于加速与机器学习框架关联的线性代数子程序；所述至少一个单指令用于使得所述GPU的至少一部分对具有不同精度的输入执行浮点操作，所述浮点操作是二维矩阵乘法操作；其中所述多个多处理器的至少一部分包括混合精度核，所述混合精度核用于执行所述至少一个单指令的线程，所述混合精度核包括浮点单元，所述浮点单元用于以第一精度执行所述线程的第一操作并且以第二精度执行所述线程的第二操作；以及其中所述第一操作是具有至少一个16位浮点输入的乘法并且所述第二操作是具有32位浮点输入的累加；其中所述堆叠式存储器位于与所述GPU相同的物理封装上。2.如权利要求1所述的加速器，所述堆叠式存储器包括高带宽存储器。3.如权利要求1所述的加速器，所述混合精度核用于以16位精度执行所述第一操作并且以32位精度执行所述第二操作。4.如权利要求1所述的加速器，其中，所述第一操作具有两个或更多16位浮点输入。5.如权利要求1所述的加速器，所述混合精度核可配置成从所述二维矩阵乘法操作输出16位浮点值。6. 一种加速机器学习操作的方法，所述方法包括：在图形处理单元GPU上解码单指令，所述GPU具有单指令多线程SIMT架构，所述GPU经由一个或多个存储器控制器与堆叠式存储器耦合；以及经由所述GPU内的一个或多个多处理器执行所述单指令，所述单指令用于使得所述GPU的至少一部分执行二维矩阵乘法操作以加速与机器学习框架关联的线性代数子程序，其中执行所述单指令包括在所述一个或多个多处理器的混合精度核上执行所述单指令的线程，所述混合精度核包括浮点单元，所述浮点单元用于以第一精度执行所述线程的第一操作以及以第二精度执...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人