使用低精度和高精度的混合推理制造技术

技术编号：38885351 阅读：39 留言：0更新日期：2023-09-22 14:13

本申请公开了使用低精度和高精度的混合推理。一个实施例提供了一种用于执行机器学习操作的计算设备，所述计算设备包括：指令解码逻辑，所述指令解码逻辑用于将包括多个操作数的单个指令解码成单个经解码指令，所述多个操作数具有不同的精度；以及包括第一逻辑单元和第二逻辑单元的通用图形计算单元，所述通用图形计算单元用于执行所述单个经解码指令，其中，执行所述单个经解码指令包括以第一精度对所述多个操作数中的第一组操作数执行第一指令操作，并且同时以第二精度对所述多个操作数中的第二组操作数执行第二指令操作。中的第二组操作数执行第二指令操作。中的第二组操作数执行第二指令操作。

全部详细技术资料下载

【技术实现步骤摘要】
使用低精度和高精度的混合推理
本申请是申请日为2018/4/23，申请号为201810367462.5，题为“使用低精度和高精度的混合推理”的专利技术专利申请的分案申请。

[0001]实施例总体上涉及数据处理，且更具体地涉及经由通用图形处理单元进行的数据处理。

技术介绍

[0002]当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法，这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，图形处理器的多个部分已变得可编程，从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
[0003]为进一步提高性能，图形处理器通常实施处理技术(比如，流水线操作)，这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中，多组并行线程试图尽可能经常地一起同步执行程序指令，以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在以下两者中找到：Shane Cook的CUDA编程(CUDA Programming)，第3章，第37
‑
51页(2013年)；和/或Nicholas Wilt的CUDA手册(GPU编程的综合指南(A Comprehensive Guide to GPU Programming))，章节2.6.2到3.1.2(2013年6月)。
附...

【技术保护点】

【技术特征摘要】
1.一种图形处理单元GPU，用于加速机器学习操作，所述GPU包括：指令高速缓存，用于存储第一指令和第二指令，所述第一指令用于使所述GPU执行浮点操作，所述浮点操作包括32位浮点操作，并且所述第二指令用于使所述GPU执行整数操作，所述整数操作包括32位整数操作；以及通用图形计算单元，具有单指令多线程架构，所述通用图形计算单元包括第一功能单元和第二功能单元，所述第一功能单元用于执行所述第一指令的多个线程，并且所述第二功能单元是被配置成在由所述第一功能单元执行所述第一指令的多个线程期间执行所述第二指令的多个线程的功能单元。2.如权利要求1所述的GPU，其特征在于，所述GPU进一步包括与所述通用图形计算单元相关联的寄存器堆。3.如权利要求1所述的GPU，其特征在于，进一步包括调度器，所述调度器用于将所述第一指令的至少一个线程和所述第二指令的至少一个线程调度至所述通用图形计算单元。4.如权利要求3所述的GPU，其特征在于，所述调度器用于独立地调度所述第一指令和所述第二指令中的每一者的多个线程。5.如权利要求4所述的GPU，其特征在于，所述第一指令和所述第二指令的线程具有独立线程状态。6.一种用于加速机器学习操作的处理方法，所述方法包括：在图形处理单元GPU上对单条指令解码，所述GPU包括通用图形计算单元，所述通用图形计算单元具有单指令多线程SIMT架构，所述通用图形计算单元包括第一功能单元和第二功能单元；由所述第一功能单元执行第一指令的多个线程；以及由所述第二功能单元在由所述第一功能单元执行所述第一指令的多个线程期间执行第二指令的多个线程，其中执行所述第一指令的多个线程包括执行浮点操作，所述浮点操作包括32位浮点操作，其中执行所述第二指令的多个线程包括执行整数操作，所述整数操作包括32位整数操作。7.如权利要求6所述的方法，其特征在于，所述GPU进一步包括与所述通用图形计算单元相关联的寄存器堆。8.如权利要求6所述的方法，其特征在于，进一步包括经由所述GPU内的调度器来调度所述第一指令的至少一个线程和所述第二指令的至少一个线程。9.如权利要求8所述的方法，其特征在于，进一步包括独立地调度所述第一指令和所述第二指令中的每一者的多个线程，每条指令的多个线程具有独立线程状态。10.一种用于加速机器学习操作的多处理器，所述多处理器包括：指令高速缓存，用于存储第一指令和第二指令，所述第一指令用于使所述多处理器执行浮点操作，所述浮点操作包括32位浮点操作，并且所述第二指令用于使所述多处理器执行整数操作，所述整数操作包括32位整数操作；以及通用图形计算单元，具有单指令多线程架构，所述通用图形计算单元包括第一功能单元和第二功能单元，所述第一功能单元用于执行所述第一指令的多个线程，并且所述第二功能单元是被配置成在由所述第一功能单元执行所述第一指令的多个线程期间执行所述
第二指令的多个线程的功能单元。11.如权利要求10所述的多处理器，其特征在于，所述多处理器进一步包括与所述通用图形计算单元相关联的寄存器堆。12.如权利要求10所述的多处理器，其特征在于，进...

【专利技术属性】
技术研发人员：E，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人