图形处理器及图形处理方法技术

技术编号：33073316 阅读：31 留言：0更新日期：2022-04-15 10:08

本发明专利技术提供了一种图形处理器及图形处理方法，所述图形处理器包括处理器单元和数据共享处理单元，所述处理器单元包括多个流式多处理器，所述数据共享处理单元包括张量核心阵列，所述流式多处理器共用所述张量核心阵列，使得所述张量核心阵列独立于所述流式多处理器外，减少了流式多处理器对张量核心阵列的影响，便于数据的共享，一方面提高了图形渲染和AI计算的并行度，另一方面相对于TPU保持了原有GPUAI的灵活度。有GPUAI的灵活度。有GPUAI的灵活度。

全部详细技术资料下载

【技术实现步骤摘要】
图形处理器及图形处理方法

[0001]本专利技术涉及图形处理
，尤其涉及一种图形处理器及图形处理方法。

技术介绍

[0002]传统的图形处理器（graphics processing unit，GPU）共享了GPU的传统体系结构，可以方便的增加矩阵的扩展指令集以及改善调度单元来为算术逻辑单元ALU和张量核心（tensor core）提供足够的输入数据。
[0003]由于深度学习运算相对稳定的数据流，传统的图形处理器由于过度的细粒度必然导致数据无法很好地共享，例如权重等数据需要从共享内存（Sharememory）或者外部缓存广播到不同的计算核心的寄存器文件，这个极大的增加了总线上的数据传输，同时张量核心受限于局部缓存，输入数据也很难被复用。
[0004]因此，有必要提供一种新型的图形处理器及图形处理方法以解决现有技术中存在的上述问题。

技术实现思路

[0005]本专利技术的目的在于提供一种图形处理器及图形处理方法，便于数据的共享。
[0006]为实现上述目的，本专利技术的所述图形处理器，包括：处理器单元，包括多个流式多处理器；数据共享处理单元，包括张量核心阵列，所述流式多处理器共用所述张量核心阵列。
[0007]可选地，所述张量核心阵列包括呈矩阵分布的点积阵列引擎，所述流式多处理器包括多个流处理器，所述点积阵列引擎的数量与所述流处理器的数量相匹配。
[0008]可选地，所述数据共享处理单元还包括控制单元，用于存放所述张量核心阵列的控制指令，以实现对所述张量核...

【技术保护点】

【技术特征摘要】
1.一种图形处理器，其特征在于，包括：处理器单元，包括多个流式多处理器；数据共享处理单元，包括张量核心阵列，所述流式多处理器共用所述张量核心阵列。2.根据权利要求1所述的图形处理器，其特征在于，所述张量核心阵列包括呈矩阵分布的点积阵列引擎，所述流式多处理器包括多个流处理器，所述点积阵列引擎的数量与所述流处理器的数量相匹配。3.根据权利要求1所述的图形处理器，其特征在于，所述数据共享处理单元还包括控制单元，用于存放所述张量核心阵列的控制指令，以实现对所述张量核心阵列的控制。4.根据权利要求1所述的图形处理器，其特征在于，所述数据共享处理单元还包括缓冲单元，用于数据缓冲。5.根据权利要求4所述的图形处理器，其特征在于，所述数据共享处理单元还包括第一神经网络单元，用于进行神经网络运算，所述缓冲单元包括数据缓冲子单元，所述第一神经网络单元与所述数据缓冲子单元连接。6.根据权利要求5所述的图形处理器，其特征在于，所述数据共享处理单元还包括任务分配单元，所述任务分配单元与所有所述流式多处理器和所述数据缓冲子单元连接，所述任务分配单元用于实现所有所述流式多处理器的通用计算任务创建、提交及所述数据缓冲子单元之间的数据传输。7.根据权利要求4所述的图形处理器，其特征在于，所述数据共享处理单元还包括数据引擎单元，所述缓冲单元包括输入缓冲子单元和外缓冲子单元，所述外缓冲子单元与所有所述流式多处理器和所述数据引擎单元连接，所述输入缓冲子单元与所述数据引擎单元和所述张量核心阵列连接。8.根据权利要求7所述的图形处理器，其特征在于，所述数据共享处理单元还包括累加单元，与所述张量核心阵列连接，用于对所述张量核心阵列的运算结果进行累加运算。9.根据权利要...

【专利技术属性】
技术研发人员：顾德明，
申请(专利权)人：南京砺算科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人