System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理器、数据处理方法、电子设备、存储介质技术_技高网

数据处理器、数据处理方法、电子设备、存储介质技术

技术编号:41332722 阅读:6 留言:0更新日期:2024-05-20 09:53
一种数据处理器、数据处理方法、电子设备和非瞬时性计算机可读存储介质。该数据处理器包括张量运算单元和N个计算单元,张量运算单元配置为对输入数据执行张量计算,得到张量计算结果;N个计算单元配置为执行张量计算结果的矢量运算和生成输入数据中的至少一种;其中,张量运算单元和N个计算单元中的至少部分计算单元之间提供有第一数据传输通道,第一数据传输通道用于将张量计算结果直接提供至计算单元,以及将输入数据从计算单元直接提供至张量运算单元。该数据处理器可以减少对全局内存的访问,减少资源浪费,降低数据传输延时,大幅提高算子的总体效率,有效利用张量运算单元本身强大的算力,提高数据处理器的计算效率。

【技术实现步骤摘要】

本公开的实施例涉及一种数据处理器、数据处理方法、电子设备和非瞬时性计算机可读存储介质,尤其涉及芯片领域的数据处理。


技术介绍

1、张量(tensor)是一个定义在一些向量空间和一些对偶空间的笛卡尔积上的多重线性映射,例如,标量可以看作0维张量,向量可以看作一维张量,矩阵可以看作二维张量。张量操作在并行处理器等处理器中广泛使用。

2、随着人工智能及机器学习的发展,对以并行处理器(例如,多核处理器、数字信号处理器等)为代表的众多并行处理器设备提出了新的要求。随着人工智能及机器学习的发展,对以并行处理器(例如,多核处理器、图形处理器、数字信号处理器等)为代表的众多并行处理器设备提出了新的要求。在人工智能等领域中经常使用的神经网络处理中,例如,卷积神经网络,经常需要执行张量操作,例如,矩阵乘法或卷积运算,此外,还经常需要执行矢量计算,例如累加、归约、常规的加法、减法、乘法、除法等计算。


技术实现思路

1、本公开至少一实施例提供一种数据处理器,包括张量运算单元和n个计算单元,n为大于1的正整数,所述张量运算单元配置为对输入数据执行张量计算,得到张量计算结果,其中,所述张量计算包括矩阵乘法或卷积运算;所述n个计算单元配置为执行所述张量计算结果的矢量运算和生成所述输入数据中的至少一种;其中,所述张量运算单元和所述n个计算单元中的至少部分计算单元之间提供有第一数据传输通道,所述第一数据传输通道配置为将所述张量计算结果直接提供至相应的计算单元,以及将所述输入数据从生成所述输入数据的计算单元直接提供至所述张量运算单元。

2、例如,在本公开至少一实施例提供的数据处理器中,每个计算单元包括寄存器,所述寄存器配置为存储与所述矢量运算相关的数据以及与生成所述输入数据相关的数据,所述张量运算单元包括缓存块,所述缓存块配置为缓存所述输入数据,所述第一数据传输通道连接所述至少部分计算单元中的寄存器和所述张量运算单元中的缓存块。

3、例如,在本公开至少一实施例提供的数据处理器中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述多个计算核之间共享数据,所述共享缓存中提供有逻辑运算单元,所述逻辑运算单元配置为执行跨计算单元的逻辑运算,其中,所述跨计算单元的逻辑运算包括对来自不同计算单元的数据进行算术逻辑运算。

4、例如,在本公开至少一实施例提供的数据处理器中,所述算术逻辑运算包括累加运算,所述逻辑运算单元包括累加器。

5、例如,在本公开至少一实施例提供的数据处理器中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述多个计算核之间共享数据,所述n个计算单元中的部分或所有计算单元的共享缓存之间提供有第二数据传输通道,所述第二数据传输通道配置为在所述部分或所有计算单元中的共享缓存之间传输数据。

6、例如,在本公开至少一实施例提供的数据处理器中,所述数据处理器包括多个流式处理器簇,每个流式处理器簇包括多个计算单元和1个张量运算单元,所述n个计算单元包括来自不同流式处理器簇中的计算单元或所述n个计算单元属于同一个流式处理器簇。

7、例如,在本公开至少一实施例提供的数据处理器中,所述数据处理器还配置为执行算子融合,其中,所述算子融合包括进行任意算子的深度融合,且在所述算子融合过程中,所述张量运算单元以及矢量运算单元均可作为任务生产者或任务消费者,所述矢量运算单元包括所述n个计算单元,所述任务生产者用于产生计算数据,所述任务消费者用于接收并处理所述计算数据。

8、例如,在本公开至少一实施例提供的数据处理器中,在所述数据处理器的抽象层次中,所述至少部分计算单元的共享缓存整体上抽象为一个中间级缓存层。

9、本公开至少一实施例提供一种数据处理方法,用于数据处理器,其中,所述数据处理器包括张量运算单元和多个计算单元,所述张量运算单元配置为对输入数据执行张量计算,得到张量计算结果,其中,所述张量计算包括矩阵乘法或卷积运算;所述多个计算单元配置为执行所述张量计算结果的矢量运算和生成所述输入数据中的至少一种;所述数据处理方法包括:利用第一数据传输通道将所述张量计算结果直接提供至相应的计算单元,以及将所述输入数据从生成所述输入数据的计算单元直接提供至所述张量运算单元。

10、例如,在本公开至少一实施例提供的数据处理方法中,每个计算单元包括寄存器,所述寄存器配置为存储与所述矢量运算相关的数据以及与生成所述输入数据相关的数据,

11、所述张量运算单元包括缓存块,所述缓存块配置为缓存所述输入数据,

12、所述第一数据传输通道连接所述多个计算单元中的至少部分计算单元中的寄存器和所述张量运算单元中的缓存块。

13、例如,在本公开至少一实施例提供的数据处理方法中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述多个计算核之间共享数据,所述数据处理方法还包括:在所述共享缓存中执行跨计算单元的逻辑运算,其中,所述跨计算单元的逻辑运算包括对来自不同计算单元的数据进行算术逻辑运算。

14、例如,在本公开至少一实施例提供的数据处理方法中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述多个计算核之间共享数据,所述数据处理方法还包括:利用第二数据传输通道在所述多个计算单元中的至少部分计算单元的共享缓存之间传输数据。

15、例如,本公开至少一实施例提供的数据处理方法还包括:将所述至少部分计算单元的共享缓存整体上抽象为所述数据处理器的抽象层次中的一个中间级缓存层。

16、例如,本公开至少一实施例提供的数据处理方法还包括:执行算子融合,其中,所述算子融合包括进行任意算子的深度融合,且在所述算子融合过程中,所述张量运算单元以及矢量运算单元均可作为任务生产者或任务消费者,所述矢量运算单元包括所述多个计算单元,所述任务生产者用于产生计算数据,所述任务消费者用于接收并处理所述计算数据。

17、本公开至少一实施例提供一种电子设备,包括如本公开任一实施例所述的数据处理器。

18、本公开至少一实施例提供一种非暂时性计算机可读存储介质,其上存储有指令,其中,所述指令在被处理器执行时实现如本公开任一实施例所述的数据处理方法。

本文档来自技高网...

【技术保护点】

1.一种数据处理器,包括张量运算单元和N个计算单元,N为大于1的正整数,

2.根据权利要求1所述的数据处理器,其中,每个计算单元包括寄存器,所述寄存器配置为存储与所述矢量运算相关的数据以及与生成所述输入数据相关的数据,

3.根据权利要求1所述的数据处理器,其中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述计算单元包括的所述多个计算核之间共享数据,

4.根据权利要求3所述的数据处理器,其中,所述算术逻辑运算包括累加运算,所述逻辑运算单元包括累加器。

5.根据权利要求1所述的数据处理器,其中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述计算单元包括的所述多个计算核之间共享数据,

6.根据权利要求5所述的数据处理器,其中,所述数据处理器包括多个流式处理器簇,每个流式处理器簇包括多个计算单元和1个张量运算单元,

7.根据权利要求1-6中任一项所述的数据处理器,其中,所述数据处理器还配置为执行算子融合,

8.根据权利要求5或6所述的数据处理器,其中,在所述数据处理器的抽象层次中,所述部分或所有计算单元的共享缓存整体上抽象为一个中间级缓存层。

9.一种数据处理方法,用于数据处理器,其中,所述数据处理器包括张量运算单元和多个计算单元,

10.根据权利要求9所述的数据处理方法,其中,每个计算单元包括寄存器,所述寄存器配置为存储与所述矢量运算相关的数据以及与生成所述输入数据相关的数据,

11.根据权利要求9所述的数据处理方法,其中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述计算单元包括的所述多个计算核之间共享数据,

12.根据权利要求9所述的数据处理方法,其中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述计算单元包括的所述多个计算核之间共享数据,

13.根据权利要求12所述的数据处理方法,还包括:

14.根据权利要求9-13中任一项所述的数据处理方法,还包括:

15.一种电子设备,包括如权利要求1-8中任一项所述的数据处理器。

16.一种非暂时性计算机可读存储介质,其上存储有指令,其中,所述指令在被处理器执行时实现如权利要求9-14中任一项所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理器,包括张量运算单元和n个计算单元,n为大于1的正整数,

2.根据权利要求1所述的数据处理器,其中,每个计算单元包括寄存器,所述寄存器配置为存储与所述矢量运算相关的数据以及与生成所述输入数据相关的数据,

3.根据权利要求1所述的数据处理器,其中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述计算单元包括的所述多个计算核之间共享数据,

4.根据权利要求3所述的数据处理器,其中,所述算术逻辑运算包括累加运算,所述逻辑运算单元包括累加器。

5.根据权利要求1所述的数据处理器,其中,每个计算单元包括共享缓存和多个计算核,所述共享缓存配置为在所述计算单元包括的所述多个计算核之间共享数据,

6.根据权利要求5所述的数据处理器,其中,所述数据处理器包括多个流式处理器簇,每个流式处理器簇包括多个计算单元和1个张量运算单元,

7.根据权利要求1-6中任一项所述的数据处理器,其中,所述数据处理器还配置为执行算子融合,

8.根据权利要求5或6所述的数据处理器,其中,在所述数据处理器的抽象层次中,所述部分或所...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:北京壁仞科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1