System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 卷积神经网络模型的分数位量化和部署制造技术_技高网
当前位置: 首页 > 专利查询>英特尔公司专利>正文

卷积神经网络模型的分数位量化和部署制造技术

技术编号:44587922 阅读:1 留言:0更新日期:2025-03-14 12:47
本公开涉及CNN模型的分数位网络量化和部署。一种AI加速器,包括:输入缓冲器,被配置为缓冲输入图像;权重缓冲器,被配置为缓冲用于CNN模型的卷积层的卷积核索引;核模式缓冲器,被配置为缓冲用于CNN模型的卷积层的1位卷积核子集,其中,1位卷积核子集包括大小为K×K的2<supgt;τ</supgt;个1位卷积核;PE阵列,包括一个或多个PE节点,每个PE节点被配置为生成输入图像的图像区域与1位卷积核子集中对应于卷积核索引的1位卷积核的卷积结果;以及输出缓冲器,被配置为缓冲输入图像的各个图像区域与对应于卷积核索引的1位卷积核的卷积结果。

【技术实现步骤摘要】
【国外来华专利技术】

本文描述的实施例总地涉及神经网络领域,更具体地涉及卷积神经网络(cnn)模型的分数位(fractional-bit)网络量化和部署。


技术介绍

1、卷积神经网络(cnn)模型是对许多计算机视觉任务实现了最先进性能的强大学习模型。cnn模型包括输入层、输出层、和位于其间的至少一个隐藏层,并使用复杂的数学模型来处理在这些网络层之间传输的数据。


技术实现思路

【技术保护点】

1.一种人工智能(AI)加速器,包括:

2.根据权利要求1所述1的AI加速器,其中,不同的PE节点生成所述输入图像的不同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果,相同的PE节点生成所述输入图像的相同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果。

3.根据权利要求2所述的AI加速器,其中,所述一个或多个PE节点中的每个PE节点包括:

4.根据权利要求3所述的AI加速器,其中,所述LUT单元是具有一个写端口和至少两个读端口的双缓冲器LUT。

5.根据权利要求1所述的AI加速器,其中,所述1位卷积核子集是所述CNN模型的所有卷积层共享的。

6.根据权利要求1所述的AI加速器,其中,所述1位卷积核子集是特定于所述CNN模型的卷积层的。

7.根据权利要求6所述的AI加速器,其中,特定于所述CNN模型的不同卷积层的1位卷积核子集包括相同数量的1位卷积核。

8.根据权利要求6所述的AI加速器,其中,特定于所述CNN模型的不同卷积层的1位卷积核子集包括不同数量的1位卷积核。

9.根据权利要求1所述的AI加速器,其中,所述1位卷积核子集的所述2τ个1位卷积核是从包括大小为K×K的所有可能的1位卷积核或其中一部分的1位卷积核集中随机选择的。

10.根据权利要求1所述的AI加速器,其中,与所述CNN模型相关联的网络量化的目标函数是如下定义的:

11.根据权利要求1所述的AI加速器,其中,用于所述CNN模型的卷积层的所述1位卷积核子集是如下确定的:

12.根据权利要求1所述的AI加速器,其中,用于所述CNN模型的卷积层的所述1位卷积核子集是如下确定的:

13.根据权利要求12所述的AI加速器,其中,与所述CNN模型相关联的网络量化的目标函数是如下定义的:

14.一种用于量化卷积神经网络(CNN)模型的方法,包括对于所述CNN模型的卷积层执行以下操作:

15.根据权利要求14所述的方法,其中,所述1位卷积核子集是如下确定的:

16.根据权利要求14所述的方法,其中,所述1位卷积核子集是如下确定的:

17.根据权利要求16所述的方法,其中,用于所述CNN模型的网络量化的目标函数是如下定义的:

18.一种其上存储有指令的计算机可读介质,其中,所述指令在由处理器电路执行时使得所述处理器电路执行权利要求14至17中任一项所述的方法。

19.一种用于卷积神经网络(CNN)的装置,包括用于执行权利要求14至17中任一项所述的方法的装置。

20.一种用于卷积神经网络(CNN)的装置,包括:

...

【技术特征摘要】
【国外来华专利技术】

1.一种人工智能(ai)加速器,包括:

2.根据权利要求1所述1的ai加速器,其中,不同的pe节点生成所述输入图像的不同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果,相同的pe节点生成所述输入图像的相同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果。

3.根据权利要求2所述的ai加速器,其中,所述一个或多个pe节点中的每个pe节点包括:

4.根据权利要求3所述的ai加速器,其中,所述lut单元是具有一个写端口和至少两个读端口的双缓冲器lut。

5.根据权利要求1所述的ai加速器,其中,所述1位卷积核子集是所述cnn模型的所有卷积层共享的。

6.根据权利要求1所述的ai加速器,其中,所述1位卷积核子集是特定于所述cnn模型的卷积层的。

7.根据权利要求6所述的ai加速器,其中,特定于所述cnn模型的不同卷积层的1位卷积核子集包括相同数量的1位卷积核。

8.根据权利要求6所述的ai加速器,其中,特定于所述cnn模型的不同卷积层的1位卷积核子集包括不同数量的1位卷积核。

9.根据权利要求1所述的ai加速器,其中,所述1位卷积核子集的所述2τ个1位卷积核是从包括大小为k×k的所有可能的1位卷积核或其中一部分的1位卷积核集中随机选择的。

1...

【专利技术属性】
技术研发人员:姚安邦杨毅陈峰沈王磊陆鸣程亮张宇刘妙明刘波陈玉荣
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1