卷积神经网络模型的分数位量化和部署制造技术

技术编号：44587922 阅读：1 留言：0更新日期：2025-03-14 12:47

本公开涉及CNN模型的分数位网络量化和部署。一种AI加速器，包括：输入缓冲器，被配置为缓冲输入图像；权重缓冲器，被配置为缓冲用于CNN模型的卷积层的卷积核索引；核模式缓冲器，被配置为缓冲用于CNN模型的卷积层的1位卷积核子集，其中，1位卷积核子集包括大小为K×K的2<supgt;τ</supgt;个1位卷积核；PE阵列，包括一个或多个PE节点，每个PE节点被配置为生成输入图像的图像区域与1位卷积核子集中对应于卷积核索引的1位卷积核的卷积结果；以及输出缓冲器，被配置为缓冲输入图像的各个图像区域与对应于卷积核索引的1位卷积核的卷积结果。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本文描述的实施例总地涉及神经网络领域，更具体地涉及卷积神经网络(cnn)模型的分数位(fractional-bit)网络量化和部署。

技术介绍

1、卷积神经网络(cnn)模型是对许多计算机视觉任务实现了最先进性能的强大学习模型。cnn模型包括输入层、输出层、和位于其间的至少一个隐藏层，并使用复杂的数学模型来处理在这些网络层之间传输的数据。

技术实现思路

【技术保护点】

1.一种人工智能(AI)加速器，包括：

2.根据权利要求1所述1的AI加速器，其中，不同的PE节点生成所述输入图像的不同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果，相同的PE节点生成所述输入图像的相同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果。

3.根据权利要求2所述的AI加速器，其中，所述一个或多个PE节点中的每个PE节点包括：

4.根据权利要求3所述的AI加速器，其中，所述LUT单元是具有一个写端口和至少两个读端口的双缓冲器LUT。

5.根据权利要求1所述的AI加速器，其中，所述1位卷积核子集是所述CNN模型的所有卷积层共享的。

6.根据权利要求1所述的AI加速器，其中，所述1位卷积核子集是特定于所述CNN模型的卷积层的。

7.根据权利要求6所述的AI加速器，其中，特定于所述CNN模型的不同卷积层的1位卷积核子集包括相同数量的1位卷积核。

8.根据权利要求6所述的AI加速器，其中，特定于所述CNN模型的不同卷积层的1位卷积核子集包括不同数量的1位卷积核。

9.根

10.根据权利要求1所述的AI加速器，其中，与所述CNN模型相关联的网络量化的目标函数是如下定义的：

11.根据权利要求1所述的AI加速器，其中，用于所述CNN模型的卷积层的所述1位卷积核子集是如下确定的：

12.根据权利要求1所述的AI加速器，其中，用于所述CNN模型的卷积层的所述1位卷积核子集是如下确定的：

13.根据权利要求12所述的AI加速器，其中，与所述CNN模型相关联的网络量化的目标函数是如下定义的：

14.一种用于量化卷积神经网络(CNN)模型的方法，包括对于所述CNN模型的卷积层执行以下操作：

15.根据权利要求14所述的方法，其中，所述1位卷积核子集是如下确定的：

16.根据权利要求14所述的方法，其中，所述1位卷积核子集是如下确定的：

17.根据权利要求16所述的方法，其中，用于所述CNN模型的网络量化的目标函数是如下定义的：

18.一种其上存储有指令的计算机可读介质，其中，所述指令在由处理器电路执行时使得所述处理器电路执行权利要求14至17中任一项所述的方法。

19.一种用于卷积神经网络(CNN)的装置，包括用于执行权利要求14至17中任一项所述的方法的装置。

20.一种用于卷积神经网络(CNN)的装置，包括：

...

【技术特征摘要】
【国外来华专利技术】

1.一种人工智能(ai)加速器，包括：

2.根据权利要求1所述1的ai加速器，其中，不同的pe节点生成所述输入图像的不同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果，相同的pe节点生成所述输入图像的相同图像区域与对应于所述卷积核索引的1位卷积核的卷积结果。

3.根据权利要求2所述的ai加速器，其中，所述一个或多个pe节点中的每个pe节点包括：

4.根据权利要求3所述的ai加速器，其中，所述lut单元是具有一个写端口和至少两个读端口的双缓冲器lut。

5.根据权利要求1所述的ai加速器，其中，所述1位卷积核子集是所述cnn模型的所有卷积层共享的。

6.根据权利要求1所述的ai加速器，其中，所述1位卷积核子集是特定于所述cnn模型的卷积层的。

7.根据权利要求6所述的ai加速器，其中，特定于所述cnn模型的不同卷积层的1位卷积核子集包括相同数量的1位卷积核。

8.根据权利要求6所述的ai加速器，其中，特定于所述cnn模型的不同卷积层的1位卷积核子集包括不同数量的1位卷积核。

9.根据权利要求1所述的ai加速器，其中，所述1位卷积核子集的所述2τ个1位卷积核是从包括大小为k×k的所有可能的1位卷积核或其中一部分的1位卷积核集中随机选择的。

1...

【专利技术属性】
技术研发人员：姚安邦，杨毅，陈峰，沈王磊，陆鸣，程亮，张宇，刘妙明，刘波，陈玉荣，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人