System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及神经网络计算,具体而言,涉及一种卷积计算方法、协处理器。
技术介绍
1、近年来有很多卷积神经网络(convolutional neural network,cnn)专用加速芯片被提出,它们虽然有利用cnn的并行特性来加速计算,利用cnn的数据复用特性来降低访存次数进而降低访存功耗,但是没有进一步考虑二值权重卷积神经网络(binary-weightconvolutional neural network,bwcnn)本身的一些特性来设计相应的协处理器架构和计算模式。
2、现有的协处理器架构主要关注片外动态随机存储器(dynamic random accessmemory,dram)访问功耗,采用片上sram缓存一部分在卷积过程中需要被反复读取使用的数据,以减少对片外dram的访问,降低访存功耗。但是对于bwcnn,因为权重位宽只有1bit,很多物联网或嵌入式应用也会将网络中间层的特征值数据量化为8bit、4bit、2bit甚至1bit,这就使得很多模型的推理完全采用片上静态随机存储器(static random access memory,sram)就能满足存储需求,无需片外dram参与,而对于这种场景,如何降低sram的访存功耗就决定了能否取得更高的能效比,这对于电池供电的应用尤为重要。
技术实现思路
1、本专利技术实施例提供了一种卷积计算方法、协处理器,以至少解决相关技术中bwcnn卷积计算sram访存功耗大、卷积计算效率低的问题。
2
3、在一个示例性实施例中,还包括:二维计算单元pe阵列,用于在列方向上进行输出图的不同行的并行计算,在行方向上进行输出图的不同通道的并行计算,其中,所述二维pe阵列还接收所述全局缓存子模块预取的所述输入数据。
4、在一个示例性实施例中,还包括:后处理模块,用于对所述并行计算得到的所述输出图进行批量归一化relu计算,其中,所述输出图为负数时,所述批量归一化relu计算的计算结果为0。
5、在一个示例性实施例中,还包括:控制模块,用于控制所述三级存储模块、所述二维pe阵列以及所述后处理模块之间的数据调度,并控制所述sram子模块与中央处理器cpu的通信过程。
6、在一个示例性实施例中,所述全局缓存子模块进一步包括:输入缓存单元,用于从所述sram子模块中预取特征图块数据并组织成所述二维pe阵列所需的特征值向量;卷积核缓存单元,用于从所述sram子模块中预取卷积核权重数据并组织成所述二维pe阵列所需的权重向量。
7、在一个示例性实施例中,所述二维pe阵列进一步包括:列向量点乘单元,用于计算所述特征值向量和所述权重向量的点积;累加型计算单元,用于查找所述点积并进行累加,完成所有的输入通道进行卷积计算,得到输出图;其中,所述列向量点乘单元位于所述二维pe阵列的第一行。
8、在一个示例性实施例中,还包括:并行全局缓存子模块,用于在二维pe阵列在列方向上进行输出图的不同行的并行计算,在行方向上进行输出图的不同通道的并行计算的同时,预取下一输入通道进行卷积计算所需的输入数据。
9、根据本专利技术的另一个实施例,提供了一种卷积计算方法,用于二值权重卷积神经网络bwcnn协处理器,包括:将从bwcnn协处理器的特征图静态随机存储器sram中预取的特征图块数据储存至所述bwcnn协处理器的全局缓存子模块的输入缓存单元,将从所述bwcnn协处理器的卷积核sram中预取的卷积核权重数据储存至所述全局缓存子模块的卷积核缓存单元。
10、在一个示例性实施例中,所述将从bwcnn协处理器的特征图静态随机存储器sram中预取的特征图块数据储存至所述bwcnn协处理器的全局缓存子模块的输入缓存单元,将从所述bwcnn协处理器的卷积核sram中预取的卷积核权重数据储存至所述全局缓存子模块的卷积核缓存单元之后,还包括:所述bwcnn协处理器的二维计算单元pe阵列在列方向上进行输出图的不同行的并行计算;所述二维pe阵列在行方向上进行输出图的不同通道的并行计算。
11、在一个示例性实施例中,所述二维pe阵列在列方向上进行输出图的不同行的并行计算之前,还包括:所述输入缓存单元将所述特征图块数据组织成所述二维pe阵列所需的特征值向量,所述卷积核缓存单元将所述卷积核权重数据组织成所述二维pe阵列所需的权重向量。
12、在一个示例性实施例中,所述二维pe阵列在列方向上进行输出图的不同行的并行计算,包括:从所述输入缓存单元中取出一列所述特征图块数据,输入至所述二维pe阵列的列向量点乘单元;所述列向量点乘单元计算所述特征值向量和所述权重向量的点积,并存入寄存器组;所述二维pe阵列的累加型计算单元查找所述点积并进行累加。
13、在一个示例性实施例中,所述二维pe阵列在行方向上进行输出图的不同通道的并行计算,包括:所述卷积核权重数据在同一行的所述累加型计算单元之间传播;所述累加型计算单元在时间尺度上依次扫描输入特征图列和卷积核列,经过24个时钟周期完成一个输入通道的卷积计算;遍历所有的输入通道进行卷积计算,得到所述输出图。
14、在一个示例性实施例中,还包括:对所述输出图进行批量归一化relu计算,其中,所述输出图为负数时,所述批量归一化relu计算的计算结果为0。
15、在一个示例性实施例中,所述所述将从bwcnn协处理器的特征图静态随机存储器sram中预取的特征图块数据储存至所述bwcnn协处理器的全局缓存子模块的输入缓存单元,将从所述bwcnn协处理器的卷积核sram中预取的卷积核权重数据储存至所述全局缓存子模块的卷积核缓存单元之前,还包括:所述bwcnn协处理器通过协处理器请求通道接收来自中央处理器cpu的执行单元exu的bwcnn计算请求;所述bwcnn协处理器通过存储器请求通道向所述cpu的存取单元lsu发送数据加载请求;所述bwcnn协处理器通过存储器反馈通道接收来自所述lsu的反馈数据。
16、根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
17、根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
18、本专利技术的上述实施例,通过提供一种用于二值权重卷积神经网络bwcnn的协处理器,包括:三级存储模块,包括sram子模块、全局缓本文档来自技高网...
【技术保护点】
1.一种协处理器,其特征在于,用于二值权重卷积神经网络BWCNN,包括:
2.根据权利要求1所述的协处理器,其特征在于,还包括:
3.根据权利要求2所述的协处理器,其特征在于,还包括:
4.根据权利要求3所述的协处理器,其特征在于,还包括:
5.根据权利要求2所述的协处理器,其特征在于,所述全局缓存子模块进一步包括:
6.根据权利要求5所述的协处理器,其特征在于,所述二维PE阵列进一步包括:
7.根据权利要求1所述的协处理器,其特征在于,还包括:
8.一种卷积计算方法,其特征在于,用于二值权重卷积神经网络BWCNN协处理器,包括:
9.根据权利要求8所述的方法,其特征在于,所述将从BWCNN协处理器的特征图静态随机存储器SRAM中预取的特征图块数据储存至所述BWCNN协处理器的全局缓存子模块的输入缓存单元,将从所述BWCNN协处理器的卷积核SRAM中预取的卷积核权重数据储存至所述全局缓存子模块的卷积核缓存单元之后,还包括:
10.根据权利要求9所述的方法,其特征在于,所述二
11.根据权利要求10所述的方法,其特征在于,所述二维PE阵列在列方向上进行输出图的不同行的并行计算,包括:
12.根据权利要求10所述的方法,其特征在于,所述二维PE阵列在行方向上进行输出图的不同通道的并行计算,包括:
13.根据权利要求12所述的方法,其特征在于,得到所述输出图之后,还包括:
14.根据权利要求8所述的方法,其特征在于,所述将从BWCNN协处理器的特征图静态随机存储器SRAM中预取的特征图块数据储存至所述BWCNN协处理器的全局缓存子模块的输入缓存单元,将从所述BWCNN协处理器的卷积核SRAM中预取的卷积核权重数据储存至所述全局缓存子模块的卷积核缓存单元之前,还包括:
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求8至14任一项中所述的方法。
16.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求8至14任一项中所述的方法。
...【技术特征摘要】
1.一种协处理器,其特征在于,用于二值权重卷积神经网络bwcnn,包括:
2.根据权利要求1所述的协处理器,其特征在于,还包括:
3.根据权利要求2所述的协处理器,其特征在于,还包括:
4.根据权利要求3所述的协处理器,其特征在于,还包括:
5.根据权利要求2所述的协处理器,其特征在于,所述全局缓存子模块进一步包括:
6.根据权利要求5所述的协处理器,其特征在于,所述二维pe阵列进一步包括:
7.根据权利要求1所述的协处理器,其特征在于,还包括:
8.一种卷积计算方法,其特征在于,用于二值权重卷积神经网络bwcnn协处理器,包括:
9.根据权利要求8所述的方法,其特征在于,所述将从bwcnn协处理器的特征图静态随机存储器sram中预取的特征图块数据储存至所述bwcnn协处理器的全局缓存子模块的输入缓存单元,将从所述bwcnn协处理器的卷积核sram中预取的卷积核权重数据储存至所述全局缓存子模块的卷积核缓存单元之后,还包括:
10.根据权利要求9所述的方法,其特征在于,所述二维pe阵列在列方向上进行输出图的不同行的并行...
【专利技术属性】
技术研发人员:王涛,
申请(专利权)人:深圳市中兴微电子技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。