一种基于混合并行的卷积计算装置制造方法及图纸

技术编号:28942324 阅读:9 留言:0更新日期:2021-06-18 21:49
本申请公开了一种基于混合并行的卷积计算装置,包括输入单元,仿真单元,片上处理器包括多个并行的处理单元,分组控制单元和映射单元。本方案的混合并行卷积计算装置在运行中可以实现计算块大小的可调整,以及通道并行度的可调整,并且,本申请提供的装置可以针对网络形状设计适合的通道并行度,还可以成功应用到硬件上进行加速。按照本方案提出的基于混合并行的卷积计算装置,硬件加速平台可以更好的利用融合数据流,提升加速器整体的计算速度以及能效。

【技术实现步骤摘要】
一种基于混合并行的卷积计算装置
本申请涉及人工智能
,尤其涉及一种基于混合并行的卷积计算装置。
技术介绍
现今,深度卷积神经网络(deepconvolutionalneuralnetworks,DCNN)被广泛应用在计算机视觉领域,例如图像分类及目标识别等任务。为了达到更好的性能,卷积计算模型倾向于变得更宽、更深,因此需要大量增加引入的参数数量,同时也带来加速过程中计算复杂度急剧增加的问题,因此势必要在加速过程中进行合适的分块操作。卷积计算中包含有多个维度(输出维度、输入维度、高度、宽度)的计算,这些维度之间存在有多种数据计算复用情况,例如1)输入数据对不同输出通道的复用;2)输出数据在输入通道方向的累加;3)卷积计算在单个计算平面上对参数的复用。如何在加速过程中对卷积进行计算分块,对应安排合适的串行以及并行处理的计算维度成为加速器实现过程中的问题,这些分配会大幅影响加速器整体的计算效率。为了解决上述问题,现有技术广泛应用的CNN加速器数据流为逐层(layer-by-layer)计算,这种计算方式倾向遍历一层中所有的计算块直到完成所有一个卷积层,完成后再从头开始重复该过程,进行下一层卷积的计算。在特征图(featuremap)大的情况下会为相同数据多次访问片外存储,增加整体计算功耗以及计算延时。此外,在进行一些低计算强度(operationalintensity)计算如深度分离卷积(depth-wiseconvolution)、快捷连接(shortcutconnection)甚至说高强度稀疏后的计算时,会出现因为带宽受限造成的性能损失,不能达到硬件规模下的最佳性能。为此开发了融合(fusion)数据流,将连续几层的卷积计算都放在片上完成,可以避免中间对片外存储的重复访问。这个过程中为了保证计算的正确性,所有通道的特征图都需要放在片上进行存储。因此,特征图被分割为小块,依次循环完成整体的计算。然而,该融合数据流把连续几层的计算都放在包含计算核心的片上,使得卷积计算中参数无法得到高效复用,从而增加了参数对外部存储的访问,增加了整体计算延时以及功耗。因此,如何更好地利用融合数据流,提升加速器整体计算速度及能效成为当前亟待解决的技术问题。
技术实现思路
本申请提供了一种基于混合并行的卷积计算装置,以解决现有技术中因参数无法得到高效复用导致的加速效率较低的问题。本申请提供了一种基于混合并行的卷积计算装置,包括:输入单元,被配置为获取输入卷积数据及对应的参数,根据输入卷积数据判断卷积形状,并提取所述输入卷积数据的特征图大小、卷积核大小以及通道数目;仿真单元,被配置为根据输入单元提取到的数据特征得到所述输入卷积数据对应的并行度;所述数据特征包括卷积形状及参数;片上处理器,包括多个并行的处理单元;分组控制单元,与每个处理单元分别连接,被配置为根据所述并行度,将片上处理器上的所有处理单元分为G个分组,G等于并行度,且每个分组中处理单元的数量相等;映射单元,与每个处理单元分别连接,被配置为根据所述并行度、输入卷积数据以及对应的参数控制输入到每个处理单元中的数据及参数;其中,同一分组中的处理单元输入相同的参数、不同的数据;不同分组的处理单元输入不同的参数;所述处理单元用于根据输入的数据及参数完成卷积加速行为并输出结果。在一些实施例中,所述处理单元被配置为根据分组控制单元发送的分组命令,相应调节硬件参数配置,以用于处理来自不同通道的参数。在一些实施例中,所述映射单元还被配置为将剩余通道映射到串行序列上。在一些实施例中,所述仿真单元被进一步配置为:采用预设神经网络开发性能模拟器进行模拟仿真;输入历史卷积形状及参数,根据计算效率生成评估表;采用所述评估表对当前输入单元提取到的数据特征进行评估,得到数据特征对应的并行度。在一些实施例中,所述不同的数据是指对每个特征图采用Ph×Pw切块,得到不同大小的子特征图作为输入到处理单元的数据。本申请提供了一种基于混合并行的卷积计算装置,运行过程中支持适应不同卷积的混合并行度,对不同维度的混合并行都可以用来提升计算性能,尤其用在非结构化稀疏加速器中;可以和不同的高层次计算流(逐层、部分融合)配合,完成更高效的计算过程。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为处理密集卷积和稀疏卷积的消耗示意图;图2为本申请提供的一种基于混合并行的卷积计算装置结构图;图3为本申请提供的装置在G=4时的运行示例图。具体实施方式由于片上资源有限,硬件加速CNN过程中,特征图被分成很多小块进行处理。在先前的固定尺寸计算模块裁剪方法中,会引入对参数外部存储的重复访问。此外,固定尺寸计算模块限制了架构对CNN各种数据类型的重用。本方案的混合并行卷积计算装置在运行中可以实现计算块大小的可调整,以及通道并行度的可调整,这些都可以用来增加专用加速器的硬件效率。本方案另一个有益效果是可以让专用硬件加速器能更好地利用非结构化稀疏。首先,并行处理单元(processingelements,PEs)可以被配置,以便处理不同卷积尺寸,即不同PE共享卷积中的权重或输出特征图。输入相同权重时,PE被配置为处理同一张特征图中的不同部分,这种配置下不会引入负载不均衡和访存冲突的问题。但是,高度并行的PE在被配置为处理小特征图单批次卷积时,无法得到充分利用。当处理同一输出特征图时,不同的PE被配置为处理同一卷积核的不同输入通道。每个卷积核中包含有大量输入通道,这可确保高度并行的PE得到充分利用。但是参数核的高并行性会导致严重的负载不平衡,如图1所示。因此,选择一个合适的PE并行度可以缓解上述问题。由图1可知,在处理密集卷积时,假设由4个并行PE处理,则处理消耗为4PEs×9处理时钟;在处理稀疏卷积时,如果由4个并行PE处理,则处理消耗为4PEs×7处理时钟;如果由2个并行PE处理时,则处理消耗为2PEs×12处理时钟;这里采用计算单元数目×处理时长来代表整体性能,乘积数值越小说明计算方式越高效。因此,在实际应用中应当根据输入数据特征的不同选取最优的并行PE数目,本申请提供了一种装置来达到上述目的。参见图2,为本申请提供的一种基于混合并行的卷积计算装置结构图。由图2可知,本申请实施例提供的装置,包括:输入单元10,被配置为获取输入卷积数据及对应的参数,根据输入卷积数据判断卷积形状,并提取所述输入卷积数据的特征图大小、卷积核大小以及通道数目;其中,输入卷积数据主要是指稀疏卷积数据,首先要对输入的数据进行分析,获取通道数目、对应的特征图信息等。仿真单元20,被配置为根据输入单元10提取到的数据特征得到所述输入卷积数据对应的并行度;所述数据特征包括卷积形状本文档来自技高网
...

【技术保护点】
1.一种基于混合并行的卷积计算装置,其特征在于,所述装置包括:/n输入单元(10),被配置为获取输入卷积数据及对应的参数,根据输入卷积数据判断卷积形状,并提取所述输入卷积数据的特征图大小、卷积核大小以及通道数目;/n仿真单元(20),被配置为根据输入单元(10)提取到的数据特征得到所述输入卷积数据对应的并行度;所述数据特征包括卷积形状及参数;/n片上处理器(30),包括多个并行的处理单元(31);/n分组控制单元(40),与每个处理单元(31)分别连接,被配置为根据所述并行度,将片上处理器(30)上的所有处理单元(31)分为G个分组,G等于并行度,且每个分组中处理单元(31)的数量相等;/n映射单元(50),与每个处理单元(31)分别连接,被配置为根据所述并行度、输入卷积数据以及对应的参数控制输入到每个处理单元(31)中的数据及参数;其中,同一分组中的处理单元(31)输入相同的参数、不同的数据;不同分组的处理单元(31)输入不同的参数;/n所述处理单元(31)用于根据输入的数据及参数完成卷积加速行为并输出结果。/n

【技术特征摘要】
1.一种基于混合并行的卷积计算装置,其特征在于,所述装置包括:
输入单元(10),被配置为获取输入卷积数据及对应的参数,根据输入卷积数据判断卷积形状,并提取所述输入卷积数据的特征图大小、卷积核大小以及通道数目;
仿真单元(20),被配置为根据输入单元(10)提取到的数据特征得到所述输入卷积数据对应的并行度;所述数据特征包括卷积形状及参数;
片上处理器(30),包括多个并行的处理单元(31);
分组控制单元(40),与每个处理单元(31)分别连接,被配置为根据所述并行度,将片上处理器(30)上的所有处理单元(31)分为G个分组,G等于并行度,且每个分组中处理单元(31)的数量相等;
映射单元(50),与每个处理单元(31)分别连接,被配置为根据所述并行度、输入卷积数据以及对应的参数控制输入到每个处理单元(31)中的数据及参数;其中,同一分组中的处理单元(31)输入相同的参数、不同的数据;不同分组的处理单元(31)输入不同的参数;
所述处理单元(31)用于根据输入的数据及参数...

【专利技术属性】
技术研发人员:谢逍如秦子迪林军
申请(专利权)人:南京风兴科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1