卷积运算的处理方法、电子设备、移动终端及存储介质技术

技术编号:30040620 阅读:30 留言:0更新日期:2021-09-15 10:39
本申请公开了一种卷积运算的处理方法、电子设备、移动终端及存储介质,该处理方法包括:获取待处理的卷积运算以及配置数据库;将卷积运算转换为矩阵乘法,矩阵乘法对应一卷积尺寸;若确定配置数据库中无卷积尺寸对应的配置参数,则根据卷积尺寸以及硬件参数定义一参数搜索空间;根据参数搜索空间中的配置参数生成多个运算代码,并利用多个运算代码对矩阵乘法进行计算,以得到多个运算结果;将多个运算结果中满足预设条件的一个运算结果对应的运算代码的配置参数,存储至配置数据库。通过上述方式,本申请能够对矩阵乘法进行重构优化,从而以性能较好的矩阵乘法对卷积运算进行提升。而以性能较好的矩阵乘法对卷积运算进行提升。而以性能较好的矩阵乘法对卷积运算进行提升。

【技术实现步骤摘要】
卷积运算的处理方法、电子设备、移动终端及存储介质


[0001]本申请涉及可重构
,特别是涉及一种卷积运算的处理方法、电子设备、移动终端及存储介质。

技术介绍

[0002]近年来,大量的深度学习(DL)应用程序已经从专业的科学领域逐渐扩散到了消费者市场,具体的应用包括实时游戏机器人,自动驾驶汽车导航,VR社交平台以及使用数百万个摄像头的交通监控。在许多情况下,通常利用GPU群集、TPU群集进行训练的模型在边缘设备上部署使用,以提供实时的人工智能服务。
[0003]卷积计算是人工智能服务中常用卷积神经网络(CNN)中主要的运算部分,它在许多网络模型的运算占比达到了99%以上。卷积计算可以通过转换成矩阵乘法,所以许多应用程序使用了BLAS(基本线性代数子例程),手工编写的矩阵运算例程,甚至是扩展矩阵运算例程作为卷积计算的实现。
[0004]目前,卷积神经网络中生成的矩阵大多是长条形矩阵,而那些性能很好的BLAS计算库,基本都是针对正方形矩阵运算进行优化的,基于优化策略不一致,所以它们通常无法在这些长条形矩阵的计算上提供最佳的性能,矩阵乘法的性能也就无法得以较好的提升。

技术实现思路

[0005]本申请实施例的第一方面提供了卷积运算的处理方法,该处理方法包括:获取待处理的卷积运算以及配置数据库;将卷积运算转换为矩阵乘法,矩阵乘法对应一卷积尺寸;若确定配置数据库中无卷积尺寸对应的配置参数,则根据卷积尺寸以及硬件参数定义一参数搜索空间;根据参数搜索空间中的配置参数生成多个运算代码,并利用多个运算代码对矩阵乘法进行计算,以得到多个运算结果;将多个运算结果中满足预设条件的一个运算结果对应的运算代码的配置参数,存储至配置数据库。
[0006]本申请实施例的第二方面提供了一种移动终端,包括:处理器和存储器,存储器中存储有计算机程序,处理器用于执行计算机程序以实现本申请实施例第一方面提供的处理方法。
[0007]本申请实施例的第三方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序能够被处理器执行时实现本申请实施例第一方面提供的处理方法。
[0008]本申请的有益效果是:区别于现有技术的情况,本申请针对目前卷积运算的处理方法,通过确定配置数据库中没有对应的配置参数,根据卷积尺寸以及硬件参数定义一参数搜索空间,从而在根据参数搜索空间中的配置参数对矩阵乘法进行重构优化,生成多个运算代码,并利用多个运算代码对矩阵乘法进行计算,以得到多个运算结果,进而以提升矩阵乘法对卷积运算的性能。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是本申请卷积运算的处理方法第一实施例的流程示意图;
[0011]图2是图1中步骤S13一具体实施例的流程示意图;
[0012]图3是图2中步骤S23一具体实施例的流程示意图;
[0013]图4是图1中步骤S14一具体实施例的流程示意图;
[0014]图5是图1中步骤S15一具体实施例的流程示意图;
[0015]图6是本申请卷积运算的处理方法一具体实施例的矩阵框架示意图;
[0016]图7是本申请矩阵的分块结构示意图;
[0017]图8是本申请卷积运算的处理方法一具体实施例的流程示意图;
[0018]图9是本申请卷积运算的处理方法的结果示意图;
[0019]图10是本申请的移动终端一实施例的示意框图;
[0020]图11是本申请的计算机可读存储介质一实施例的示意框图;
具体实施方式
[0021]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0022]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0023]还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0024]还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0025]如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0026]在2017年,整个手机消费市场就售出了15亿部手机。腾讯信标报告称,2019年第二季度在线活跃用户/移动设备的数量为682,956,170台。假设每台移动设备的平均计算性能为50GFlops,那么腾讯报告中提到的活跃移动设备的总体理论峰值性能之和将超过世界上最快的基于ARM架构实现的超级计算机Fugaku。
[0027]卷积计算是常用卷积神经网络(CNN)中主要的运算部分,它在许多网络模型的运
算占比达到了99%以上,如下表表1所示:
[0028]表1深度学习常见CNN网络模型中卷积计算耗时占比
[0029][0030]在移动计算的环境中,基于ARM架构的CPU是移动设备中使用的主要硬件体系结构,它是探索当前神经网络部署的最佳解决方案的合适且实用的硬件平台。每年有数十家授权供应商通过修改ARM架构的缓存大小,内存类型,指令CPI或指令集来制造数十种不同类型的ARM SoC。因此,如果深度学习应用要充分利用给定设备中的硬件资源,那么应用性能可移植性也是一个挑战。当深度学习应用要使用ARM SoC上的后端计算库为深度学习模型提供服务时,它们就必须解决“应用性能可移植性”这一问题。
[0031]对于数十亿种具有数百种硬件规格的ARM SoC而言,性能移植的生产力是部署深度学习模型的另一个挑战。ARM已经发布了10种Cortex

M和16种Cortex

A/X系列架构,而Apple和其他供应商已经发布了基于ARM架构的37种架构。因此,通过手动调优这一方式来覆盖所有ARM硬件架构的矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种卷积运算的处理方法,其特征在于,所述方法包括:获取待处理的卷积运算以及配置数据库;将所述卷积运算转换为矩阵乘法,所述矩阵乘法对应一卷积尺寸;若确定所述配置数据库中无所述卷积尺寸对应的配置参数,则根据所述卷积尺寸以及硬件参数定义一参数搜索空间;根据所述参数搜索空间中的配置参数生成多个运算代码,并利用所述多个运算代码对所述矩阵乘法进行计算,以得到多个运算结果;将所述多个运算结果中满足预设条件的一个运算结果对应的运算代码的配置参数,存储至所述配置数据库。2.根据权利要求1所述的处理方法,其特征在于,所述若确定所述配置数据库中无所述卷积尺寸对应的配置参数,则根据所述卷积尺寸以及硬件参数定义一参数搜索空间,包括:判断所述配置数据库中是否有所述卷积尺寸对应的配置参数;若所述配置数据库中有所述卷积尺寸对应的配置参数,则按照所述配置参数生成运算代码并进行计算得到运算结果;若所述配置数据库中无所述卷积尺寸对应的配置参数,则根据所述卷积尺寸以及所述硬件参数定义所述配置参数对应的一参数搜索空间。3.根据权利要求2所述的处理方法,其特征在于,所述卷积尺寸对应的所述配置参数至少包括第一矩阵的行数、第一矩阵的列数、第一矩阵的缓存块的行数、第一矩阵的缓存块的列数、第二矩阵的列数、第二矩阵的缓存块的列数、寄存器块的行数、寄存器块的列数、第一矩阵的预取值、第二矩阵的预取值以及搜索空间标签;其中,所述第一矩阵的缓存块的行数的取值范围为[8,max(M,1024)],所述M为所述第一矩阵的行数,所述第一矩阵的缓存块的列数的取值范围为[8,max(K,1024)],所述K为所述第一矩阵的列数,所述第二矩阵的缓存块的列数的取值范围为[8,max(N,1024)],所述N为所述第二矩阵的行数,所述寄存器块的行数的取值范围为4或8,所述寄存器块的列数为8、12或16,第一矩阵的预取值以及第二矩阵的预取值至少包括0、32、64、128、256或512之一,所述搜索空间标签取值至少包括0、1、2或3。4.根据权利要求3所述的处理方法,其特征在于,所述若所述配置数据库中无所述卷积尺寸对应的配置参数,则根据所述卷积尺寸以及所述硬件参数定义所述配置参数对应的一参数搜索空...

【专利技术属性】
技术研发人员:庄晨孟金涛魏彦杰
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1