深度卷积神经网络量化的方法、系统、设备和存储介质技术方案

技术编号:33284722 阅读:16 留言:0更新日期:2022-04-30 23:49
本发明专利技术提供一种深度卷积神经网络量化的方法、系统、设备和存储介质,方法包括:解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子;在构建的测试集进行浮点型参数推理,并根据相对熵散度计算得到特征量化缩放因子;对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子;以及根据所述特征量化缩放因子和所述权重量化缩放因子进行量化推理。本发明专利技术将随机舍入应用到深度神经网络模型量化中,同时对按通道量化算法进行优化,在设计的专用设备上进行量化推理,提高深度神经网络模型量化推理精度和效率。度和效率。度和效率。

【技术实现步骤摘要】
深度卷积神经网络量化的方法、系统、设备和存储介质


[0001]本专利技术涉及深度学习领域,更具体地,特别是指一种深度卷积神经网络量化的方法、系统、设备和存储介质。

技术介绍

[0002]近年来,深度学习的快速发展,为提高各种AI应用场景的检查精度,深度神经网络结构的尺寸和层数以及各类参数等数量不断增加,导致深度学习模型现需要更大的空间需求,更低的推理效率。作为通用的深度学习优化手段之一,模型量化为深度卷积神经网络量化为定点模型,拥有更小的存储空间和更快的推理速度,而且保证精度在一定损失范围内,其适用于绝大多数模型和使用场景。模型量化是指将深度神经网络中的浮点型参数线性映射为定点型(如int8)参数,从而达到减少模型存储大小、减少模型内存消耗以及加快模型推理速度。
[0003]现有的技术方案往往直接对深度卷积神经网络中的每一层进行量化,根据参数类型分为权值量化和特征量化。其中权值量化采用每层卷积层的最大值求取缩放因子,将浮点型参数线性映射到定点型参数;特征量化往往采用KL(Kullback Leibler,相对熵)散度,根据输入的浮点型参数进行推理得到每层输出的浮点型数据求取每一层对应的散度,选取散度最小值对应的定点型参数来量化该层权重。现有的量化技术方案,多数仅支持深度卷积神经按层量化,不支持按通道量化,不能满足例如MobileNet等网络模型的量化,且量化精度低。现有的量化技术方案,多数是传统的通用处理器如中央处理器(Central Processing Unit,CPU)上进行量化推理,但CPU拥有丰富的控制逻辑,只有少量运算器,处理深度卷积神经网络的效率很低。

技术实现思路

[0004]有鉴于此,本专利技术实施例的目的在于提出一种深度卷积神经网络量化的方法、系统、计算机设备及计算机可读存储介质,本专利技术将随机舍入应用到深度神经网络模型量化中,支持深度卷积神经网络按通道量化,提高深度卷积神经网络模型的量化推理精度,并运行在专用设备FPGA(Field Programmable Gate Array,现场可编程门阵列)的板卡上,提高计算效率。
[0005]基于上述目的,本专利技术实施例的一方面提供了一种深度卷积神经网络量化的方法,包括如下步骤:解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子;在构建的测试集进行浮点型参数推理,并根据相对熵散度计算得到特征量化缩放因子;对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子;以及根据所述特征量化缩放因子和所述权重量化缩放因子进行量化推理。
[0006]在一些实施方式中,所述在需要量化的算子处插入伪量化算子包括:将所述深度神经网络模型中的批量归一化层合并至卷积层,并更新所述卷积层的权重和偏置。
[0007]在一些实施方式中,所述根据相对熵散度计算得到特征量化缩放因子包括:确定
相对熵散度最小值对应的特征值,并根据所述特征值计算得到特征量化缩放因子。
[0008]在一些实施方式中,所述对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子包括:确定卷积层权值中每个通道绝对值的最大值,并根据所述最大值计算得到每个通道对应的权重量化缩放因子。
[0009]本专利技术实施例的另一方面,提供了一种深度卷积神经网络量化的系统,包括:解析模块,配置用于解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子;第一因子模块,配置用于在构建的测试集进行浮点型参数推理,并根据相对熵散度计算得到特征量化缩放因子;第二因子模块,配置用于对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子;以及执行模块,配置用于根据所述特征量化缩放因子和所述权重量化缩放因子进行量化推理。
[0010]在一些实施方式中,所述解析模块配置用于:将所述深度神经网络模型中的批量归一化层合并至卷积层,并更新所述卷积层的权重和偏置。
[0011]在一些实施方式中,所述第一因子模块配置用于:确定相对熵散度最小值对应的特征值,并根据所述特征值计算得到特征量化缩放因子。
[0012]在一些实施方式中,所述第二因子模块配置用于:确定卷积层权值中每个通道绝对值的最大值,并根据所述最大值计算得到每个通道对应的权重量化缩放因子。
[0013]本专利技术实施例的又一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。
[0014]本专利技术实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
[0015]本专利技术具有以下有益技术效果:将随机舍入应用到深度神经网络模型量化中,支持深度卷积神经网络按通道量化,提高深度卷积神经网络模型的量化推理精度,并运行在专用设备FPGA的板卡上,提高计算效率。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0017]图1为本专利技术提供的深度卷积神经网络量化的方法的实施例的示意图;
[0018]图2为本专利技术提供的深度卷积神经网络量化的系统的实施例的示意图;
[0019]图3为本专利技术提供的深度卷积神经网络量化的计算机设备的实施例的硬件结构示意图;
[0020]图4为本专利技术提供的深度卷积神经网络量化的计算机存储介质的实施例的示意图。
具体实施方式
[0021]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照
附图,对本专利技术实施例进一步详细说明。
[0022]需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。
[0023]本专利技术实施例的第一个方面,提出了一种深度卷积神经网络量化的方法的实施例。图1示出的是本专利技术提供的深度卷积神经网络量化的方法的实施例的示意图。如图1所示,本专利技术实施例包括如下步骤:
[0024]S1、解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子;
[0025]S2、在构建的测试集进行浮点型参数推理,并根据相对熵散度计算得到特征量化缩放因子;
[0026]S3、对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子;以及
[0027]S4、根据所述特征量化缩放因子和所述权重量化缩放因子进行量化推理。
[0028]解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度卷积神经网络量化的方法,其特征在于,包括如下步骤:解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子;在构建的测试集进行浮点型参数推理,并根据相对熵散度计算得到特征量化缩放因子;对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子;以及根据所述特征量化缩放因子和所述权重量化缩放因子进行量化推理。2.根据权利要求1所述的方法,其特征在于,所述在需要量化的算子处插入伪量化算子包括:将所述深度神经网络模型中的批量归一化层合并至卷积层,并更新所述卷积层的权重和偏置。3.根据权利要求1所述的方法,其特征在于,所述根据相对熵散度计算得到特征量化缩放因子包括:确定相对熵散度最小值对应的特征值,并根据所述特征值计算得到特征量化缩放因子。4.根据权利要求1所述的方法,其特征在于,所述对所述深度学习神经网络模型的卷积层或全连接层权重参数进行量化以得到权重量化缩放因子包括:确定卷积层权值中每个通道绝对值的最大值,并根据所述最大值计算得到每个通道对应的权重量化缩放因子。5.一种深度卷积神经网络量化的系统,其特征在于,包括:解析模块,配置用于解析深度学习神经网络模型,并在需要量化的算子处插入伪量化算子;第一因子模块,配置用于在构建的测试集进行浮点型参数推理,并...

【专利技术属性】
技术研发人员:贾敬崧
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1