模型处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28376566 阅读:13 留言:0更新日期:2021-05-08 00:04
本申请公开了一种模型处理方法、装置、电子设备及存储介质,应用于计算机技术领域,该模型处理方法包括:获取随机赋值的初始样本;通过预先训练好的原始模型,对所述初始样本进行迭代更新,得到最终更新生成的合成样本,其中,所述原始模型根据原始训练样本对神经网络模型训练得到,所述合成样本用于模拟所述原始训练样本;根据所述合成样本,对所述原始模型的模型参数进行微调;对所述微调后的原始模型进行量化压缩,得到压缩后的目标模型。本方法通过生成近似原始训练样本的合成样本,来微调和量化模型,可以减少量化误差,提升量化精度。

【技术实现步骤摘要】
模型处理方法、装置、电子设备及存储介质
本申请涉及计算机
,更具体地,涉及一种模型处理方法、装置、电子设备及存储介质。
技术介绍
伴随着人工智能的发展,深度学习在各个领域取得了突破进展,将深度学习的数学模型部署在移动电子设备与嵌入式系统也成为迫切需求。而当前的深度学习模型,主要依靠强大的硬件计算力来不断提升其架构的层次深度,进而得到较好的准确率。但是,对于现有的嵌入式设备或者大量边缘设备来说,其远远不能承受复杂性较高的数学模型,因此,需要对设备中的深度学习模型进行压缩。
技术实现思路
鉴于上述问题,本申请提出了一种模型处理方法、装置、电子设备及存储介质。第一方面,本申请实施例提供了一种模型处理方法,所述方法包括:获取随机赋值的初始样本;通过预先训练好的原始模型,对所述初始样本进行迭代更新,得到最终更新生成的合成样本,其中,所述原始模型根据原始训练样本对神经网络模型训练得到,所述合成样本用于模拟所述原始训练样本;根据所述合成样本,对所述原始模型的模型参数进行微调;对所述微调后的原始模型进行量化压缩,得到压缩后的目标模型。第二方面,本申请实施例提供了一种模型处理装置,所述装置包括:样本获取模块,用于获取随机赋值的初始样本;样本生成模块,用于通过预先训练好的原始模型,对所述初始样本进行迭代更新,得到最终更新生成的合成样本,其中,所述原始模型根据原始训练样本对神经网络模型训练得到,所述合成样本用于模拟所述原始训练样本;模型微调模块,用于根据所述合成样本,对所述原始模型的模型参数进行微调;模型量化模块,用于对所述微调后的原始模型进行量化压缩,得到压缩后的目标模型。第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述第一方面提供的模型处理方法。第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的模型处理方法。本申请提供的方案,通过获取随机赋值的初始样本,然后通过预先训练好的原始模型,对该初始样本进行迭代更新,以最终更新生成可近似模拟原始训练样本的合成样本,其中,原始模型可根据原始训练样本对神经网络模型训练得到。然后可根据该合成样本,对原始模型的模型参数进行微调,并对微调后的原始模型进行量化压缩,从而可得到压缩后的目标模型。由此,本申请可实现对模型的量化压缩,且不需要原始训练样本的参与,而是通过生成的用于替换原始训练样本的合成样本来对模型进行微调,可以减少因量化压缩而所引起的精度损失,提高量化后模型的准确度。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本申请一个实施例的模型处理方法的一种流程图。图2示出了根据本申请另一个实施例的模型处理方法的一种流程图。图3示出了根据本申请另一个实施例的模型处理方法中步骤S220的一种流程图。图4示出了根据本申请另一个实施例的模型处理方法中步骤S223的一种流程图。图5示出了根据本申请另一个实施例的模型处理方法中步骤S224的一种流程图。图6示出了根据本申请又一个实施例的模型处理方法的一种流程图。图7示出了根据本申请又一个实施例的模型处理方法中步骤S330的一种流程图。图8示出了根据本申请一个实施例的模型处理装置的一种框图。图9是本申请实施例的用于执行根据本申请实施例的模型处理方法的电子设备的框图。图10是本申请实施例的用于保存或者携带实现根据本申请实施例的模型处理方法的程序代码的存储单元。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。在嵌入式设备或者边缘设备侧(如手机端)部署深度学习神经网络时,一个很重要的研究课题就是如何把深度学习神经网络模型进行压缩裁剪,以适应嵌入式设备或者边缘设备侧的低存储空间,以及对模型计算时间效率要求极高的特点。目前最有效的深度学习神经网络模型压缩裁剪的方法就是量化。量化一般可以分为训练时量化和训练后量化两种形式。训练时量化是在训练的过程中就引入量化参数,其往往能够得到较小的量化误差,但存在以下限制:首先,由于量化需要介入训练过程,而训练时是需要大量训练样本集的真实数据的,很多时候进行模型部署的工程师往往拿不到这些大量的训练数据集;其次,量化和训练相耦合,一是增加了训练时的工作量,二是进行量化的工程师需要介入训练过程,增加了量化部署模型的难度;然后,针对不同量化位宽的量化,由于介入训练过程,导致实现难度增加。而训练后量化可以和模型训练过程解耦开,训练完成之后可以直接对模型进行量化,但训练后量化往往量化误差较大,因此,如何提升训练后量化的精度,是一个很重要的研究课题。专利技术人经过长期研究发现,可以在训练完成后通过对模型进行微调,来减少量化误差,但由于模型的微调需要原始训练样本的真实数据,而一般情况下往往拿不到这些原始的训练数据集,因此,专利技术人提出了本申请实施例提供的模型处理方法、装置、服务器、电子设备以及存储介质,可通过生成近似替代原始训练样本集的合成样本,并使用该合成样本来微调模型,从而摆脱了对原始训练数据集的需求,也提升了训练后量化的精度。具体的模型压缩方法在后续的实施例中进行详细的说明。请参阅图1,图1示出了本申请一个实施例提供的模型处理方法的流程示意图。该模型处理方法可以应用于电子设备。下面将以电子设备为例,说明本实施例的具体流程。下面将针对图1所示的流程进行详细的阐述,所示模型处理方法具体可以包括以下步骤:步骤S110:获取随机赋值的初始样本。在本申请实施例中,初始样本可以是在原始模型要求的输入尺寸下,赋值任意随机值得到的输入样本。例如,原始模型要求的输入尺寸为128*128,则初始样本可以是一组随机向量构成的128*128大小的特征图。在一些实施例中,可以是通过用于产生随机数值的函数也即随机函数,来获取得到初始样本。作为一种方式,该随机函数可以是rand(),以返回一个或一组服从均匀分布的随机样本值。示例性地,可通过算法X=rand(m,n)产生一个m*n的随机变量矩阵,从而可得到一个服从均匀分布的初始样本,其中,m*n可以是原始模型要求的输入尺寸。作为另一种方式,随机函数也可以是randn(),以返回一个或一组服从标准正态分布的随机样本值,以具备很好的解释性。示例性地,可通过算法X=randn(m,n)产生一个m*n的随机变量矩阵,从而得到一个服从标准正态分布的初始样本。...

【技术保护点】
1.一种模型处理方法,其特征在于,所述方法包括:/n获取随机赋值的初始样本;/n通过预先训练好的原始模型,对所述初始样本进行迭代更新,得到最终更新生成的合成样本,其中,所述原始模型根据原始训练样本对神经网络模型训练得到,所述合成样本用于模拟所述原始训练样本;/n根据所述合成样本,对所述原始模型的模型参数进行微调;/n对所述微调后的原始模型进行量化压缩,得到压缩后的目标模型。/n

【技术特征摘要】
1.一种模型处理方法,其特征在于,所述方法包括:
获取随机赋值的初始样本;
通过预先训练好的原始模型,对所述初始样本进行迭代更新,得到最终更新生成的合成样本,其中,所述原始模型根据原始训练样本对神经网络模型训练得到,所述合成样本用于模拟所述原始训练样本;
根据所述合成样本,对所述原始模型的模型参数进行微调;
对所述微调后的原始模型进行量化压缩,得到压缩后的目标模型。


2.根据权利要求1所述的方法,其特征在于,所述通过预先训练好的原始模型,对所述初始样本进行迭代更新,得到最终更新生成的合成样本,包括:
将所述初始样本输入所述原始模型进行前向传播,并根据前向传播结果确定第一损失值;
基于所述第一损失值对所述原始模型进行反向传播,并在反向传播的过程中,更新所述初始样本;
重复执行所述将所述初始样本输入所述原始模型进行前向传播,并根据前向传播结果确定第一损失值,至所述基于所述第一损失值对所述原始模型进行反向传播,并在反向传播的过程中,更新所述初始样本的步骤,直到更新后的所述初始样本满足预设条件,停止对所述初始样本的更新,得到所述初始样本最终更新生成的合成样本。


3.根据权利要求2所述的方法,其特征在于,所述原始模型包括批量归一化层以及激活层,所述根据前向传播结果确定第一损失值,包括:
根据前向传播中所述原始模型的输出数据,确定第一因子损失值;
获取所述初始样本经过所述批量归一化层处理后的第一数据,以及所述初始样本经过所述激活层处理后的第二数据;
计算所述第一数据与第二数据的相似度,得到第二因子损失值;
根据所述第一因子损失值以及所述第二因子损失值,确定第一损失值。


4.根据权利要求3所述的方法,其特征在于,所述第一数据包括第一均值和第一方差,所述第二数据包括第二均值和第二方差,所述计算所述第一数据与第二数据的相似度,得到第二因子损失值,包括:
根据所述第一均值和第一方差,确定第一正态分布;
根据所述第二均值和第二方差,确定第二正态分布;
计算所述第一正态分布与第二正态分布之间的相对熵,得到第二因子损失值。


5.根据权利要求3所述的方法,其特征在于,所述根据所述第一因子损失值以及所述第二因...

【专利技术属性】
技术研发人员:谭志鹏
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1