卷积神经网络的优化方法及相关产品技术

技术编号:25449181 阅读:20 留言:0更新日期:2020-08-28 22:34
一种卷积神经网络的优化方法及相关产品,所述方法包括:获得预训练模型M;将预训练模型M在指定领域的数据集D重训练得到初始模型M

【技术实现步骤摘要】
【国外来华专利技术】卷积神经网络的优化方法及相关产品
本专利技术涉及通信以及人工智能
,具体涉及一种卷积神经网络的优化方法及相关产品。
技术介绍
近年来,作为一种机器学习模型,深度卷积神经网络在计算机视觉等领域取得了优异的效果,在部分任务中甚至超过人类的平均水平,如图像分类识别,围棋比赛等。卷积神经网络一般包含多个卷积层,中间穿插着池化层,线性整流层等,网络的顶部一般有一个或多个全连接层,最顶端为用于训练的损失函数层。迁移学习是一种机器学习模型的开发与训练方法,目的是把在领域A中训练完成的模型M,通过重训练等方法以较低的成本迁移到领域B中。迁移学习技术在深度卷积神经网络中的应用很广泛,但是这类网络的训练时间很长,成本很高。
技术实现思路
本专利技术实施例提供了一种卷积神经网络的优化方法及相关产品,可以将训练好的模型进行简单的重训练即可以应用到目标领域中,具有降低成本的优点。第一方面,本专利技术实施例提供一种卷积神经网络的优化方法,所述方法包括如下步骤:获得预训练模型M;将预训练模型M在指定领域的数据集D重训练得到初始模型M0,对初始模型M0进行替换层操作;所述替换层操作包括:基于二分图最大匹配算法确定初始模型M0中标准卷积层e适合被替换成高效卷积层,确定标准卷积层e被替换成高效卷积层的第一中间模型M1效果增益;对第一中间模型M1的参数进行重整化得到第二中间模型M2;对第二中间模型M2进行初始化以及重训练得到第三中间模型M3;计算第三中间模型M3的损失值;<br>重复执行替换层操作得到多个第三中间模型M3以及多个损失值;选择损失值最小的第三中间模型M3为输出模型。可选的,所述基于二分图最大匹配算法确定初始模型M0中标准卷积层e适合被替换成高效卷积层具体包括:从初始模型M0中寻找一个包含Ng个组的组卷积层是的层内连接的重要性变化最小;所述重要性为每个连接中全部权重的L2范数;可选的,所述损失值包括:其中,Lw为损失值。第二方面,提供一种卷积神经网络的优化装置,所述装置包括:获取单元,用于获得预训练模型M;训练单元,用于将预训练模型M在指定领域的数据集D重训练得到初始模型M0;替换单元,用于对初始模型M0进行替换层操作;所述替换层操作包括:基于二分图最大匹配算法确定初始模型M0中标准卷积层e适合被替换成高效卷积层,确定标准卷积层e被替换成高效卷积层的第一中间模型M1效果增益;对第一中间模型M1的参数进行重整化得到第二中间模型M2;对第二中间模型M2进行初始化以及重训练得到第三中间模型M3;计算第三中间模型M3的损失值;选择单元,用于控制所述替换单元重复执行替换层操作得到多个第三中间模型M3以及多个损失值;选择损失值最小的第三中间模型M3为输出模型。可选的,所述替换单元,具体用于从初始模型M0中寻找一个包含Ng个组的组卷积层是的层内连接的重要性变化最小;所述重要性为每个连接中全部权重的L2范数;可选的,所述损失值包括:其中,Lw为损失值。第三方面,提供一种计算机可读存储介质,其存储用于电子数据交换的程序,其中,所述程序使得终端执行第一方面提供的方法。实施本专利技术实施例,具有如下有益效果:可以看出,本申请的技术方案提出了一种全新的、通过替换卷积层来优化卷积神经网络的方案。现有技术难以选择哪些卷积层需要替换,并且很难训练替换后的模型。不基于层替换的优化方案往往需要使用大量的GPU计算资源,并且训练时间通常很长。通过使用本方案,在仅使用一块NVidiaTitanXpGPU的前提下,在几小时之内就可以得到一个优化过的卷积神经网络模型,因此其节省了时间,提高了效率,降低了成本。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请提供一种卷积神经网络的优化方法的流程示意图。图2是本申请提供一种初始化替换层中参数的示意图。图3是本申请提供一种卷积神经网络的优化装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。本申请提出一种卷积神经网络的优化方法,其基于迁移学习和卷积层替换的卷积神经网络。该优化方法的目标是在尽可能不损失任务表现的前提下,降低在特定领域D(也可以称为目标领域)上的卷积神经网络模型的资源占用和计算速度。该方法接受的输入为预训练的深度卷积神经网络模型和目标领域的数据集,输出为在目标领域数据集上训练好的,层替换过的优化的卷积神经网络模型,该优化的卷积神经网络模型能够使用目标领域D。如图1所示,本方法的输入为预训练模型即在大数据集上预先训练好的,可以解决通用问题的模型。如图1所示,该优化方法包括如下步骤:步骤S101、获得预训练模型M;步骤S102、将预训练模型M在指定领域的数据集D重训练得到初始模型M0,对初始模型M0进行替换层操作;该替换层操作包括下述步骤S103-步骤S106;步骤S103、基于二分图最大匹配算法确定初始模型M0中标准卷积层e适合被替换成高效卷积层,确定标准卷积层e被替换成高效卷积层的第一中间模型M1效果增益;本申请的需要解决的核心问题有两个:如何选择需要被替换的标准卷积层和替换目标,以及如何在目标数据集上训练层替换过的模型。因为深度卷积神经网络模型中往往包含几十个卷积层,并且替换的选择有很多种,采用枚举算法的话会出现严重的“组合爆炸”问题(combinatorialexplosion),本文档来自技高网...

【技术保护点】
一种卷积神经网络的优化方法,其特征在于,所述方法包括如下步骤:/n获得预训练模型M;/n将预训练模型M在指定领域的数据集D重训练得到初始模型M

【技术特征摘要】
【国外来华专利技术】一种卷积神经网络的优化方法,其特征在于,所述方法包括如下步骤:
获得预训练模型M;
将预训练模型M在指定领域的数据集D重训练得到初始模型M
0,对初始模型M
0进行替换层操作;

所述替换层操作包括:基于二分图最大匹配算法确定初始模型M
0中标准卷积层e适合被替换成高效卷积层,确定标准卷积层e被替换成高效卷积层的第一中间模型M
1效果增益;对第一中间模型M1的参数进行重整化得到第二中间模型M2;对第二中间模型M2进行初始化以及重训练得到第三中间模型M3;计算第三中间模型M3的损失值;

重复执行替换层操作得到多个第三中间模型M3以及多个损失值;选择损失值最小的第三中间模型M3为输出模型。


根据权利要求1所述的方法,其特征在于,所述基于二分图最大匹配算法确定初始模型M
0中标准卷积层e适合被替换成高效卷积层具体包括:

从初始模型M
0中寻找一个包含Ng个组的组卷积层是的层内连接的重要性变化最小;




所述重要性为每个连接中全部权重的L2范数;





根据权利要求1或2所述的方法,其特征在于,所述损失值包括:



其中,Lw为损失值。


一种卷积神经网络的优化装置,其特征在于,所述装置包括:
获取单元,用于获得预训练模型M;
训练单元,用于将预训练模型M在指定领域的数...

【专利技术属性】
技术研发人员:赵睿哲
申请(专利权)人:深圳鲲云信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1