基于卷积神经网络的分类模型构建方法和设备技术

技术编号:11781852 阅读:128 留言:0更新日期:2015-07-27 21:19
公开了一种基于卷积神经网络的分类模型构建方法和设备,该方法包括:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。根据本公开,可以减少训练样本时使用的权值数量,减轻过拟合问题,从而提高卷积神经网络的泛化能力。

【技术实现步骤摘要】

本公开涉及分类模型构建,更具体地,涉及一种基于卷积神经网络(CNN)的分类模型构建方法和设备。
技术介绍
卷积神经网络(CNN)是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。传统卷积神经网络的卷积层通常具有几十万到几百万个权值需要学习,同时训练时采用的梯度下降算法在后向传播过程中存在“梯度消失”的问题(即越往前一层梯度的调节量就越小),这就导致大量的权值得不到充分学习。为了达到比较好的训练效果,传统卷积神经网络通常需要大量的训练样本,例如,当类别个数远远小于每类训练样本个数时效果较好。但当训练样本数量有限时,传统卷积神经网络容易出现过拟合的问题,导致训练出的模型的实际泛化能力不佳。同时,传统卷积神经网络中的采样层只从每个特征图上的每个局部区域中提取最大值,这样做减小了计算量,但导致信息过度损失,因为局部区域里的较小值也可以反映这个区域的部分特征。例如,图1示出了传统卷积神经网络的示意图。其中,方框中的数字“6”为输入图像,并且图中的每一个方框表示对输入图像执行特定操作(诸如滤波操作、卷积操作以及空间最大采样操作)之后得到的特征图。传统地,在对传统卷积神经网络进行训练时,首先随机给定网络中的参数(例如,卷积模板值)并输入训练样本,然后以前向传播经过多次重复的卷积操作、空间最大采样操作和全连接操作之后,在输出层得到识别结果的置信度,并根据该置信度与预定真值的误差进行后向传播,例如以经典的梯度下降算法对给定的网络参数进行优化。如此重复进行操作,直到输出层的置信度与预定真值的误差满足预定阈值。
技术实现思路
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。鉴于以上情形,本公开的目的是提供一种能够通过减轻过拟合的问题而提高神经网络的泛化能力同时避免信息过度损失的基于卷积神经网络的分类模型构建方法和设备。根据本公开的一方面,提供了一种基于卷积神经网络的分类模型构建方法,包括:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。根据本公开的优选实施例,基于卷积神经网络的分类模型构建方法还包括:特征整合步骤,以特定整合方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括卷积模板值的分类模型,其中,以特定整合方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与当前采样层相邻的上一层的多个特征图中的元素得到当前采样层的特征图中的元素。根据本公开的优选实施例,在特征整合步骤中,以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与当前采样层相邻的上一层的多个特征图中选择元素以得到当前采样层的特征图中的元素。根据本公开的优选实施例,在以随机卷积方式和特定整合方式对训练样本进行第一阶段训练以使得所得到的卷积模板值满足第一预定条件之后,利用卷积模板值,在卷积步骤中以传统卷积方式以及在特征整合步骤中以特定整合方式对训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足第二预定条件。根据本公开的优选实施例,在第二阶段训练的特征整合步骤中所采用的特征整合方式与第一阶段训练的特征整合步骤中所采用的特征整合方式相同。根据本公开的优选实施例,在第一训练阶段和第二训练阶段中,对于在特征整合步骤中未被选择的元素,当利用梯度下降算法进行后向传播时,不对未被选择的元素进行后向传播。根据本公开的优选实施例,对于每个采样层,用于该采样层的所有特征图中的元素的特征整合方式是相同的。根据本公开的优选实施例,对于每个卷积层,用于该卷积层上的所有特征图中的元素的预定概率阈值是相同的。根据本公开的优选实施例,在第一训练阶段中,对于在卷积步骤中被打断的连接,当利用梯度下降算法进行后向传播时,不对被打断的连接进行后向传播。根据本公开的另一方面,还公开了一种基于卷积神经网络的分类模型构建设备,包括:卷积单元,被配置成以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行以下步骤:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。【附图说明】本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示出传统卷积神经网络的结构示例的示意图;图2是示出根据本公开的实施例的卷积神经网络的结构示例的示意图;图3是示出根据本公开的实施例的基于卷积神经网络的分类模型构建方法的过程示例的流程图;图4A至图4D是用于说明传统卷积神经网络中的卷积操作的示意图;图5A至图是用于说明根据本公开的实施例的卷积神经网络中的随机卷积操作的不意图;图6是用于说明传统卷积神经网络中的空间最大采样操作的示意图;图7是用于说明根据本公开的实施例的卷积神经网络中的特征整合操作的示意图;图8是示出根据本公开的实施例的基于两阶段训练的分类模型构建方法的过程示例的流程图;图9是示出根据本公开的实施例的基于卷积神经网络的分类模型构建设备的功能配置示例的框图;以及图10本文档来自技高网...
基于卷积神经网络的分类模型构建方法和设备

【技术保护点】
一种基于卷积神经网络的分类模型构建方法,包括:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括所述卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和所述当前卷积层相邻的上一层的特征图中的元素之间的连接。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴春鹏范伟何源孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1