本发明专利技术涉及一种基于最优池化卷积神经网络的物体识别方法,包括:构建训练集与测试集;搭建卷积神经网络架构,在最后一层加上softmax分类器,设置目标函数;在池化层采用最优池化操作;按经验设置学习率参数,采用后向传播算法,使用整体训练集训练网络模型一次,使用得到的模型去识别测试集数据,统计整体识别率,在此过程中最优池化的模板数值得到最优值,直到目标函数值完全收敛,识别率不再变好为止,此时网络参数训练完毕,最优池化模板得到最终值,得到最优池化卷积神经网络模型,即物体识别系统。本发明专利技术可以提升物体识别的性能。
【技术实现步骤摘要】
本专利技术涉及人机交互、计算机视觉等领域中高效的物体识别方法,特别是涉及采用卷积神经网络进行物体识别的方法。
技术介绍
物体识别是计算机视觉中一个十分重要的研究领域,包含人脸识别、手写体数字识别、手势识别以及物体识别等,可以广泛地用于人机交互、图像分类以及图像检索等领域。衡量一个物体识别系统好坏的两个主要指标为:识别率和识别速度。一般情况而言,识别率越高意味着识别速度相对较慢,而识别速度越快意味着识别率相对较低。因此,如何权衡二者的利弊一直是物体识别领域一个不可回避的问题。近年来,卷积神经网络算法的发展极大地提高了物体识别技术的正确率,从而为该项技术应用于更多的领域提供了可能。但是,由于存在该算法对计算能力要求相对较高、计算所需时间相对较长、很多应用要求更高性能的算法等局限,更高端的应用对物体识别系统的性能以及计算时间提出了更加苛刻地要求。因此,本专利技术主要研究如何在保持识别速度略有下降的情况下提高识别率。物体识别系统主要包含特征提取、分类器判定等两个方面。基于卷积神经网络的物体识别算法中,特征提取占据了物体识别的大部分时间,而且提取特征的好坏决定着算法的性能。研究人员在基于卷积神经网络的特征提取器设计方面做了许多相关工作,试图通过优化卷积神经网络的深度架构来提高算法的性能。当前,大部分已存在的卷积神经网络的深度结构改进方法大都趋向于调优网络的宽度与深度、改进激励函数、设计多样的卷积操作等等。2015年Simonyan和Zisserman[1]提出VGG卷积神经网络,他们通过研究卷积神经网络的深度与大尺度图片识别精度的关系,提出了一个更深的卷积神经网络架构。通过调优网络的宽度与深度,达到了当时最好的性能。2014年Min等人[2]提出了一种深度网络结构叫做NiN卷积神经网络。在该网络结构中,作者引入了1×1的卷积操作,通过级联两层这样的卷积层,实现了多层感知器的功能,在拉深网络深度,调优网络宽度的同时,实现了当时最优的分类性能。2012年Krizhevsky等人[3]提出ReLU非线性操作改进了网络输出神经元节点的激励函数,将激励值非负化,通过将小于0的激励值设置为0值,大于0的值不改变的操作,不仅加快了收敛速度而且提升了性能。2013年Goodfellow等人[4]提出Maxout卷积神经网络,提出使用maxout操作来改进激励函数,从而加速收敛,提高网络性能。通过特征图维度上通道间相邻激励值之间提取最大值,当相邻激励值足够多时,便能拟合任意高次激励函数,从而实现该算法物体识别性能的提升。2014年Szegedy等人[5]提出一种深度卷积神经网络架构,叫做GoogLeNet卷积神经网络。他们不仅进一步调优了深度与宽度,而且提出更多样的卷积操作相融合的思想。他们提出在网络架构中的卷积层,加入多尺度模板卷积操作,丰富了特征,弱化了块效应影响。最后,他们提出的22层深度架构,在2014年的ILSVRC竞赛中获得了冠军,实现了当时物体识别领域在大尺度图片上的最优性能。相对于以上网络结构改进方法,近年来,科研人员开始从改进池化操作的角度出发设计子采样层的池化操作。2013年Zeiler和Fergus[6]提出了一种新的池化手段,叫做随机池化操作。他们提出的随机池化方法,加入深度卷积神经网络结构中后,最终的物体识别性能优于最常见的均值池化和最大值池化。该随机池化方法将特征图中每个元素值表示对应位置处的概率,对特征图中的元素按照其概率值大小随机选择,即元素值大的被选中的概率也大。基于随机池化卷积神经网络的物体识别方法,高效地提升了算法性能。2015年Lee等人[7]提出了泛化的池化函数,来组合多类池化操作。他们提出混合最大值池化和均值池化函数,通过学习一个权值系数来组合不同池化操作得到的特征图,作者进一步又提出了使用门形函数与树形函数来分别融合不同种类的池化操作,该方法达到了当时最优的识别性能。参考文献:1.K.Simonyan and A.Zisserman.Very deep convolutional networks for large-scale image recognition[J].CoRR,abs/1409.1556,2014.2.M.Lin,Q.Chen,and S.Yan.Network in network[J]CoRR,abs/1312.4400,2013.3.A.Krizhevsky,I.Sutskever,and G.Hinton.Imagenet classification with deep convolutional neural networks.In Proceedings ofAdvances in Neural Information Processing Systems,2012,pp.11061114.4.I.J.Goodfellow,D.Warde-Farley,M.Mirza,A.Courville,and Y.Bengio.Maxout networks.CoRR,abs/1302.4389,2013.5.C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich.Going deeper with convolutions.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.1-9.6.M.D.Zeiler and R.Fergus.Stochastic pooling for regularization of deep convolutional neural networks[J].CoRR,abs/1301.3557,2013.7.C.Y.Lee,P.W.Gallagher,and Z.Tu.Generalizing Pooling Functions in Convolutional Neural Networks:Mixed,Gated,and Tree[J].CoRR,abs/1509.08985,2015.
技术实现思路
本专利技术的目的是克服现有基于卷积神经网络的物体识别过程中,池化层人工设计滤波模板的局限性,提供一种基于神经网络物体识别方法。本专利技术采用自学习池化层滤波模板,得到最优模板值,即池化滤波模板是在端到端的训练过程中,通过自适应自学习的方法,自动更新滤波模板的每一个滤波值,得到最终的最优池化模板值,进而在识别速度略有下降的情况下,提高物体识别的精度。本专利技术的技术方案如下:一种基于最优池化卷积神经网络的物体识别方法,包括下列步骤:步骤1:搜集有关识别物体的多类样本图片,并设定每一类别在分类器中的编码,构建训练集与测试集;步骤2:搭建卷积神经网络架构:即交迭几个卷积层与池化层,设置好网络的深度与宽度架构,并在最后一层加上softmax分类器,设置目标函数,一般取计算所得值与目标标签值的差的平方;步骤3:在池化层采用最优池化操作:在训练网络的过程中,使用后向梯度传播算法不断更新模板参数本文档来自技高网...
【技术保护点】
一种基于最优池化卷积神经网络的物体识别方法,包括下列步骤:步骤1:搜集有关识别物体的多类样本图片,并设定每一类别在分类器中的编码,构建训练集与测试集;步骤2:搭建卷积神经网络架构:即交迭卷积层与池化层,设置好网络的深度与宽度架构,并在最后一层加上softmax分类器,设置目标函数,一般取计算所得值与目标标签值的差的平方;步骤3:在池化层采用最优池化操作:在训练网络的过程中,使用后向梯度传播算法不断更新模板参数,直到达到最优值,即网络性能不在提升为止;在端到端的池化模板学习更新参数的过程中,每个滤波器内的滤波权值在每次循环中都在自学习更新;步骤4:按经验设置学习率参数,采用后向传播算法,使用整体训练集训练网络模型一次,使用得到的模型去识别测试集数据,统计整体识别率,在此过程中最优池化的模板数值得到最优化更新;步骤5:重复步骤4的操作,直到目标函数值完全收敛,识别率不再变好为止,此时网络参数训练完毕,最优池化模板得到最终值,得到最优池化卷积神经网络模型,即物体识别系统;步骤6:在图像或视频中进行物体识别。
【技术特征摘要】
1.一种基于最优池化卷积神经网络的物体识别方法,包括下列步骤:步骤1:搜集有关识别物体的多类样本图片,并设定每一类别在分类器中的编码,构建训练集与测试集;步骤2:搭建卷积神经网络架构:即交迭卷积层与池化层,设置好网络的深度与宽度架构,并在最后一层加上softmax分类器,设置目标函数,一般取计算所得值与目标标签值的差的平方;步骤3:在池化层采用最优池化操作:在训练网络的过程中,使用后向梯度传播算法不断更新模板参数,直到达到最优值,即网络性能不在提升为止;...
【专利技术属性】
技术研发人员:孙满利,庞彦伟,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。