物体识别模型的建立方法及物体识别方法技术

技术编号:15216884 阅读:132 留言:0更新日期:2017-04-25 21:20
本发明专利技术涉及一种物体识别模型的建立方法和物体识别方法。其中,该物体识别模型的建立方法包括:获取输入图像;提取输入图像的深度特征;基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达;基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。通过本发明专利技术实施例,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题,提高了深度网络模型的结构表达能力。本发明专利技术实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。

Method for establishing object recognition model and object recognition method

The invention relates to a method for establishing an object recognition model and an object recognition method. Among them, including the method for establishing the object recognition model: to obtain the input image; extracting depth characteristics of the input image; random structure model of input image objects in the structured modeling based on the object are structured expression; expression object structured based on gradient backpropagation learning structure parameters, solving the gradient, and the use of random the gradient descent algorithm for training and learning, the object recognition model. The embodiment of the invention solves the technical problems of the complex elastic deformation, the posture change and the visual change of the object in the visual task. The embodiment of the invention can be applied to many fields such as object classification, object detection, face recognition, etc..

【技术实现步骤摘要】

本专利技术实施例涉及模式识别、机器学习及计算机视觉
,具体涉及一种物体识别模型的建立方法及物体识别方法
技术介绍
进入二十一世纪以来,随着互联网技术的快速发展,以及手机、相机、个人电脑的普及,图像数据呈现出爆炸式增长。Google+推出100天就上传了34亿张图片,而著名的社交网站Facebook的图片数据更是超过了100亿。另一方面,随着建设平安城市的需要,监控摄像头的数量越来越多,据不完全统计,仅北京市的监控摄像头数量就超过了40万个,而全国的监控摄像头数量更是达到2000多万,并仍以每年20%的数量增长。如此大规模的数据远远超出了人类的分析处理能力。因此,智能地处理这些图像和视频数据成为迫切需要。在这种背景下,如何利用计算机视觉技术自动、智能地分析理解图像数据受到人们的广泛关注。物体识别是计算机视觉任务中的经典问题,同时也是解决很多高层视觉任务的核心问题,物体识别的研究为高层视觉任务(例如:行为识别、场景理解等)的解决奠定了基础。它在人们的日常生活中以及工业生产中有着广泛的应用,如:智能视频监控、汽车辅助驾驶、无人车驾驶、生物信息身份认证、智能交通、互联网图像检索、虚拟现实以及人机交互等。近几十年来,随着大量统计机器学习算法在人工智能和计算机视觉领域的成功应用,计算机视觉技术有了突飞猛进的进步。尤其是近年来,大数据时代的到来为视觉任务提供了更加丰富的海量图像数据,高性能计算设备的发展给大数据计算提供了硬件支持,大量成功的计算机视觉算法不断地涌现出来。尽管如此,计算机视觉技术与人的视觉认知能力仍存在很大的差距,尤其是在物体识别任务中仍存在很大量的挑战和难题。这主要是由于真实图像中的物体往往存在复杂的弹性变形、姿态变化、以及拍摄视角变化等问题。这使得物体的表观差异非常大,因此,传统的机器学习算法很难处理这些含有复杂形变的图像样本。有鉴于此,特提出本专利技术。
技术实现思路
为了解决现有技术中的上述问题,即为了解决视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题而提供一种物体识别模型的建立方法及基于该建立方法的物体识别方法。为了实现上述目的,提供以下技术方案:一种物体识别模型的建立方法,其特征在于,所述方法包括:获取输入图像;提取所述输入图像的深度特征;基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。进一步地,所述提取所述输入图像的深度特征具体可以包括:利用卷积神经网络模型的卷积层和池化层,提取所述输入图像的所述深度特征。进一步地,所述基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达具体可以包括:对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达;对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置;基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达。进一步地,所述对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达具体可以包括:根据以下公式将所述物体各部件的部件滤波器在所述部件滤波器变形区域内进行卷积,从而得到所述输入图像中所述物体各个部件的所述表观表达:zi(di)=Wi·φ(H,pi,di);其中,所述i表示所述物体部件个数;所述H表示结构网络层的输入特征;所述Wi表示第i个部件滤波器的权重;所述pi表示所述第i个部件滤波器的初始位置;所述di表示所述第i个部件滤波器的变形量;所述φ(H,pi,di)表示在pi+di处的输入响应;所述zi(di)表示所述部件在响应位置的分数。进一步地,所述对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置具体可以包括:根据以下公式确定所述物体各部件之间的变形结构损失:其中,所述u(di,dj)表示第i和第j个部件之间的连接权重;所述fi表示所述第i个部件的特征矢量;所述fj表示所述第j个部件的特征矢量;所述k(m)(·)表示作用在特征空间上的高斯函数;所述M表示所述高斯函数的个数;所述w(m)表示第m个高斯函数的权重,其中高斯核为所述σ表示控制连接关系强弱的系数;所述表示所述第i和所述第j个部件之间的变形结构损失;最小化以下能量函数,从而确定所述物体各部件的最优位置:其中,E(d)表示能量函数。进一步地,所述基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达具体可以包括:根据以下公式获得所述物体的结构化表达:其中,所述表示推理得到的所述第i个部件的最优位置;所述表示推理得到的所述第j个部件的最优位置;所述yi表示所述第i个部件的结构网络层的输出;表示第i个部件的节点的集合。进一步地,所述基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型具体可以包括:根据以下公式确定结构网络层关于Wi的梯度:其中,所述L表示所述物体识别模型的最终损失;所述yi表示所述第i个部件的结构网络层输出;所述所述分别表示所述最终损失L和所述结构网络层输出yi对Wi的偏导;根据以下公式确定所述结构网络层关于w(m)的梯度:其中,所述所述分别表示所述最终损失L和所述结构网络层输出yi对w(m)的偏导;所述w(m)表示第m个高斯函数的权重;基于所述结构网络层关于Wi的梯度和所述结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到所述物体识别模型。为了实现上述目的,还提供以下技术方案:一种基于上述建立方法的物体识别方法,所述物体识别方法包括:获取待测图像;利用上述建立方法建立的物体识别模型对所述待测图像进行识别,以预测所述待测图像中物体的类别。本专利技术实施例提供一种物体识别模型的建立方法和物体识别方法。其中,该物体识别模型的建立方法包括:获取输入图像;提取输入图像的深度特征;基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达;基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。从中可见,本专利技术实施例同时结合了深度学习和结构模型的各自优势,提高了深度网络模型的结构表达能力,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题。本专利技术实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。附图说明图1为根据本专利技术实施例的物体识别模型的建立方法的流程示意图;图2为根据本专利技术实施例的物体识别方法的流程示意图;图3为根据本专利技术另一实施例的物体识别方法的流程示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。本专利技术实施例的核心思想是在深度学习算法中提出一个新的结构网络层,并利用平均场算法对其进行快速结构推理,利用一种结构网络层来建模物体的内在结构属性,从而表达物本文档来自技高网
...

【技术保护点】
一种物体识别模型的建立方法,其特征在于,所述方法包括:获取输入图像;提取所述输入图像的深度特征;基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到所述物体识别模型。

【技术特征摘要】
1.一种物体识别模型的建立方法,其特征在于,所述方法包括:获取输入图像;提取所述输入图像的深度特征;基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到所述物体识别模型。2.根据权利要求1所述的方法,其特征在于,所述提取所述输入图像的深度特征具体包括:利用卷积神经网络模型的卷积层和池化层,提取所述输入图像的所述深度特征。3.根据权利要求1所述的方法,其特征在于,所述基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达,具体包括:对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达;对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置;基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达。4.根据权利要求3所述的方法,其特征在于,所述对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达,具体包括:根据以下公式将所述物体各部件的部件滤波器在所述部件滤波器变形区域内进行卷积,从而得到所述输入图像中所述物体各个部件的所述表观表达:zi(di)=Wi·φ(H,pi,di)其中,所述i表示所述物体部件个数;所述H表示结构网络层的输入特征;所述Wi表示第i个部件滤波器的权重;所述pi表示所述第i个部件滤波器的初始位置;所述di表示所述第i个部件滤波器的变形量;所述φ(H,pi,di)表示在pi+di处的输入响应;所述zi(di)表示所述部件在响应位置的分数。5.根据权利要求4所述的方法,其特征在于,所述对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置,具体包括:根据以下公式确定所述物体各部件之间的变形结构损失:其中,所述u(di,dj)表示第i和第j个部件之间的连接权重;所述fi表示所述第i个部件的特征矢量;所述fj表示所述第j个部件的特征矢量;所述k(m)(·)表示作用在特征空间上的高斯函数;所述M表示所...

【专利技术属性】
技术研发人员:黄凯奇刘康伟
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1