特定被摄体检测装置及方法制造方法及图纸

技术编号:2942233 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种多视角特定被摄体检测方法及装置,其将特定被摄体空间划分为多个子特定被摄体空间,将子特定被摄体空间划分为多个视角的特定被摄体空间;构建树型结构检测器:树型结构存在一个根分支节点,该根分支节点覆盖所有的子特定被摄体空间且具有多个分支,每一分支对应一个子分支节点,子分支节点至少覆盖一个子特定被摄体空间;采用向量推进算法将每一个分支节点训练为决定向量,以决定将对应分支节点上的特定被摄体样品发送给哪些相邻下层分支节点,并且在遍历树型结构中所有有效的分支节点时采用宽度优先搜索;将最终传送到叶节点中的特定被摄体样品检测为具有相应视角的特定被摄体。用以提高多视角特定被摄体检测的精度和速度。

【技术实现步骤摘要】

本专利技术涉及应用在从所拍摄的图像中检测出在该图像中所包含的人物、动物及物体等的特定的被摄体或者被摄体的一部分的装置及方法等中的有效的技术。
技术介绍
作为以往的技术,有从所拍摄的图像中检测出在该图像中所包含的人物、动物及物体等的特定的被摄体或被摄体的一部分的技术。作为这样的以往技术的例子,有从所拍摄的图像中检测出人物的人脸的技术,亦即人脸检测技术。人脸检测具有两方面的难点一是人脸内在的变化,如脸形的不同;二是人脸外在的变化,如平面内旋转。因此,只有找到一些相关的算法并能达到实时的应用效果,才能构造出具有实际应用价值的人脸检测装置,进而构造出具有实际应用价值的特定被摄体检测装置。人脸检测的实用性将取决于检测精度和检测速度二者的提高。然而,精度的提高虽然已经得到了较好的发展,但是速度提高的问题却一直阻碍着人脸检测走向实用。一些关于人脸检测的早期的著作,诸如Rowley的ANN方法(参见Carnegie Mellon大学1999年5月博士论文“Neural Network-basedHuman Face Detection”),基于贝叶斯(Bayesian)决策规则的Schneiderman的方法(参见CVPR 2000,“A Statistical Method for 3D Object DetectionApplied to Faces and Cars”),这些都达到了高精度。但是因为其巨大的运算量,它们的应用却非常有限。值得一提的是,Schneiderman曾将人脸划分为左侧面、正面、右侧面三个视角,采用贝叶斯(Bayesian)方法和小波变换训练三个基于视角的检测器,最终结果由三个检测器的结果合并得到。Schneiderman的检测器虽然运算复杂,速度很慢,但是其对多视角人脸检测问题作出较大贡献。速度问题是由层叠检测器(cascade detector)的提出而进展的。该层叠检测器首次展示了实时运行的对于正面人脸的检测。还有许多相关的著作,诸如Xiao等人的链式推进算法(Boosting Chain),该算法参见ICCV2003,“Boosting Chain Learning for Object Detection”。Liu等人的Kullback-Leibler推进算法(KL Boosting),该算法参见CVPR 2003,“Kullback-Leibler Boosting”。这些推进算法都是关注于Viola结构的某些部分,并采用新的方法对其进行改进。近年来,为了人脸检测的层叠检测器被证明是非常成功和有效。但是对于多视角人脸检测器(MVFD,Multi View Face Detector)来说,扩展这一结构的最直接的方法就是为每一个视角单独的训练不同的层叠检测器,然后象图1(a)那样把它们作为一个整体使用。该技术的参考文献为FG 2004,“Fast rotation invariant multi-view face detection based on real adaboost”。该文献中的论述证明即便是这样的简单的结构扩展,已经可以在处理多视角这个复杂问题时具有很好的表现。可见就结构改进而言,这里仍然留有很大的改进余地。例如一、金字塔结构,为了检测具有多种姿态的人脸,Li提出了一种金字塔结构(pyramid-structured)的多视角人脸检测器(MVFD),该多视角人脸检测器参见参考文献ECCV 2002“Statistical Learning of Multi-View FaceDetection”。该金字塔结构如图1(b)所示,其顶层只有一个节点(母节点),覆盖±90°的平面外旋转(ROP),第二层三个节点(子节点)将该范围一分为三,以后逐层细分。其采用从粗到细的策略来处理平面外旋转(ROP)的姿态变化。由于在人脸的不同姿态中具有相似之处,所以金字塔方法便将它们作为一个整体的正的类进行对待,以便改进人脸特征提取的功效。但是,这便忽略了它们内在的差异,使得金字塔方法对于不同的姿态没有辨别力。结果,一个通过母节点的样品不得不被发送给它的所有的子节点,这便大大减慢了决策的进程。二、决策树结构,如图1(c)所示。与上述金字塔方法相反,为了检测具有多种姿态的人脸,采用决策树方法(参见2003年7月的MERL-TR2003-96,“Fast Multi-view Face Detection”)处理平面内旋转(RIP)的问题。其把重点放在不同姿态之间的差异处之上,并且该决策树作为RIP的一个姿态评价者在工作,通过决策树的强制性判断,它确实有效地减少了花费在姿态估计上的时间。但是,其结果有些不稳定,且实用性不是很好。可见对于MVFD问题来说,存在两个主要任务一个是区分人脸和非人脸(non-face,人脸以外的东西);另一个是识别人脸的姿态。第一个任务需要尽可能快的丢弃非人脸,所以其倾向于从不同姿态的人脸中找出相似之处,以便从非人脸中分离出它们。后一个任务则关注于不同姿态之间的差异之处。两个任务的冲突确实导致了两难的境地,使得或者将所有人脸作为一个整体的类来处理(如金字塔方法),或者作为不同的单独的各个分离的类来处理(如决策树方法),这两者对MVFD问题的处理都不能达到令人满意的结果。这一问题的难度在于,人脸姿态的变化(包括平面内旋转RIP,平面外旋转ROP)通常会造成其在视图中的人脸的结构和纹理发生显著变化,从而分类的复杂度加大。为了解决这一难题,如上所述,提出了金字塔(Pyramid)模型和决策树(Decision Tree)模型。其中,前者将人脸根据姿态变化的大小,依据从粗到细(coarse to fine)的原则,逐步将多角度的人脸空间分割成为单一角度的人脸子空间,使用金字塔结构的分类器设计逐步将多角度的人脸同非人脸分割开来。而后者,则直接考虑使用决策树对多角度人脸进行分类,然后根据分类的结果,选择对应的层叠型(cascade)分类器将这种姿态的人脸同非人脸区分开来。简而言之,金字塔(Pyramid)结构将不同姿态的人脸看成同一类,着重解决它们与非人脸之间的分类问题,随着人脸空间的划分逐渐精细,最后也将得到比较合理的姿态估计。而Decision tree的方法则首先解决姿态估计的问题,通过多分类将不同姿态的人脸分开,然后再回归到传统的Cascade模型,解决某一特定姿态下人脸与非人脸的分类问题。这两种方法采取了不同的顺序去解决MVFD问题的两个方面——人脸的检测和姿态的估计,而这也造成它们各自不同的问题。Pyramid结构强调不同姿态人脸之间的一致性,试图直接将复杂的多角度人脸与非人脸分开。这样的分类问题难度过大,需要构造比较复杂的分类器才能够解决,所以虽然取得了不错的检测精度,但速度方面不甚理想。而另一方面,Decision Tree结构强调不同姿态人脸之间的差异性,首先构造分类器对其进行多分类,然后再分别将它们与非人脸分开,这种做法的速度非常理想,但精度和鲁棒性却并不理想,这是由于对于人脸姿态的多分类本身就是一个不易解决的问题,而这种方法寄希望于使用决策树快速判定人脸姿态的方法必然要丧失一定的精度和实用性能。总的来说,不同姿态人脸之间的一致性和差异性共本文档来自技高网...

【技术保护点】
一种特定被摄体检测装置,该装置从图像中检测特定被摄体,其特征在于,包括:图像输入单元;树状检测器,其对从所述图像输入单元输入的图像进行分类,其中,根分支节点包含与被分支的全部对象物的方向对应的子对象空间,从所述根分支节点分支 的子分支节点包含至少一个与对象物的方向对应的所述子对象空间,所述根分支节点和所述子分支节点的各分支节点包含多个弱分类器,把各弱分类器的输出累计到要分割的各个子对象空间中,并判断移到邻接的下层的哪个子分支节点上。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:艾海舟黄畅李源劳世红
申请(专利权)人:欧姆龙株式会社清华大学
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1