基于视频的人脸实时检测方法及其装置制造方法及图纸

技术编号:6990607 阅读:237 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及多媒体领域,公开了一种基于视频的人脸实时检测方法及其装置。本发明专利技术中,将视频图像帧分为全检测帧和预测检测帧两种类型的帧,根据当前输入的视频图像帧与之前最近一个全检测帧之间的帧数间隔,判决当前输入的视频图像帧的类型,并采用相应的检测方式。由于视频序列在时空域具备可预测特性,因此对部分视频图像帧采用对不同区域以不同步长进行搜索的检测方式,能有效减少检测过程中需要搜索的次数,避免了一般的基于AdaBoost级联算法以固定步长搜索全部区域的缺陷,使得检测过程的计算复杂度大幅度降低,而且同样能保证检测的准确性。

【技术实现步骤摘要】

本专利技术涉及多媒体领域,特别涉及多媒体领域中的人脸检测技术。
技术介绍
近年来,诸如手机,数码照相机等手持设备由于其便携性和含有丰富的多媒体应 用而越来越受消费者欢迎。而随着手持设备的越来越普及,人们对作为诸多多媒体应用基 础技术的人脸检测的需求也越来越迫切。所谓人脸检测,指的是在多媒体数据(包括图像和视频等)中检测出所存在的所 有人脸的位置,方向、大小以及人脸个数等信息的过程和方法。人脸检测具有重要的意义, 可以应用到人脸识别、视频监控以及基于内容的检索等领域,是上述应用中一个必不可少 的构成。但人脸是一类具有非常复杂的细节变化的自然结构体,对人脸检测的挑战在于受 姿态、外貌、表情、肤色、是否有眼镜等遮挡物以及光学成像环境等诸多条件影响。人脸检测 的精度和速度是影响人脸检测走向实际应用的两个关键问题。经过20世纪90年代以来十 多年的努力,人脸检测的精度有了大幅提高。但速度还一直没有得到很好解决。直到2001 年Viola和Jones基于Adaboost的级联检测算法的提出,人脸检测的速度才得到实质性的 提高。相关的文献显示,对于分辨率在384X 288大小的图像,700MHz的Intel Pentium III 处理器能实现每秒15帧的人脸检测。因此目前已有在台式机等设备上已能实现实时的人 脸检测。关于人脸检测技术可参见专利号为“ 11195611”美国专利。然而,本专利技术的专利技术人发现,由于在现有的人脸检测技术中,对每一帧均是以固定 步长搜索全部区域的方式进行检测,因此人脸检测过程的计算复杂度较高。而手持设备大 都为嵌入式系统,其计算能力比较差、存储能力较弱,因此很难实现实时的人脸检测,会有 延时、停顿和跳跃等现象。
技术实现思路
本专利技术的目的在于提供一种基于视频的人脸实时检测方法及其装置,使得人脸检 测过程的计算复杂度大幅度降低,而且同样保证检测的准确性。为解决上述技术问题,本专利技术的实施方式提供了一种基于视频的人脸实时检测方 法,包含以下步骤预先将视频图像帧分为全检测帧和预测检测帧两种类型的帧,全检测帧为以固定 小步长,采用实时人脸检测算法对图像整个区域进行全搜索检测的图像帧,预测检测帧为 基于预测,将图像帧的检测区域分割为人脸候选区域和非人脸区域,对人脸候选区域采用 固定小步长,对非人脸区域采用固定大步长搜索检测的图像帧,固定大步长大于固定小步 长;如果当前输入的视频图像帧与之前最近一个全检测帧之间的帧数间隔大于预设 阈值,则判定当前输入的视频图像帧为全检测帧,以全检测帧的检测方式进行检测;如果当 前输入的视频图像帧与之前最近一个全检测帧之间的帧数间隔小于或等于预设阈值,则判定当前输入的视频图像帧为预测检测帧,以预测检测帧的检测方式进行检测;在以全检测帧的检测方式或以预测检测帧的检测方式进行检测后,输出当前视频图像帧内所有检测到的人脸的区域位置;其中,第一个视频图像帧为全检测帧。本专利技术的实施方式还提供了一种基于视频的人脸实时检测装置,包含视频图像帧 输入模块、类型判断模块、检测模块和人脸区域输出模块;视频图像帧输入模块用于将视频图像帧输入到类型判断模块;类型判断模块用于判断当前输入的视频图像帧的类型,视频图像帧的类型分为全 检测帧和预测检测帧两种,全检测帧为以固定小步长,采用实时人脸检测算法对图像整个 区域进行全搜索检测的图像帧,预测检测帧为基于预测,将图像帧的检测区域分割为人脸 候选区域和非人脸区域,对人脸候选区域采用固定小步长,对非人脸区域采用固定大步长 搜索检测的图像帧,固定大步长大于固定小步长;如果当前输入的视频图像帧与之前最近一个全检测帧之间的帧数间隔大于预设 阈值,则类型判断模块判定当前输入的视频图像帧为全检测帧;如果当前输入的视频图像 帧与之前最近一个全检测帧之间的帧数间隔小于或等于预设阈值,则类型判断模块判定当 前输入的视频图像帧为预测检测帧;其中,第一个视频图像帧为全检测帧;检测模块用于根据类型判断模块判断的类型,对当前输入的视频图像帧进行检 测;人脸区域输出模块用于输出检测模块检测到的当前视频图像帧内所有的人脸的 区域位置。本专利技术实施方式与现有技术相比,主要区别及其效果在于将视频图像帧分为全检测帧(对图像整个区域以固定小步长进行全搜索检测的 图像帧)和预测检测帧(对人脸候选区域采用固定小步长,对非人脸区域采用固定大步长 搜索检测的图像帧)两种类型的帧,根据当前输入的视频图像帧与之前最近一个全检测帧 之间的帧数间隔,对当前输入的视频图像帧的类型进行判决,并根据判决的类型采用相应 的检测方式进行检测,输出当前视频图像帧内所有检测到的人脸的区域位置。由于视频序 列在时空域具备可预测特性,能够基于预测,将图像帧的检测区域分割为人脸候选区域和 非人脸区域,因此对部分视频图像帧采用对人脸候选区域采用固定小步长,对非人脸区域 采用固定大步长搜索检测的方式,能有效减少检测过程中需要搜索的次数,避免了一般的 基于AdaBoost级联算法以固定步长搜索全部区域的缺陷,使得检测过程的计算复杂度大 幅度降低,而且同样能保证检测的准确性。进一步地,如果当前输入的视频图像帧的上一个输入的视频图像帧中没有检测到 人脸,则同样判定当前输入的视频图像帧为全检测帧,并以所述全检测帧的检测方式进行 检测。由于在上一帧没有检测到人脸的情况下,基于预测将检测区域分割成的人脸候选区 域和非人脸区域可能存在一定的误差,因此如果在上一帧中没有检测到人脸,则将当前帧 判决为全检测帧,可以进一步地保证检测的准确性。进一步地,固定大步长的步长,为固定小步长的步长的2倍。如果固定大步长的步 长与固定小步长的步长差距不大,则检测过程的计算复杂度的降低幅度有限,但如果固定 大步长的步长与固定小步长的步长差距过大,则可能导致检测质量的下降。因此,将固定大步长设为固定小步长的2倍,能在计算复杂度与检测质量上取一个较好的折中。进一步地,在以全检测帧的检测方式或以预测检测帧的检测方式对当前视频图像 帧进行检测后,以当前视频图像帧内的人脸区域位置为基准,对该区域位置进行适当倍数 的放大,放大的倍数是为1.25倍,将检测区域分割成人脸候选区域和非人脸区域。由于手 持设备大都为嵌入式系统,其计算能力比较差、存储能力较弱,因此将放大倍数设为1.25 倍(即除4乘5)时,通过移位即可实现,能够保证在嵌入式系统平台上的快捷实现。进一步地,将本专利技术的基于视频的人脸实时检测方法应用于手持设备中的人脸实 时检测中。由于手持设备大都为嵌入式系统,其计算能力比较差、存储能力弱,基于单帧的 人脸检测方法并不能满足手持设备的需求。而本专利技术中的人脸实时检测方法大大降低了计 算复杂度,而且样能保证检测的准确性,因此使得计算能力比较差、存储能力弱的手持设备 也能够实时地,鲁棒的检测出人脸。附图说明图1是根据本专利技术第一实施方式的基于视频的人脸实时检测方法流程图;图2是根据本专利技术第一实施方式中的以全检测帧的检测方式进行人脸检测的流 程图;图3是根据本专利技术第一实施方式中的以预测检测帧的检测方式进行人脸检测的 流程图;图4是根据本专利技术第一实施方式中的对当前窗口进行人脸检测的流程图;图5是根据本专利技术第二实施方式的基于视频的人脸实时检测装置示意图。具体实施例方式在以下的叙述本文档来自技高网
...

【技术保护点】
1.一种基于视频的人脸实时检测方法,其特征在于,包含以下步骤:预先将视频图像帧分为全检测帧和预测检测帧两种类型的帧,所述全检测帧为以固定小步长,采用实时人脸检测算法对图像整个区域进行全搜索检测的图像帧,所述预测检测帧为基于预测,将图像帧的检测区域分割为人脸候选区域和非人脸区域,对人脸候选区域采用固定小步长,对非人脸区域采用固定大步长搜索检测的图像帧,所述固定大步长大于所述固定小步长;如果当前输入的视频图像帧与之前最近一个全检测帧之间的帧数间隔大于预设阈值,则判定当前输入的视频图像帧为全检测帧,以所述全检测帧的检测方式进行检测;如果当前输入的视频图像帧与之前最近一个全检测帧之间的帧数间隔小于或等于所述预设阈值,则判定当前输入的视频图像帧为预测检测帧,以所述预测检测帧的检测方式进行检测;在以所述全检测帧的检测方式或以所述预测检测帧的检测方式进行检测后,输出当前视频图像帧内所有检测到的人脸的区域位置;其中,第一个视频图像帧为全检测帧。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗小伟林福辉
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1