当前位置: 首页 > 专利查询>索尼公司专利>正文

电视机控制用手势识别系统技术方案

技术编号:8687956 阅读:402 留言:0更新日期:2013-05-09 07:49
一种利用与运动信息结合的基于肤色的方法,实现实时分割的手势识别系统。利用Kalman滤波器跟踪手部的质心。计算提取的手部掩膜的手掌中心,手掌底部,以及从手掌中心到轮廓的最大距离。随后比较计算的距离和阈值,以确定当前姿势是“张开”还是“握紧”。在优选实施例中,“张开”姿势和“握紧”姿势之间的转变确定当前手势是处于“选择”状态还是“抓取”状态。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及手势识别,更具体地说,涉及遥控用手势识别。
技术介绍
手势识别是一种新兴技术,它能够提供更直接的人机交互方法。手势识别与空间和时间信息有关,可用于为未来的应用替代传统的控制设备。已尝试了手势识别系统,例如,美国专利N0.5,534,917。不过,这些系统通常涉及计算密集的复杂分析和/或需要昂贵的硬件。 因而,本专利技术的目的是一种能够从典型的HD照相机获得输入,和利用一组简单的手势使计算力降至最低的手势识别系统。在下面的说明中,将满足这些目标中的至少一些目标。
技术实现思路
本专利技术包含处理作为输入的运动手部的视频,并输出每个图像中的当前手势状态和手部位置的系统和方法。在每个图像中,从背景中分割手部区域,并根据一个或多个参数,将其分类为“张开的手部”或“握紧的手部”。系统结合肤色模型和运动中的一个或多个,以获得实时手部分割性能。典型的应用包括(但不限于)用于基本电视机控制,电视机上的照片和web浏览,和计算机的手势识别。本专利技术在仅仅利用单个HD照相机的同时,以较低的计算复杂性,实现用于电视机控制的实时并且用户友好的手势识别系统。系统利用小型传感器进行手势识别,可利用简单手势,在3米以上的距离控制电视机、计算机或其它设备。组合肤色模型和运动,以便从背景中分离手部区域操作中,提取几个参数,比如手部大小,手掌中心和手部底部。这些参数被用于把当前手势分成“张开的手部”或“握紧的手部”。系统随后利用不同手势状态之间的转变来控制设备。有益的是,所述方法只利用单个HD照相机获得作为输入的视频序列,同时能够以较低的计算复杂性获得实时性能。本专利技术的系统和方法不需要任何昂贵和特殊的传感器。通过利用肤色模型和运动,所述系统能够在没有深度图的情况下,从背景中分割手部区域。本专利技术的手势组用户友好(易于记住),足以覆盖电视机控制的基本功能。本专利技术实用地实现电视机的手势控制,使实时电视机特征成为可能。另外,就本专利技术的系统来说,不需要使用两部照相机或者一部3D照相机。在说明书的以下各个部分中,将阐明本专利技术的其它各个方面,其中,详细说明用于充分公开本专利技术的优选实施例,而不是对本专利技术加以限制。附图说明参考仅仅用于举例说明的以下附图,可更充分地理解本专利技术:图1是按照本专利技术的手势识别系统的示意图。图2是图解说明图1的手势识别模块的组件概况的示意图。图3是按照本专利技术的分割模块的示意图。图4是按照本专利技术,应用于图像的用于前景/背景分离的限界框的例示。图5A-5E图解说明按照本专利技术,关于不同手势的成功手部分割结果的图像。图6A-E图解说明非最佳手部分割的图像。图7图解说明按照本专利技术的分割图像帧的二元手部掩膜和计算的参数。图8图解说明为了得出中心-轮廓距离而评估的图7的掩膜。图9图解说明按照本专利技术的用于电视机控制的例证手势组。图10图解说明按照本专利技术,可用于特定操作的序列手势组。图11表示应用于图像的手部限界框的相邻限界框。图12表示根据分割模型的结果,转换成指示符矩阵的手部图像。图13图解说明遮挡发生的图像和相应的分割模型。图14图解说明遮挡发生的另一个图像和相应的分割模型。图15图解说明脱离遮挡的手部的图像和分割模型。具体实施例方式更具体地参考附图,出于举例说明的目的,下面用图1-图15中所示的设备具体体现本专利技术。要理解设备可在结构方面,以及在各个部分的细节方面发生变化,并且方法可在具体步骤和顺序方面发生变化,而不脱离这里公开的基本原理。图1图解说明本专利技术的手势识别系统10的示意图。系统10包括传感器12(例如,HD格式照相机等),其输出耦接到接收传感器输入并运行手势识别软件模块18的处理器14。手势识别模块18分析来自传感器12的输入,并提供发送给设备控制应用程序或者用户界面软件16的命令或操作,所述设备控制应用程序或者用户界面软件16可用于控制音量、频道、节目或者设备的其它特征。要理解设备控制应用程序16可被配置成控制电视机、机顶盒、计算机或者其它组件。图2关于系统10的操作,图解说明手势识别模块18的基本组件。手势识别模块18 一般包含3个阶段。在第一阶段中,在分割模块20和跟踪模块22处理来自设备12的输入或拍摄的图像,从而从背景中分割手部区域,以便跟踪。在第二阶段中,系统10执行特征提取模块24,以便从检测的手部区域中提取必要的特征。在第三阶段中,通过把提取的特征输入用于姿势/手势识别26的分类器,系统10执行手势识别模块18。手势识别模块18的结果随后被输出给特定的应用程序16,以便控制设备。阶段1:手部分割图像分割一般包括向图像中的像素分配标记,以致具有相同标记的像素共有某些视觉特性。本专利技术的系统10最好利用基于肤色的方法。这种方法以在每个单独的图像内,肤色始终如一(例如,数值不存在重大变化)的假定为基础。这种结构把色度分量和亮度分量分开,以降低对光变化的敏感性。这种方法为低计算复杂性和实时性能创造条件。在优选结构中,来自设备12的输入图像为YCbCr444平面颜色格式。如图3中图解所示,分割模块20 —般包含3个步骤:包含前景/背景分离的第一步骤30,包含模型训练的第二步骤32,和包含像素分类的第三步骤34。图4图解说明检测手部44位置和大小的前景/背景分离步骤30。在检测到手部44之后,输出手部限界框48。最好利用触发模块(未示出)触发本专利技术的系统10启动(例如,通过用户举起手部44)。限界框48围绕前景区域40,把背景区42定义为被包围在外框或者搜索区46中的周围图像。这里,搜索区长度被表示成3倍于限界框48的长度L,以覆盖手部44的运动。不过,可以理解其它比率也是适用的。在模型训练步骤32中,最好利用K-均值聚类(clustering)训练在手部限界框48内的图像40的3-分量高斯混合模型(最好只使用Cb,Cr颜色通道)。K-均值聚类还用于训练在背景区域42内的图像的3-分量高斯混合模型(只使用Cb,Cr颜色通道)。尽管可以使用其它方法(例如,基于直方图的方法),不过优选K-均值算法,因为其它方法通常较慢,并且更加计算密集。K-均值算法是用于把图像分成K个聚类的迭代技术。K-均值算法通常包括I)随机地或者根据某种试探,挑选K个聚类中心,2)把图像中的每个像素分配给使该像素和聚类中心之间的距离最小化的聚类,3)通过求聚类中的所有像素的平均值,重新计算聚类中心,和4)重复步骤2和3,直到达到收敛为止(例如,没有像素改变聚类)。通常,所述距离是像素和聚类中心之间的平方差或者绝对值差。所述差值可以基于像素颜色、亮度、纹理和位置,或者这些因素的加权组合。本专利技术的系统10最好利用基于肤色的方法。这种方法以在每个单独的图像内,肤色始终如一(例如,数值不存在重大变化)的假定为基础。这种结构对光变化敏感,可通过把色度分量和亮度分量分开,加以改善。这种方法为低计算复杂性和实时性能创造条件。在优选结构中,来自设备12的输入图像为YCbCr444平面颜色格式。为了修正前景40颜色模型,除去不在一般皮肤模型的范围(77<Cb<127,133 ^ Cr ^ 173)内的所有分量。如果3个分量都在(或者都不在)皮肤模型范围之内,那么我们根据前景高斯模型,确定最接近任意背景分量的分量,随后除去 该分量。剩余的分量随后被用于表示本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.09.17 US 12/885,0721.一种用于遥控设备的手势识别系统,包括: (a)在所述设备附近的位置处,捕捉用户的手部的视频数据的传感器; (b)处理捕捉的所述手部的视频数据的处理器; (c)可在所述处理器上运行,以执行多个步骤的程序,所述多个步骤包括: 根据肤色,分割捕捉的视频中的每个手部图像; 提取分割的手部图像的一个或多个参数; 跟踪手部图像中的所述一个或多个参数; 根据所述一个或多个参 数,把手势分类成“张开”或“握紧”;和 根据所述手势的识别和对所述一个或多个参数的位置的跟踪,操纵所述设备。2.按照权利要求1所述的系统,其中分割每个手部图像包括: 把与所述手部相关的前景区域和围绕所述前景区域的背景区域分开; 训练背景区域和前景区域的3分量混合模型;和 根据运动和肤色中的一个或多个,对图像像素分类。3.按照权利要求1所述的系统,其中只利用Cb和Cr颜色通道分割图像。4.按照权利要求1所述的系统,其中提取一个或多个参数包括: 根据提取的手部的轮廓和骨架,获得用户的手部的手掌中心位置。5.按照权利要求4所述的系统,其中跟踪一个或多个参数包括利用Kalman滤波器,跟踪手掌中心位置。6.按照权利要求4所述的系统,其中提取一个或多个参数还包括: 获得手掌底部位置;和 测量手掌中心位置与提取的图像轮廓上的最远轮廓点之间的距离; 所述最远轮廓点在通过手掌底部位置和手掌中心位置的矢量的预定角度范围内。7.按照权利要求6所述的系统,其中把手势分类成“张开”或“握紧”包括: 比较到最远轮廓点的距离和阈值; 如果到最远轮廓点的距离超过所述阈值,那么把图像分类成“张开”;以及 如果到最远轮廓点的距离低于所述阈值,那么把图像分类成“握紧”。8.按照权利要求1所述的系统, 其中所述设备包含与显示器耦接的用户界面,所述用户界面是在所述显示器上输出的;以及 其中操纵所述设备包括根据所述手势的识别和所述一个或多个参数的跟踪,向用户界面发送命令。9.按照权利要求8所述的系统,其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面。10.按照权利要求9所述的系统,其中张开手势的跟踪被用于确定光标在用户界面上的位置。11.一种用于遥控设备的手势识别系统,所述设备具有在显示器上显现的用户界面,所述手势识别系统包括: (a)在所述设备附近的位置,捕捉用户的手部的视频数据的传感器; (b)处理捕捉的所述手部的视频数据的处理器;(C)可在所述处理器上运行以执行多个步骤的程序,所述多个步骤包括: 根据肤色,分割捕捉的视频中的每个手部图像; 提取分割的手部图像的一个或多个参数; 跟踪手部图像中的所述一个或多个参数; 根据所述一个或多个参数,把手势分类成“张开”或“握紧”;和 根据所述手势的识别和所述一个或多个参数的跟踪,...

【专利技术属性】
技术研发人员:黄光满刘明昌余良吟
申请(专利权)人:索尼公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1