一种基于Kinect的多模型融合视频人手分割方法技术

技术编号:8980881 阅读:217 留言:0更新日期:2013-07-31 22:56
本发明专利技术提供了一种基于Kinect的多模型融合视频人手分割方法,包括如下步骤:(1)捕捉视频信息;(2)分别对视频中的图像进行分割得到深度模型、肤色模型和背景模型的分割结果,分割结果的表现形式为二值图;(3)计算三个分割结果的两两重叠率,作为衡量它们各自分割效果好坏的特征,把三个重叠率输入到神经网络;(4)神经网络输出三个系数(即置信系数),置信系数表示出三个模型各自的可靠性,三个分割结果经由置信系数进行加权;(5)对加权后的三个模型分割结果进行线性叠加;(6)叠加的结果经过阈值函数输出最终的二值图,最后分割得到的视频人手区域;(7)更新背景模型。具有成本低和灵活性好等优点。

【技术实现步骤摘要】

本专利技术涉及一种计算机图像处理及模式识别技术,特别涉及。
技术介绍
视频人手分割是计算机视觉和人工智能的一个重要领域,它作为一系列人机交互应用如手势远程操控,虚拟书写绘画,手语识别等等的一个基础性步骤,对后续步骤有着重要的影响。传统的视频人手分割方法主要可以分为两大领域:基于2维视觉的分割方法和基于3维人手建模的分割方法,前期的研究者在2维视觉方法的尝试上都存在着各自的局限性。当中包括广泛使用的肤色模型,但是它容易受光线变化的影响,同时无法解决人手与类肤色区域重叠的情况。另一方面基于运动信息的帧差前景检测技术也被使用,但是它们的基本假设是手总处于运动的状态,这不符合一般的应用场景,对于3维人手建模的分割方法,尽管能够取得不错的结果,但是它依赖于高质量的设备,如数据手套,高精度TOF相机,这些设备造价高昂,因此制约着它们成为一种真正实用性的解决方案。微软的Kinect传感器问世以来,研究者希望凭借Kinect这个设备提供的彩色图还有深度图信息综合2维方法和3维方法的优点,寻求一种性能优越而又实用的方法。但是Kinect提供的深度信息存在噪声、边缘不准确等缺陷。因此单纯使用深度信息往往得不到很好的分割效果,也有研究者结合肤色模型和深度模型来建立一个鲁棒性更佳的分割模型,但是Kinect由于自身成像原理,这两个信息是不同步的,因此彩色图和深度图有着一定时延,如何配准和弥补不重合部分成为新的难题
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供,该方法对光线变化、人手与类肤色区域重叠这些传统的基于2维视觉方法面临的难题有鲁棒性,同时有效解决了 Kinect自身彩色图和深度图不同步的问题。本专利技术的目的通过下述技术方案实现:,包括如下步骤:(I)捕捉视频信息;包括彩色图像,还有深度图像(2)使用深度模型、肤色模型和背景模型分别对视频中的每一帧图像进行分割,得到深度模型分割结果、肤色模型分割结果和背景模型分割结果,所述深度模型分割结果、肤色模型分割结果和背景模型分割结果均为二值图;(3)计算三个模型分割结果的两两重叠率(共三个)作为衡量它们各自分割效果好坏的特征(重叠率越高意味着分割的效果越佳),这三个重叠率被输入到神经网络;(4)神经网络输出三个系数,称为置信系数,置信系数表征深度模型、肤色模型和背景模型各自的可靠性,深度模型、肤色模型和背景模型的分割结果经由这三个置信系数进行加权;(5)对加权后的深度模型分割结果、肤色模型分割结果和背景模型分割结果进行线性叠加;(6)叠加后的结果经过阈值滤波输出二值图,得到视频人手区域;(7)利用上一步得到的非手部的背景区域来更新背景模型。所述步骤(I)中,所述视频信息包括彩色图像和深度图像,同时利用Kinect自身提供的标示当前成像位置里面哪些像素属于用户这一功能,将用户从背景中分离出来。所述步骤(2)中,对所述深度模型的分割采用自适应阈值分割方法,所述自适应阈值分割方法的基本假设为人手位于人体的最前,当中利用到Kinect提供的16比特的深度图d(x,y)和8比特的用户图u(x,y),其中(x, y)为图像某一坐标点,I彡x彡w和I < y < h,w和h是图的宽和高,所述自适应阈值分割方法包括如下步骤:a、预处理;将深度·图里面“不可测”区域(其深度值为0,即d(x,y)=0)或者对应用户图的非用户区域(即u(x,y)=0)转至16位深度图可标志的最大值(216-1=65535),SP:d(x, y) = 65535 如果 d(x, y) = O 或 d(x, y) = O ;b、在经过预处理的深度图上,寻找深度的最小值dmin,并将其设为人体的最前深度,即手的最前端;C、对预处理后的深度图进行阈值分割,所述分割阈值随着时间变化,设定第η帧的手部深度阈值(即手最前端至手腕的一个距离范围)为Td(n),那么深度模型分割得到一个二值图D,其中值为I的像素被深度模型判定为手:本文档来自技高网...

【技术保护点】
一种基于Kinect的多模型融合视频人手分割方法,其特征在于,包括如下步骤:(1)捕捉视频信息;(2)使用深度模型、肤色模型和背景模型分别对视频中的每一帧图像进行分割,得到深度模型分割结果、肤色模型分割结果和背景模型分割结果,所述深度模型分割结果、肤色模型分割结果和背景模型分割结果均为二值图;(3)计算深度模型的分割结果、肤色模型的分割结果和背景模型的分割结果的两两重叠率,把所述的三个重叠率输入到神经网络;(4)神经网络输出置信系数,所述置信系数表征深度模型的可靠性、肤色模型的可靠性和背景模型的可靠性,所述深度模型的分割结果、肤色模型的分割结果和背景模型的分割结果经由置信系数进行加权;(5)对加权后的深度模型分割结果、肤色模型分割结果和背景模型分割结果进行线性叠加;(6)叠加后的结果经过阈值函数输出二值图,得到视频人手区域;(7)利用步骤(6)得到的非手部区域更新背景模型。

【技术特征摘要】
1.一种基于Kinect的多模型融合视频人手分割方法,其特征在于,包括如下步骤: (1)捕捉视频信息; (2)使用深度模型、肤色模型和背景模型分别对视频中的每一帧图像进行分割,得到深度模型分割结果、肤色模型分割结果和背景模型分割结果,所述深度模型分割结果、肤色模型分割结果和背景模型分割结果均为二值图; (3)计算深度模型的分割结果、肤色模型的分割结果和背景模型的分割结果的两两重叠率,把所述的三个重叠率输入到神经网络; (4)神经网络输出置信系数,所述置信系数表征深度模型的可靠性、肤色模型的可靠性和背景模型的可靠性,所述深度模型的分割结果、肤色模型的分割结果和背景模型的分割结果经由置信系数进行加权; (5)对加权后的深度模 型分割结果、肤色模型分割结果和背景模型分割结果进行线性置加; (6)叠加后的结果经过阈值函数输出二值图,得到视频人手区域; (7)利用步骤(6)得到的非手部区域更新背景模型。2.根据权利要求1所述的多模型融合视频人手分割方法,其特征在于,步骤(I)中,所述视频信息包括彩色图像和深度图像,并且Kinect提供用户图,将用户从背景中分离出来。3.根据权利要求1所述的多模型融合视频人手分割方法,其特征在于,步骤(2)中,对所述深度模型的分割采用自适应阈值分割方法,所述自适应阈值分割方法假设人手位于人体的最前,所述自适应阈值分割方法包括如下步骤: a、预处理;将深度图里面不可测区域转至16位深度图可标志的最大值65535; b、在经过预处理的深度图上,寻找深度的最小值dmin,并将深度的最小值dmin设为手的最前端; C、对预处理后的深度图进行阈值分割,设定第n帧的手部深度阈值为Td(n),对于图像里面每一个点p=(x, y), I彡X彡w和I彡y彡h,w和h是图的宽和高。分割得到一个深度模型的二值图D,其中值为I的像素被深度模型判定为手:4.根据权利要求1所述的多模型融合视频人手分割方法,其特征在于,步骤(2)中,对所述深度模型的分割采用自适应阈值分割方法,所述自适应阈值分割方法包括如下步骤: I、定义深度模型的分割面积为:5.根据权利要求1所述的多模型融合视频人手分割方法,其特征在于,步骤(2)中,对肤色模型的分割采用对肤色和非肤色分别进行单高斯建模的方法,另外,还采用对肤色分区建模以及生成马氏距离查找表供肤色检测的方法,所述对肤色分区建模以及生成马氏距离...

【专利技术属性】
技术研发人员:金连文叶植超张鑫
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1