本发明专利技术公开了一种基于RGB‑D视频的人体行为识别方法,属于计算机视觉的行为识别技术领域。该方法根据RGB‑D视频中不同类别的人体行为动作具有不同的运动信息、几何信息和纹理信息,对RGB‑D摄像机获取的RGB‑D视频分别提取稠密MovingPose特征、SHOPC特征和HOG3D特征,采用边缘限制的多核学习方法对三种特征进行特征融合,最后采用Exemplars‑SVM线性分类器对人体行为动作进行判决。相比现有技术,本发明专利技术中所采用的提取的三种特征融合后具有光照不变性、尺度不变性和视角不变性,对动作执行者之间的外形差异和行为动作过程差异都具有显著的鲁棒性,在一定程度上能提高人体行为动作的识别准确度。
【技术实现步骤摘要】
一种基于RGB-D视频的人体行为识别方法
本专利技术涉及一种人体行为识别方法,尤其涉及一种基于RGB-D视频的人体行为识别方法,属于计算机视觉的行为识别
技术介绍
人体行为识别可以在很多方面应用,比如智能监控、人机交互和体育视频处理。基于输入的视频数据,人体行为识别方法可以分为三类,包括:基于RGB视频数据的方法、基于深度视频数据的方法以及基于两种数据相结合的方法。由于深度传感器能够获取更加丰富的外观和结构信息,所以深度摄像机在计算机视觉领域越来越受到广泛的关注。近年来,越来越多的公司开发出了RGB-D摄像机,该类设备的特点是能够实时的提供RGB图像和深度图像,比如2010年微软发布了能够实时采集RGB-D图像的摄像头(即Kinect);2011年华硕发布了XtionPRO;2013年体感控制器制造公司Leap发布的LeapMotion。RGB-D视频相比于RGB视频具有几个优点。首先,他们提供了额外的身体外形和结构信息,这些信息已经成功的应用在从单幅深度图中获取骨架节点信息和稠密点云结构信息;其次,在深度图中去除掉了色彩和纹理信息,这使得人体检测和分割更容易;第三,深度传感器对光照变化不敏感,这使得在黑暗环境下的监视设备带来了好处。设计基于RGB-D视频的有效特征在很多计算机视觉问题中仍然是很重要的研究问题。很多现有的人体行为识别技术[Cheng,Qin,Ye,Huang,Tian.Humandailyactionanalysiswithmulti-viewandcolor-depthdata.ComputerVision–ECCV2012.WorkshopsandDemonstrations,52-61:Springer,2012.]将深度序列以和彩色视频相同的方法来处理,采用基于色彩的识别方法。然而,虽然这些方法适用于彩色视频序列,将它们简单地推广到深度视频序列可能不会产生最优的结果[Oreifej,Liu.Hon4d:Histogramoforiented4dnormalsforactivityrecognitionfromdepthsequences.ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon,716-723:IEEE,2013.]。由深度摄像机获得的信息也可以采用几何特征来提取更丰富的特征描述子。例如,[Tangetal.Histogramoforientednormalvectorsforobjectrecognitionwithadepthsensor.ComputerVision–ACCV2012,525-538:Springer,2013.]采用法线向量直方图用于深度图像的目标检测。给定一个深度图像,他们计算相对应的空间导数,将其转换到极坐标,并且采用它们的2D直方图作为目标描述子。最近,[Oreifej,Liu.Hon4d:Histogramoforiented4dnormalsforactivityrecognitionfromdepthsequences.ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon,716-723:IEEE,2013.]通过增加时间导数将相同的技术扩展到时间维度。将深度视频序列以这种方式进行处理的缺点是深度图像中的噪声在这种微分操作过程中被过于放大。基于深度图的行为识别方法可以分为基于全局的方法[Yang,Zhang,Tian.Recognizingactionsusingdepthmotionmaps-basedhistogramsoforientedgradients.Proceedingsofthe20thACMinternationalconferenceonMultimedia,1057-1060:ACM,2012.];和局部方法[Xia,Aggarwal.Spatio-temporaldepthcuboidsimilarityfeatureforactivityrecognitionusingdepthcamera.ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon,2834-2841:IEEE,2013.]。全局方法采用全局特征,例如轮廓和空-时volume信息。例如,[Lietal.Actionrecognitionbasedonabagof3dpoints.ComputerVisionandPatternRecognitionWorkshops(CVPRW),2010IEEEComputerSocietyConferenceon,9-14:IEEE,2010.]从2D轮廓中采样边界像素点作为特征。[Yangetal.Recognizingactionsusingdepthmotionmaps-basedhistogramsoforientedgradients.Proceedingsofthe20thACMinternationalconferenceonMultimedia,1057-1060:ACM,2012.]2D投影的时间导数来获取深度运动图(DMM)。[Vieiraetal.Stop:Space-timeoccupancypatternsfor3dactionrecognitionfromdepthmapsequences.ProgressinPatternRecognition,ImageAnalysis,ComputerVision,andApplications,252-259:Springer,2012.]采用空-时占用模式计算3D中的轮廓。最近,[Oreifej,Liu.Hon4d:Histogramoforiented4dnormalsforactivityrecognitionfromdepthsequences.ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon,716-723:IEEE,2013.]通过添加时间导数扩展了3D法线直方图[Tangetal.Histogramoforientednormalvectorsforobjectrecognitionwithadepthsensor.ComputerVision–ACCV2012,525-538:Springer,2013.]到4D。标准化梯度向量到单位幅值,并且投影到一个优化的具有600个cell的多面体来获取直方图。基于运动轨迹的行为识别方法[H.Wang,Klaser,Schmid,Liu.Actionrecognitionbydensetrajectories.ComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceon,3169-3176:IEEE,2011.]在深度视频序列中也不稳定。因此,凭借最近的基于深度的行为识别方法采用可选择的方法提取可靠的感兴趣点本文档来自技高网...
【技术保护点】
一种基于RGB‑D视频的人体行为识别方法,利用从RGB‑D视频中所提取的多种特征的融合特征进行人体行为的识别,其特征在于,所述多种特征包括稠密MovingPose特征,所述稠密MovingPose特征的提取方法具体如下:步骤1、对RGB‑D视频中的人体骨架节点进行归一化;步骤2、对已归一化后的人体骨架采用圆柱体或者椎体进行人体表面拟合,然后在该拟合的表面上进行稠密采样,以稠密采样点作为行为动作跟踪点;步骤3、对于每帧中每一行为动作跟踪点,获取其相应的MovingPose描述,MovingPose描述子的表达式为:Xti=[pi(t),αδpi(t),βδ2pi(t)]]]>其中,为t时刻所对应帧中第i个动作跟踪点的MovingPose描述,pi(t)为t时刻所对应帧中第i个动作跟踪点的三维空间坐标,δpi(t)、δ2pi(t)分别表示pi(t)关于时间的一阶导数和二阶导数,参数α和β是一阶导数和二阶导数的相对重要性权值;步骤4、将RGB‑D视频各帧中的同一行为动作跟踪点依次连接,形成该动作跟踪点的轨迹特征,所有动作跟踪点的轨迹特征构成该RGB‑D视频的底层轨迹特征;步骤5、利用词典学习方法将RGB‑D视频的底层轨迹特征用直方图形式进行表示,即得到RGB‑D视频的稠密MovingPose特征。...
【技术特征摘要】
1.一种基于RGB-D视频的人体行为识别方法,利用从RGB-D视频中所提取的多种特征的融合特征进行人体行为的识别,其特征在于,所述多种特征包括稠密MovingPose特征,所述稠密MovingPose特征的提取方法具体如下:步骤1、对RGB-D视频中的人体骨架节点进行归一化;步骤2、对已归一化后的人体骨架采用圆柱体或者椎体进行人体表面拟合,然后在该拟合的表面上进行稠密采样,以稠密采样点作为行为动作跟踪点;步骤3、对于每帧中每一行为动作跟踪点,获取其相应的MovingPose描述,MovingPose描述子的表达式为:其中,为t时刻所对应帧中第i个动作跟踪点的MovingPose描述,pi(t)为t时刻所对应帧中第i个动作跟踪点的三维空间坐标,δpi(t)、δ2pi(t)分别表示pi(t)关于时间的一阶导数和二阶导数,参数α和β是一阶导数和二阶导数的相对重要性权值;步骤4、将RGB-D视频各帧中的同一行为动作跟踪点依次连接,形成该动作跟踪点的轨迹特征,所有动作跟踪点的轨迹特征构成该RGB-D视频的底层轨迹特征;步骤5、利用词典学习方法将RGB-D视频的底层轨迹特征用直方图形式进行表示,即得到RGB-D视频的稠密MovingPose特征。2.如权利要求1所述基于RGB-D视频的人体行为识别方法,其特征在于,所述多种特征还包括超级有向主成分直方图特征-SHOPC特征,所述SHOPC特征的提取方法具体如下:步骤1、对RGB-D视频的三维点云信息进行归一化;步骤2、提取归一化后的三维点云信息的HOPC特征;步骤3、利用稀疏编码词典学习方法对HOPC特征进行稀疏编码差值表示,然后利用自适应空-时金字塔对稀疏编码差值表示的HOPC特征进行空-时整合优化处理,得到RGB-D视频的SHOPC特征。3.如权利要求2所述基于RGB-D视频的人体行为识别方法,其特征在于,所述多种特...
【专利技术属性】
技术研发人员:陈克虎,刘天亮,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。