The invention is applicable to the technical field of computer science, and provides a device behavior recognition method based on video includes: to extract all the sampling time video frame depth features, semantic features and details of the depth of the sampling time behavior characteristics included in the video frame feature; feature details of the sampling time based on video frames get used to, the current expression of spatial and temporal characteristics of video frame behavior; the space-time features and the high-level semantic features with input LSTM model, to conduct identification for the current video frame. The invention enables space time features and high-level semantic features to complement and cooperate to enhance the ability of RNN to recognize complex behavior.
【技术实现步骤摘要】
基于视频的行为识别方法及装置
本专利技术属于计算机科学
,尤其涉及基于视频的行为识别方法及装置。
技术介绍
近年来,递归神经网络(RecurrentNeuralNetwork,RNN)因其有效的序列建模能力而被广泛应用于视频中的行为识别。现有技术中,RNN将视频各帧的高层语义特征作为各个时刻的输入,进行序列模型训练,然而,使用高层语义特征,通常会对复杂行为的细节位置信息造成忽略,因此限制了RNN的行为识别能力。
技术实现思路
有鉴于此,本专利技术实施例提供了基于视频的行为识别方法及装置,以解决现有技术中基于RNN的行为识别技术对于复杂行为的识别能力低的问题。第一方面,提供了一种基于视频的行为识别方法,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。第二方面,提供了一种基于视频的行为识别装置,包括:提取单元,用于提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;时空特征获取单元,基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;行为识别单元,用于将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。本专利技术实施例通过在RNN结构中导入时空注意机制,使得RNN在每一时刻从全局视频范围内自主学习一个与当前时刻视频帧行为密切相 ...
【技术保护点】
一种基于视频的行为识别方法,其特征在于,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。
【技术特征摘要】
1.一种基于视频的行为识别方法,其特征在于,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。2.如权利要求1所述的行为识别方法,其特征在于,所述提取所有采样时刻视频帧的深度特征包括:将所述采样时刻视频帧的RGB图像和叠加光流图像分别输入双流卷积神经网络的外形流和运动流;提取卷积神经网络最后一个卷积层池化后的特征立方体作为第t时刻视频帧中行为的细节特征,其中,K×K是所述最后一个卷积层每个特征图的长和宽,d是所述最后一个卷积层的特征图个数,当*为a时,是外形流卷积神经网络的卷积层特征,当*为m时,是运动流卷积神经网络的卷积层特征;提取卷积神经网络第一个全连接层的特征向量作为第t时刻视频帧中行为的高层语义特征,其中,当*为a时,是外形流卷积神经网络的全连接层特征,当*为m时,是运动流卷积神经网络的全连接层特征。3.如权利要求2所述的行为识别方法,其特征在于,所述基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征,包括:以长短时记忆神经网络LSTM上一时刻的隐藏状态为引导,基于所有采样视频帧的所述特征立方体,估计各个空间位置的特征向量对于当前第t时刻视频帧行为识别的重要性:其中,是CV*(n,k)对于当前第t时刻视频帧重要性的未归一化空间权重分数,CV*(n,k)是第n个时刻视频帧(n=1,…,T)的所述特征立方体的第k个位置(k=1,…,K2)的特征向量,是空间注意机制的模型参数;针对第n个时刻视频帧的所述特征立方体,对进行归一化处理:其中,γα是控制空间注意机制分数分布的形状参数;通过将外形流和运动流的空间权重分数取最大值,以融合不同流的空间重要性:并计算所述当前时刻视频帧在外形流与运动流的行为的空间特征:在得到关于所述当前时刻视频帧的T个空间特征后,以为引导,分别估计各个空间特征对于所述当前时刻视频帧重要性的时间权重分数:并对其进行归一化得到:是时间注意机制的模型参数。通过将外形流和运动流的时间权重分数取最大值,以融合不同流的时间重要性:并将与带入为外形流和运动流分别计算时空特征4.如权利要求3所述的行为识别方法,其特征在于,所述行为识别方法还包括:将外形流和运动流的时空特征分别输入LSTM模型,以分别获取外形流LSTM与运动流LSTM的当前隐藏状态和以计算行为识别的预测概率向量:其中{Wa,Wm,bam}是对应的模型参数;基于总损失函数Ltotal=Lmain+λAALAA训练网络,其中主损失函数是带有权重衰减的交叉熵:C是行为的类别个数,T是总的时刻的个数,Θ代表所有的模型参数,λΘ是权重衰减的系数,yt,c代表真实的行为类别标签,额外损失函数为基于动作人的注意正则项:其中是空间注意机制的外形流和运动流融合的融合权重分数,M(t,·)是视频中动作人的剪影或者边界框,λAA为正则项系数。5.一种基于视频的行为识别装置,其特征在于,包括:提取单...
【专利技术属性】
技术研发人员:乔宇,杜文斌,王亚立,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。