基于视频的行为识别方法及装置制造方法及图纸

技术编号:15437910 阅读:331 留言:0更新日期:2017-05-26 03:54
本发明专利技术适用于计算机科学技术领域,提供了基于视频的行为识别方法及装置,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。本发明专利技术使时空特征和高层语义特征互补协作,以增强RNN识别复杂行为的能力。

Video based behavior recognition method and device

The invention is applicable to the technical field of computer science, and provides a device behavior recognition method based on video includes: to extract all the sampling time video frame depth features, semantic features and details of the depth of the sampling time behavior characteristics included in the video frame feature; feature details of the sampling time based on video frames get used to, the current expression of spatial and temporal characteristics of video frame behavior; the space-time features and the high-level semantic features with input LSTM model, to conduct identification for the current video frame. The invention enables space time features and high-level semantic features to complement and cooperate to enhance the ability of RNN to recognize complex behavior.

【技术实现步骤摘要】
基于视频的行为识别方法及装置
本专利技术属于计算机科学
,尤其涉及基于视频的行为识别方法及装置。
技术介绍
近年来,递归神经网络(RecurrentNeuralNetwork,RNN)因其有效的序列建模能力而被广泛应用于视频中的行为识别。现有技术中,RNN将视频各帧的高层语义特征作为各个时刻的输入,进行序列模型训练,然而,使用高层语义特征,通常会对复杂行为的细节位置信息造成忽略,因此限制了RNN的行为识别能力。
技术实现思路
有鉴于此,本专利技术实施例提供了基于视频的行为识别方法及装置,以解决现有技术中基于RNN的行为识别技术对于复杂行为的识别能力低的问题。第一方面,提供了一种基于视频的行为识别方法,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。第二方面,提供了一种基于视频的行为识别装置,包括:提取单元,用于提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;时空特征获取单元,基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;行为识别单元,用于将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。本专利技术实施例通过在RNN结构中导入时空注意机制,使得RNN在每一时刻从全局视频范围内自主学习一个与当前时刻视频帧行为密切相关的时空特征。该时空特征包含有关当前时刻视频帧行为的重要细节信息,并与当前时刻视频帧的高层语义特征有着较强的互补性,使得时空特征和高层语义特征可以在RNN每一时刻的行为建模中互补协作,以增强RNN识别复杂行为的能力。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的基于视频的行为识别方法的实现流程图;图2是本专利技术实施例提供的基于视频的行为识别装置的结构框图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。本专利技术实施例提供了一种基于递归时空注意网络的行为识别方法,通过在RNN结构中导入时空注意机制,使得RNN在每一时刻从全局视频范围内自主学习一个与当前时刻视频帧行为密切相关的时空特征,这样一来,该时空特征能够包含有关当前时刻视频帧行为的重要细节信息,并与当前时刻视频帧的高层语义特征有着较强的互补性,使得时空特征和高层语义特征可以在RNN每一时刻的行为建模中互补协作,以增强RNN识别复杂行为的能力。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。图1示出了本专利技术实施例提供的基于视频的行为识别方法的实现流程,详述如下:在S101中,提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征。优选地,作为本专利技术的一个实施例,可以基于双流卷积神经网络(Two-StreamCNNs)提取所有采样时刻视频帧的深度特征。具体地,可以选用VGG-16结构的双流CNNs作为特征抽取器,将每一个采样的视频帧对应的RGB图像和叠加光流图像分别输入外形流CNN和运动流CNN,并针对每一流的CNN,对第t个视频帧(即当前时刻视频帧)(t=1,…,T)进行深度特征抽取,包括:1、提取CNN最后一个卷积层池化后的特征立方体其中,K×K是最后一个卷积层每个特征图的长和宽,d是最后一个卷积层的特征图个数,在此,将该特征立方体表示为其各个空间位置的特征向量集合:当*为a时,是外形流CNN的卷积层特征,当*为m时,是运动流CNN的卷积层特征。此时,提取出的特征作为视频帧中行为的细节特征。2、CNN第一个全连接层的特征向量其中,当*为a时,是外形流CNN的全连接层特征,当*为m时,是运动流CNN的全连接层特征。此时,提取出的特征作为视频帧中行为的高层语义特征。在S102中,基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征。具体地,从双流CNN中得到各个采样视频帧的深度特征后,采用长短时记忆神经网络(LongShortTermMemory,LSTM)作为时空注意机制的载体,为RNN定义一个时空注意机制,以得到当前时刻视频帧的时空特征。定义时空注意机制的过程如下:首先,以LSTM上一时刻的隐藏状态为引导,基于所有视频帧的特征立方体,估计各个空间位置的特征向量对于当前时刻视频帧行为识别的重要性:其中,是CV*(n,k)对于当前时刻视频帧重要性的未归一化空间权重分数,CV*(n,k)是第n个时刻视频帧(n=1,…,T)的特征立方体的第k个位置(k=1,…,K2)的特征向量,是空间注意机制的模型参数。然后,针对第n个时刻视频帧的特征立方体,对进行归一化处理:其中,γα是控制空间注意机制分数分布的形状参数。通过将外形流和运动流的空间权重分数取最大值,以融合不同流的空间重要性:并计算所述当前时刻视频帧在外形流与运动流的行为的空间特征:。在得到关于当前时刻视频帧的T个空间特征后,以LSTM上一时刻的隐藏状态为引导,分别估计各个空间特征对于当前时刻视频帧的重要性:并对其进行归一化,得到:其中和分别是第n个空间特征对于当前时刻视频帧重要性的未归一化时间权重分数和归一化时间权重分数,是时间注意机制的模型参数。通过将外形流和运动流的时间权重分数取最大值,以融合不同流的时间重要性:并将与带入为外形流和运动流分别计算时空特征在S103中,将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。。在获取到每一时刻的时空特征之后,将时空特征作为除高层语义特征之外的额外输入,与高层语义特征一道输入LSTM模型。具体地,LSTM模型可以为:其中,若*为a,则LSTM模型代表了外形流LSTM,若*为m,则LSTM模型代表了运动流LSTM。U和b的集合是LSTM的模型参数,σ(·)和tanh(·)是sigmoid和tanh函数,⊙表示对应元素相乘,和分别为输入门、遗忘门和输出门,和分别表示待选记忆单元、记忆单元和隐藏状态,x是LSTM模型的输入,即CNN全连接层的特征由于时空特征包含关于当前时刻视频帧中行为的重要全局上下文细节信息,因此它与当前时刻视频帧的高层语义特征之间有很强的互补性,所以,这两种特征相互合作,能够增强LSTM模型在每一时刻对行为的判别能力。另外,外形流和运动流的时空注意机制融合,使得外形流与运动流中的时空注意机制相互帮助,促进外形流RNN与运动流RNN形成一个有机整体,从而进一步地增强了模型的行为表达能力。最后,为了通过一种本文档来自技高网...
基于视频的行为识别方法及装置

【技术保护点】
一种基于视频的行为识别方法,其特征在于,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。

【技术特征摘要】
1.一种基于视频的行为识别方法,其特征在于,包括:提取所有采样时刻视频帧的深度特征,所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征;基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征;将所述时空特征与所述高层语义特征一同输入LSTM模型,以对所述当前时刻视频帧进行行为识别。2.如权利要求1所述的行为识别方法,其特征在于,所述提取所有采样时刻视频帧的深度特征包括:将所述采样时刻视频帧的RGB图像和叠加光流图像分别输入双流卷积神经网络的外形流和运动流;提取卷积神经网络最后一个卷积层池化后的特征立方体作为第t时刻视频帧中行为的细节特征,其中,K×K是所述最后一个卷积层每个特征图的长和宽,d是所述最后一个卷积层的特征图个数,当*为a时,是外形流卷积神经网络的卷积层特征,当*为m时,是运动流卷积神经网络的卷积层特征;提取卷积神经网络第一个全连接层的特征向量作为第t时刻视频帧中行为的高层语义特征,其中,当*为a时,是外形流卷积神经网络的全连接层特征,当*为m时,是运动流卷积神经网络的全连接层特征。3.如权利要求2所述的行为识别方法,其特征在于,所述基于所述采样时刻视频帧的细节特征,获取用于表达当前时刻视频帧的行为的时空特征,包括:以长短时记忆神经网络LSTM上一时刻的隐藏状态为引导,基于所有采样视频帧的所述特征立方体,估计各个空间位置的特征向量对于当前第t时刻视频帧行为识别的重要性:其中,是CV*(n,k)对于当前第t时刻视频帧重要性的未归一化空间权重分数,CV*(n,k)是第n个时刻视频帧(n=1,…,T)的所述特征立方体的第k个位置(k=1,…,K2)的特征向量,是空间注意机制的模型参数;针对第n个时刻视频帧的所述特征立方体,对进行归一化处理:其中,γα是控制空间注意机制分数分布的形状参数;通过将外形流和运动流的空间权重分数取最大值,以融合不同流的空间重要性:并计算所述当前时刻视频帧在外形流与运动流的行为的空间特征:在得到关于所述当前时刻视频帧的T个空间特征后,以为引导,分别估计各个空间特征对于所述当前时刻视频帧重要性的时间权重分数:并对其进行归一化得到:是时间注意机制的模型参数。通过将外形流和运动流的时间权重分数取最大值,以融合不同流的时间重要性:并将与带入为外形流和运动流分别计算时空特征4.如权利要求3所述的行为识别方法,其特征在于,所述行为识别方法还包括:将外形流和运动流的时空特征分别输入LSTM模型,以分别获取外形流LSTM与运动流LSTM的当前隐藏状态和以计算行为识别的预测概率向量:其中{Wa,Wm,bam}是对应的模型参数;基于总损失函数Ltotal=Lmain+λAALAA训练网络,其中主损失函数是带有权重衰减的交叉熵:C是行为的类别个数,T是总的时刻的个数,Θ代表所有的模型参数,λΘ是权重衰减的系数,yt,c代表真实的行为类别标签,额外损失函数为基于动作人的注意正则项:其中是空间注意机制的外形流和运动流融合的融合权重分数,M(t,·)是视频中动作人的剪影或者边界框,λAA为正则项系数。5.一种基于视频的行为识别装置,其特征在于,包括:提取单...

【专利技术属性】
技术研发人员:乔宇杜文斌王亚立
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1