当前位置: 首页 > 专利查询>苏州大学专利>正文

基于时空增强网络的视频动作识别方法技术

技术编号:32266652 阅读:15 留言:0更新日期:2022-02-12 19:29
本发明专利技术公开了一种基于时空增强网络的视频动作识别方法,包括:S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;S2.将S1获取到的视频帧图像序列进行预处理;S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。本发明专利技术的有益效果:通过在空间网络中嵌入时空增强模块,本发明专利技术提出的基于深度学习的视频行为识别系统可以得到较高的分类准确率。准确率。准确率。

【技术实现步骤摘要】
基于时空增强网络的视频动作识别方法


[0001]本专利技术涉及涉及深度学习和图像处理领域,具体涉及一种基于时空增强网络的视频动作识别方法。

技术介绍

[0002]随着互联网技术和大数据科学的快速发展,人们通过网络可获取的视频数量呈爆发式增长。如何从视频图像中提取有效信息已成为备受关注的问题。从视频中提取信息需要能够快速理解视频的内容,并根据一定规则对这些内容进行解释。显然,随着视频数量的急速增长,通过人工方式对视频进行理解和分析已经难以适应当前的需求。从而,需要采用智能自动化的方式完成相应的任务。作为视频理解的一个基本问题,视频图像中行为的识别在实际工程领域有着非常广泛的应用,如视频审核、手势识别和安防监控等。近年来,深度学习理论的研究取得了很大的进展,被成功用于图像处理等问题。因此,研究基于深度学习的视频动作识别具有非常重要的理论价值和应用前景。
[0003]在已有的研究中,人们通常采用3D卷积神经网络或者2D卷积神经网络处理视频图像中的动作识别问题。其中,基于2D卷积神经网络的动作识别方法一般采用双流架构,基本思路是:针对视频中的不同帧图像,分别利用输入的光流和RGB帧的空间流信息实现动作行为的时间和空间建模,并将时间流和空间流信息进行充分融合,最后输入到合适的分类器进行处理,得到动作识别结果。与传统单流结构的卷积神经网络相比,由于光流信息的利用,双流结构的卷积神经网络在视频动作识别方面的性能得到了明显的提升。但是,这种性能提升是以昂贵的光流计算成本为代价的。此外,基于双流结构的视频方法的另一个不足是通常采用2D卷积神经网络提取时间流信息,因此对长时间信息的建模能力不足。而在3D卷积神经网络模型中,提出了3D卷积核以有效提取视频图像中的时空信息。引入3D卷积核的好处是,随着结构的不断加深,感受野的不断增大,3D卷积神经网络更加有利于从视频图像中提取丰富的时间信息。另一方面,3D卷积神经网络也能够直接从输入的RGB图像中获取空间信息,从而避免了计算代价昂贵的光流提取过程。但是,由于3D卷积核的引入,基于3D卷积神经网络的动作识别方法仍然存在计算成本高、运算速度慢的不足。最近,已有一些研究将3D卷积神经网络和双流结构进行结合来提高行为识别的准确率。同样地,正如上述分析,这两者结合的计算成本显然是非常昂贵的,因此在实际中难以被广泛采用。与此同时,也有一些学者在研究新的时间流信息处理方法,探讨如何与2D卷积神经网络进行结合,实现对时空信息的有效提取。这样,不仅能充分发挥2D卷积神经网络轻量高效的特性,而且避免了对预训练好的2D卷积神经网络做过大的改动。然而,这种方法往往可移植性较差。因此,进一步探索时间流信息处理方法与2D卷积神经网络的集成是值得深入研究的。
[0004]传统技术存在以下技术问题:
[0005]1.基于双流网络的深度卷积神经网络模型对视频图像的长时间建模能力不足,影响动作行为识别的效果。另一方面,在双流结构中,光流提取的时间和空间成本都相对较高,不利于在实际中的应用;
[0006]2.基于3D卷积神经网络的视频行为识别方法计算成本高、运行速度慢;
[0007]3.2D卷积神经网络难以充分表示视频图像中运动信息的空间和时间特征的关联性,导致识别准确率不太理想。

技术实现思路

[0008]本专利技术要解决的技术问题是提供一种基于时空增强网络的视频动作识别方法,以MobileNetV2为基础,提出了一种时空增强网络模型(STEN)解决视频图像的动作识别问题,引入时空关联信息的注意力机制,解决2D卷积神经网络无法有效提取时空信息,识别准确率低的问题;设计了一种时空增强模块实现视频图像中运动信息的空间特征的有效表示;基于时空增强模块的视频行为识别的深度卷积神经网络模型参数量和计算量都相对较小,运行速度快;采用端到端的系统架构,易于实现。
[0009]为了解决上述技术问题,本专利技术提供了一种基于时空增强网络的视频动作识别方法,包括:
[0010]S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;
[0011]S2.将S1获取到的视频帧图像序列进行预处理;
[0012]S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;
[0013]S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。
[0014]在其中一个实施例中,步骤S3的具体流程为:
[0015]S3

1.采用的基础网络为MobileNet V2,它包含17个Bottleneck,将设计的时空增强模块嵌入在其第3,5,6,8,9,10,12,13,15,16个Bottleneck中得到时空增强网络模型;
[0016]S3

2.为了保证时空增强网络模型长期时间建模的能力,在时空增强模块之前级联了一个核大小为3的1D卷积;
[0017]S3

3.时空增强模块是通过残差块的形式实现的,其残差函数为x
n+1
=x
n
+A(x
n
,W
n
),其中A(x
n
,W
n
)是时空增强部分,其大致步骤为:将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分。
[0018]在其中一个实施例中,在步骤S3

1中使用的MobileNet V2结构为:首先使用一个3
×
3的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图;然后将得到的特征图依次通过17个Bottleneck和一个1
×
1的卷积得到大小为[NT,1280,7,7]的特征图;最后将得到的特征图经过平均池化再馈送到全连接层得到NT
×
CLS的特征,其中,CLS代表视频行为的分类数。
[0019]在其中一个实施例中,其中步骤S3

2的具体流程为:
[0020]将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N
×
H
×
W,C,T];
[0021]用核大小为3的1D卷积提取时间信息;
[0022]采用变形和移位将通过卷积后的特征的维度还原为[NT,C,H,W]。
[0023]在其中一个实施例中,在上述步骤中采用的是通道分离的1D卷积,且其前八分之一的通道被初始化为(0,0,1),八分之一至八分之二的通道被初始化为(1,0,0),剩下四分之三的通道被初始化为(0,1,0)。
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空增强网络的视频动作识别方法,其特征在于,包括:S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;S2.将S1获取到的视频帧图像序列进行预处理;S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。2.如权利要求1所述的基于时空增强网络的视频动作识别方法,其特征在于,步骤S3的具体流程为:S3

1.采用的基础网络为MobileNet V2,它包含17个Bottleneck,将设计的时空增强模块嵌入在其第3,5,6,8,9,10,12,13,15,16个Bottleneck中得到时空增强网络模型;S3

2.为了保证时空增强网络模型长期时间建模的能力,在时空增强模块之前级联了一个核大小为3的1D卷积;S3

3.时空增强模块是通过残差块的形式实现的,其残差函数为x
n+1
=x
n
+A(x
n
,W
n
),其中A(x
n
,W
n
)是时空增强部分,其大致步骤为:将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分。3.如权利要求2所述的基于时空增强网络的视频动作识别方法,其特征在于,在步骤S3

1中使用的MobileNet V2结构为:首先使用一个3
×
3的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图;然后将得到的特征图依次通过17个Bottleneck和一个1
×
1的卷积得到大小为[NT,1280,7,7]的特征图;最后将得到的特征图经过平均池化再馈送到全连接层得到NT
×
CLS的特征,其中,CLS代表视频行为的分类数。4.如权利要求2所述的基于时空增强网络的视频动作识别方法,其特征在于,步骤S3

2的具体流程为:将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N
×
H
×
W,C,T];用核大小为3的1D卷...

【专利技术属性】
技术研发人员:黄鹤余佳诺
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1