基于时空增强网络的视频动作识别方法技术

技术编号：32266652 阅读：15 留言：0更新日期：2022-02-12 19:29

本发明专利技术公开了一种基于时空增强网络的视频动作识别方法，包括：S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧，获得具有T帧图像的输入序列；S2.将S1获取到的视频帧图像序列进行预处理；S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中，经过模型处理后得到提取的时空特征；S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均，最后通过变形得到的就是各个视频中行为的分类分数，再取最高分所属分类作为分类类别即可得到所求分类结果。本发明专利技术的有益效果：通过在空间网络中嵌入时空增强模块，本发明专利技术提出的基于深度学习的视频行为识别系统可以得到较高的分类准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于时空增强网络的视频动作识别方法

[0001]本专利技术涉及涉及深度学习和图像处理领域，具体涉及一种基于时空增强网络的视频动作识别方法。

技术介绍

[0002]随着互联网技术和大数据科学的快速发展，人们通过网络可获取的视频数量呈爆发式增长。如何从视频图像中提取有效信息已成为备受关注的问题。从视频中提取信息需要能够快速理解视频的内容，并根据一定规则对这些内容进行解释。显然，随着视频数量的急速增长，通过人工方式对视频进行理解和分析已经难以适应当前的需求。从而，需要采用智能自动化的方式完成相应的任务。作为视频理解的一个基本问题，视频图像中行为的识别在实际工程领域有着非常广泛的应用，如视频审核、手势识别和安防监控等。近年来，深度学习理论的研究取得了很大的进展，被成功用于图像处理等问题。因此，研究基于深度学习的视频动作识别具有非常重要的理论价值和应用前景。
[0003]在已有的研究中，人们通常采用3D卷积神经网络或者2D卷积神经网络处理视频图像中的动作识别问题。其中，基于2D卷积神经网络的动作识别方法一般采用双流架构，基本思路是：针对视频中的不同帧图像，分别利用输入的光流和RGB帧的空间流信息实现动作行为的时间和空间建模，并将时间流和空间流信息进行充分融合，最后输入到合适的分类器进行处理，得到动作识别结果。与传统单流结构的卷积神经网络相比，由于光流信息的利用，双流结构的卷积神经网络在视频动作识别方面的性能得到了明显的提升。但是，这种性能提升是以昂贵的光流计算成本为代价的。此外，基于双流结构的视频方法的另一个不足是通常...

【技术保护点】

【技术特征摘要】
1.一种基于时空增强网络的视频动作识别方法，其特征在于，包括：S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧，获得具有T帧图像的输入序列；S2.将S1获取到的视频帧图像序列进行预处理；S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中，经过模型处理后得到提取的时空特征；S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均，最后通过变形得到的就是各个视频中行为的分类分数，再取最高分所属分类作为分类类别即可得到所求分类结果。2.如权利要求1所述的基于时空增强网络的视频动作识别方法，其特征在于，步骤S3的具体流程为：S3
‑
1.采用的基础网络为MobileNet V2，它包含17个Bottleneck，将设计的时空增强模块嵌入在其第3，5，6，8，9，10，12，13，15，16个Bottleneck中得到时空增强网络模型；S3
‑
2.为了保证时空增强网络模型长期时间建模的能力，在时空增强模块之前级联了一个核大小为3的1D卷积；S3
‑
3.时空增强模块是通过残差块的形式实现的，其残差函数为x
n+1
＝x
n
+A(x
n
，W
n
)，其中A(x
n
，W
n
)是时空增强部分，其大致步骤为：将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活，再做矩阵乘法得到空间关联图谱，将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分。3.如权利要求2所述的基于时空增强网络的视频动作识别方法，其特征在于，在步骤S3
‑
1中使用的MobileNet V2结构为：首先使用一个3
×
3的卷积层提取图像特征，由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图；然后将得到的特征图依次通过17个Bottleneck和一个1
×
1的卷积得到大小为[NT,1280,7,7]的特征图；最后将得到的特征图经过平均池化再馈送到全连接层得到NT
×
CLS的特征，其中，CLS代表视频行为的分类数。4.如权利要求2所述的基于时空增强网络的视频动作识别方法，其特征在于，步骤S3
‑
2的具体流程为：将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N
×
H
×
W,C,T]；用核大小为3的1D卷...

【专利技术属性】
技术研发人员：黄鹤，余佳诺，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人