一种动作视频分类方法技术

技术编号：39812645 阅读：14 留言：0更新日期：2023-12-22 19:30

本发明专利技术公开了一种动作视频分类方法

全部详细技术资料下载

【技术实现步骤摘要】
一种动作视频分类方法、装置及介质

[0001]本专利技术涉及视频语义理解与模式识别
，尤其涉及一种动作视频分类方法
、
装置及介质
。

技术介绍

[0002]作为视频分析领域的核心任务，动作视频分类在人机交互
、
体育运动
、
健康看护等场景中有重要应用价值
。
随着深度学习技术的发展，大量基于深度神经网络的动作视频分类方法得到提出，包括基于卷积神经网络的分类方法和基于
Transformer
的分类方法
。
基于卷积神经网络的分类方法可以分为两类：（1）使用
3D
卷积或者
2D
卷积和
1D
卷积的组合直接对视频中的时空信息进行学习，如
C3D、P3D
等方法，这类方法在场景相关的动作视频中表现良好；（2）利用
2D
卷积和轻量化地运动建模模块对视频进行处理，如
TSM、TEA
等方法，这类方法在运动相关的动作视频中取得了不错的效果
。
但是总体来说，由于卷积神经网络不善于捕捉视频中的长时依赖关系，因此限制了这些方法的分类性能
。
基于
Transformer
的分类方法利用注意力机制建模视频中不同时空块的关联关系，如
TimeSformer、Swin Transformer
等，这些方法通常相对于基于卷积神经网络的分类方法有更强的表达能力，但是也...

【技术保护点】

【技术特征摘要】
1.
一种动作视频分类方法，其特征在于，包括以下步骤：（1）将输入视频在空间上均匀分块，即令牌
token
，各块拉伸后得到的向量经过线性映射，得到第一视频特征；（2）将第一视频特征输入编码模块中，得到第二视频特征；所述编码模块由若干个编码器组成；每个所述编码器由混合注意力及通道转移模块和多层感知机组成；所述混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作；所述混合注意力包括空间注意力
、
时间注意力和随机注意力；（3）将所述第二视频特征经过空间池化操作后，送入分类器中进行分类，并得到各视频帧的分类结果；然后再使用时域均匀聚合操作，得到输入视频的分类结果
。2.
如权利要求1所述的一种动作视频分类方法，其特征在于，所述混合注意力的组合包括以下三种：所述空间注意力
、
时间注意力和随机注意力依次串联连接；所述空间注意力和时间注意力依次串联后，再与随机注意力并联连接；所述空间注意力
、
时间注意力和随机注意力并联连接
。3.
如权利要求1所述的一种动作视频分类方法，其特征在于，在所述混合注意力操作中，首先将第一视频特征经过线性映射，得到查询向量
、
键向量和值向量
。4.
如权利要求3所述的一种动作视频分类方法，其特征在于，在所述空间或时间注意力中，首先将查询向量和键向量按照空间或时间维度分组，然后计算对应组之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，分别得到空间或时间注意力的输出视频特征<...

【专利技术属性】
技术研发人员：卢修生，苏慧，叶玥，王瑾，宋明黎，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人