当前位置: 首页 > 专利查询>之江实验室专利>正文

一种动作视频分类方法技术

技术编号:39812645 阅读:14 留言:0更新日期:2023-12-22 19:30
本发明专利技术公开了一种动作视频分类方法

【技术实现步骤摘要】
一种动作视频分类方法、装置及介质


[0001]本专利技术涉及视频语义理解与模式识别
,尤其涉及一种动作视频分类方法

装置及介质


技术介绍

[0002]作为视频分析领域的核心任务,动作视频分类在人机交互

体育运动

健康看护等场景中有重要应用价值

随着深度学习技术的发展,大量基于深度神经网络的动作视频分类方法得到提出,包括基于卷积神经网络的分类方法和基于
Transformer
的分类方法

基于卷积神经网络的分类方法可以分为两类:(1)使用
3D
卷积或者
2D
卷积和
1D
卷积的组合直接对视频中的时空信息进行学习,如
C3D、P3D
等方法,这类方法在场景相关的动作视频中表现良好;(2)利用
2D
卷积和轻量化地运动建模模块对视频进行处理,如
TSM、TEA
等方法,这类方法在运动相关的动作视频中取得了不错的效果

但是总体来说,由于卷积神经网络不善于捕捉视频中的长时依赖关系,因此限制了这些方法的分类性能

基于
Transformer
的分类方法利用注意力机制建模视频中不同时空块的关联关系,如
TimeSformer、Swin Transformer
等,这些方法通常相对于基于卷积神经网络的分类方法有更强的表达能力,但是也面临时间复杂度高

模型参数量大等困难


技术实现思路

[0003]本专利技术的目的在于针对现有技术的不足,提供了一种动作视频分类方法

装置及介质

[0004]本专利技术的目的是通过以下技术方案实现的:
[0005]一种动作视频分类方法,包括以下步骤:
[0006](1)将输入视频在空间上均匀分块,即令牌
token
,各块拉伸后得到的向量经过线性映射,得到第一视频特征;
[0007](2)将第一视频特征输入编码模块中,得到第二视频特征;所述编码模块由若干个编码器组成;每个所述编码器由混合注意力及通道转移模块和多层感知机组成;所述混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作;所述混合注意力包括空间注意力

时间注意力和随机注意力;
[0008](3)所述第二视频特征经过空间池化操作后,送入分类器中进行分类,并得到各视频帧的分类结果;然后再使用时域均匀聚合操作,得到输入视频的分类结果

[0009]进一步地,所述混合注意力的组合包括以下三种:
[0010]所述空间注意力

时间注意力和随机注意力依次串联连接;
[0011]所述空间注意力和时间注意力依次串联后,再与随机注意力并联连接;
[0012]所述空间注意力

时间注意力和随机注意力并联连接

[0013]进一步地,在进行所述混合注意力操作中,首先将第一视频特征经过线性映射,得到查询向量

键向量和值向量

[0014]进一步地,在所述空间或时间注意力中,首先将查询向量和键向量按照空间或时间维度分组,然后计算对应组之间的自注意力权重矩阵,并将自注意力权重矩阵作用于值向量,分别得到空间或时间注意力的输出视频特征

[0015]进一步地,在所述随机注意力中,首先将键向量按预先设定的比例随机采样
token
并组成新的键向量,然后计算查询向量与新的键向量之间的自注意力权重矩阵,并将自注意力权重矩阵作用于值向量,得到随机注意力的输出视频特征

[0016]进一步地,所述通道转移操作包括:(1)周期性转移操作;(2)使用周期性转移操作作为初始化的
1D
按深度卷积操作;
[0017]在所述周期性转移操作中,各个头的输入视频特征在时间维度上移动预先设定比例的通道数

[0018]进一步地,所述混合注意力操作和通道转移操作的组合方式:(1)所述空间注意力

时间注意力和随机注意力并联连接,将通道转移操作插入到空间注意力操作所在的分支中;(2)混合注意力操作完成并融合后,再进行通道转移操作

[0019]进一步地,所述多层感知机包含两个卷积层进行线性映射,以及一个
GELU
激活函数

[0020]本专利技术还提供了一种动作视频分类装置,包括一个或多个处理器,用于实现上述的一种动作视频分类方法

[0021]本专利技术还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的一种动作视频分类方法

[0022]本专利技术的有益效果是,本专利技术主要解决基于
Transformer
网络的动作视频分类任务,针对
3D
注意力机制运算开销大的问题,本专利技术公开了一种基于混合注意力和通道转移操作的动作视频分类方法

在混合注意力操作中本专利技术结合了空间

时间和随机三种注意力机制

其中空间注意力和时间注意力的结合建立了给定
token
与视频中所有
token
之间的间接依赖关系;随机注意力则考虑了给定
token
与部分随机抽取的
token
之间的直接依赖关系

这使得这三种注意力之间具有互补建模作用

进一步地,鉴于注意力机制主要捕捉长时运动信息,本专利技术还采用通道转移操作来学习帧间短时运动特征,混合注意力操作和通道转移操作共同构建了对视频中运动信息的多尺度表达,取得了更好地建模效果

附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0024]图1为本专利技术混合注意力和通道转移操作编码器的示意图;
[0025]图2为本专利技术混合注意力和通道转移操作
Transformer
网络的设计图;
[0026]图3为空间

时间和随机注意力操作的示意图;
[0027]图4为三种注意力操作不同组合方式的示意图;
[0028]图5为两种通道转移操作的示意图;
[0029]图6为混合注意力操作和通道转移操作不同组合方式的示意图;
[0030]图7为本专利技术的一种硬件结构图

具体实施方式
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种动作视频分类方法,其特征在于,包括以下步骤:(1)将输入视频在空间上均匀分块,即令牌
token
,各块拉伸后得到的向量经过线性映射,得到第一视频特征;(2)将第一视频特征输入编码模块中,得到第二视频特征;所述编码模块由若干个编码器组成;每个所述编码器由混合注意力及通道转移模块和多层感知机组成;所述混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作;所述混合注意力包括空间注意力

时间注意力和随机注意力;(3)将所述第二视频特征经过空间池化操作后,送入分类器中进行分类,并得到各视频帧的分类结果;然后再使用时域均匀聚合操作,得到输入视频的分类结果
。2.
如权利要求1所述的一种动作视频分类方法,其特征在于,所述混合注意力的组合包括以下三种:所述空间注意力

时间注意力和随机注意力依次串联连接;所述空间注意力和时间注意力依次串联后,再与随机注意力并联连接;所述空间注意力

时间注意力和随机注意力并联连接
。3.
如权利要求1所述的一种动作视频分类方法,其特征在于,在所述混合注意力操作中,首先将第一视频特征经过线性映射,得到查询向量

键向量和值向量
。4.
如权利要求3所述的一种动作视频分类方法,其特征在于,在所述空间或时间注意力中,首先将查询向量和键向量按照空间或时间维度分组,然后计算对应组之间的自注意力权重矩阵,并将自注意力权重矩阵作用于值向量,分别得到空间或时间注意力的输出视频特征<...

【专利技术属性】
技术研发人员:卢修生苏慧叶玥王瑾宋明黎
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1