当前位置: 首页 > 专利查询>浙江大学专利>正文

基于空间和长短期时序特征建模的小样本动作识别方法技术

技术编号:36077251 阅读:14 留言:0更新日期:2022-12-24 10:49
本发明专利技术涉及计算机视觉领域,公开了基于空间和长短期时序特征建模的小样本动作识别方法,构建了一种空间特征融合架构搜索单元,以自动搜索浅层和深层空间特征的最佳融合方式,来改善和增强空间表征;构建了一种长短期时序特征建模单元,以编码互补的全局和局部时序表征,来增强时序特征的表达能力。本发明专利技术利用交叉注意力机制完成类原型建立及匹配,将整合后的丰富的时空增强特征输入进帧级的类原型建立及匹配单元中,使系统能够在少量标记样本任务中准确、快速地识别目标动作。快速地识别目标动作。快速地识别目标动作。

【技术实现步骤摘要】
基于空间和长短期时序特征建模的小样本动作识别方法


[0001]本专利技术涉及计算机视觉领域,具体涉及基于空间和长短期时序特征建模的小样本动作识别方法。

技术介绍

[0002]随着深度学习的发展,在动作识别领域出现了大量优秀的工作。大多数研究使用大量的标记数据来执行视频理解或分类任务来学习视频表征。由于大量耗时耗力的数据标注,这种方法在工业应用中并不令人满意。相反,小样本学习的核心假设是只使用来自众多类似任务的少数标记的训练样本作为大量标记的训练样本的替代。因此,人们对少量学习方法的关注与日俱增。小样本动作识别的任务旨在将未标记的查询视频归入支持集(通常是五个类别)中的一个动作类别,而每个动作类别的训练样本有限。
[0003]现有的主流的小样本图形分类方法主要可以分为adaptation

based和metric

based两大类方法。Adaptation

based的方法旨在找到一个网络初始化,可以使用少量数据对未知任务进行微调,其被称为gradient by gradient。在MAML和Reptile的案例中,可以清楚地看到adaptation

based的方法的应用。Metric

based的方法旨在找到一个固定的特征表示,目标任务可以被嵌入其中并进行分类。这种方法的有效性已经在Prototypical Networks和Matching Networks中得到体现。此外,CrossTransformer基于度量的特征与特定任务的适应性结合起来,对查询和支持集进行匹配。
[0004]受小样本图片分类的启发,现有的小样本视频动作识别方法主要是基于metric

based的方法去比较不同视频在特征空间的相似度进行识别,源于adaptation

based的方法需要较高的计算资源和较长的实验时间。然而,与图像相比,视频有一个额外的时间维度,因此,将整个视频作为一个单一的特征向量来表示是不够的。因此,时空特征的建模成为小样本动作识别的核心问题之一。特别是,空间特征旨在表达每个单帧的空间语义信息。在某些情况下,一个视频可以只用一帧来识别,目前的方法STRM、TRX等方法通常通过TSN模型提取空间特征。然而,他们通常仅使用深层次的空间特征,忽略了同样关键的浅层次空间特征,这些特征包含丰富的纹理信息。将浅层次的空间特征与深层次的空间特征相融合,可以弥补甚至是突出浅层次的语义特征。对于时序特征,我们将其分为两类,长期和短期的时序特征。长期时序特征呈现了不同时间戳的空间外观特征之间的关系,这也是以前工作中的一个热点话题。现有的方法如:OTAM、CMN等在类原型构建过程中主要通过手工设计的时序对齐算法来获取长期时间特征,目的是为了获得更好的全局特征进行比较。另一方面,短期时序特征表示相邻帧的运动特征,即侧重于局部时序关系建模。短期时序建模同样相当重要,但是我们观察到在小样本动作识别领域短期时序模型的相关研究还未被发掘。

技术实现思路

[0005]针对上述问题,本专利技术提出了基于空间和长短期时序特征建模的小样本动作识别方法,实现了在仅有较少标记训练数据的实际场景中在推理阶段仍可以准确快速识别动
作。
[0006]为了实现上述目的,本专利技术提供基于空间和长短期时序特征建模的小样本动作识别方法,包括以下步骤:
[0007]S1、构建空间特征融合架构搜索单元;通过利用三种不同的特征融合操作并自动搜索不同操作的相对权重,使特征提取器的不同层的输出特征相互融合,增强了单帧特征的空间表达;
[0008]S2、构建长短期时序特征增强单元;通过使用长短期时间注意力机制,增强了视频特征的全局时间表达能力和局部时间表达能力;
[0009]S3、利用交叉注意力机制构建类原型建立及匹配单元;使用时空增强特征基于交叉注意力机制建立查询视频和支持集视频的类原型,并将查询视频和支持集视频的类原型进行匹配;
[0010]S4、对网络模型进行训练,利用服务器对网络模型在多个相似小样本任务中进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于空间和长短期时序特征建模的小样本动作识别方法;
[0011]S5、利用所述基于空间和长短期时序特征建模的小样本动作识别方法在新的小样本任务中识别目标动作。
[0012]优选的,所述步骤S1具体包括以下步骤:
[0013]S11、为了便于浅层和深层的特征融合,实现特征提取器各层的空间特征对齐;具体为:将特征提取器中输出的L层的特征体为:将特征提取器中输出的L层的特征进行空间对齐并存入特征库中,其中N,T,C,H,W分别为批次大小、时间、空间、高度和宽度;将每个层的特征的空间和通道尺寸与最后一个层的特征对齐,具体为:
[0014]F
i
=Module
align
(F
i
)
[0015]其中Module
align
是一个3
×
3卷积层;
[0016]S12、将特征提取器输出的不同层的特征与自动搜索融合模块进行融合,使得其能够在不同的场景中找到浅层和深层空间特征的最佳组合,具体为:
[0017][0018]其中是通过所有可选的融合操作后,层i和j的特征的加权求和结果;设置融合方案的集合表示为提供了三种无参数融合方案Sum、GP
low
和GP
high
;为每个操作分配一个权重α并进行softmax操作,使搜索空间连续;将搜索任务简化为学习权重α,而可以计算为:
[0019][0020]S13、实现单帧的特征的空间表达能力增强;具体为:将空间特征融合架构搜索单元中更新的最后一层特征取出为对融合的特征F
SP
和特征提取器输出的最终特征F
L
进行加权求和,可学习参数为γ∈[0,1],具体为:
[0021]F
SP
=(1

γ)F
SP
+γF
L

[0022]优选的,所述步骤S12中的所述三种无参数融合方案Sum、GP
low
和GP
high
具体为:
[0023]Sum(F
i
,F
j
)=F
i
+F
j
[0024]GP
low
(F
i
,F
j
)=Max_pool(F
i
)+Sigmoid(Max_pool(F
i
))
×
F
j
[0025]GP
high
(F
i
,F
j
)=Max_pool(F
j
)+Sigmoid(Max_pool(F...

【技术保护点】

【技术特征摘要】
1.基于空间和长短期时序特征建模的小样本动作识别方法,其特征在于,包括以下步骤:S1、构建空间特征融合架构搜索单元;S2、构建长短期时序特征增强单元;S3、利用交叉注意力机制构建类原型建立及匹配单元;S4、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于空间和长短期时序特征建模的小样本动作识别方法;S5、利用所述基于空间和长短期时序特征建模的小样本动作识别方法在新的小样本任务中识别目标动作。2.根据权利要求1所述的基于空间和长短期时序特征建模的小样本动作识别方法,其特征在于,所述步骤S1具体包括以下步骤:S11、将特征提取器中输出的L层的特征进行空间对齐并存入特征库中,其中N,T,C,H,W分别为批次大小、时间、空间、高度和宽度;将每个层的特征的空间和通道尺寸与最后一个层的特征对齐,具体为:F
i
=Module
align
(F
i
)其中Module
align
是一个3
×
3卷积层;S12、将特征提取器输出的不同层的特征与自动搜索融合模块进行融合,具体为:其中是通过所有可选的融合操作后,层i和j的特征的加权求和结果;设置融合方案的集合表示为提供了三种无参数融合方案Sum、GP
low
和GP
high
;为每个操作分配一个权重α并进行softmax操作,使搜索空间连续;将搜索任务简化为学习权重α,而可以计算为:S13、将空间特征融合架构搜索单元中更新的最后一层特征取出为对融合的特征F
SP
和特征提取器输出的最终特征F
L
进行加权求和,可学习参数为γ∈[0,1],具体为:F
SP
=(1

γ)F
SP
+γF
L
。3.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法,其特征在于,所述步骤S12中的所述三种无参数融合方案Sum、GP
low
和GP
high
具体为:Sum(F
i
,F
j
)=F
i
+F
j
GP
low
(F
i
,F
j
)=Max_pool(F
i
)+Sigmoid(Max_pool(F
i
))
×
F
j
GP
high
(F
i
,F
j
)=Max_pool(F
j
)+Sigmoid(Max_pool(F
j
))
×
F
i
其中F
i
,F
j
为特征库中第i层和第j层特征,且i<j≤L,Max_pool为Max_Pooling最大池化操作,Sigmoid为sigmoid函数。
4.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法,其特征在于,所述步骤S2具体包括以下步骤:S21、构建长期时序建模模块;根据提取的空间外观特征对全局时间关系进行建模;将空间增强后的视频特征图表示为将重塑为一个序列将F
sq
在时间维度上做自注意力相关,具体为:F
sq
=F
sq
+Module
att
(F
sq
)其中Module
att
表示为L层的多头注意力机制;然后通过一个残差前馈网络对获得的特征进行指向性细化,以获得长期的时序特征具体为:其中LN表示层级归一化,表示多层感知机;将F
LT
被重塑为原始输入形状(即[N,T,C,H,W]);S22、构建短期时序建模模块;在特征层面上对相邻帧之间的运动信息进行编码;给定一个空间增强后的视频特征图使用可学习的权重W1,W2,获得query

key

value三要素具体为:F
q
=F
SP
W1,F
k
=F
SP
W2,F
...

【专利技术属性】
技术研发人员:刘勇幸家正王蒙蒙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1