基于空间和长短期时序特征建模的小样本动作识别方法技术

技术编号：36077251 阅读：14 留言：0更新日期：2022-12-24 10:49

本发明专利技术涉及计算机视觉领域，公开了基于空间和长短期时序特征建模的小样本动作识别方法，构建了一种空间特征融合架构搜索单元，以自动搜索浅层和深层空间特征的最佳融合方式，来改善和增强空间表征；构建了一种长短期时序特征建模单元，以编码互补的全局和局部时序表征，来增强时序特征的表达能力。本发明专利技术利用交叉注意力机制完成类原型建立及匹配，将整合后的丰富的时空增强特征输入进帧级的类原型建立及匹配单元中，使系统能够在少量标记样本任务中准确、快速地识别目标动作。快速地识别目标动作。快速地识别目标动作。

全部详细技术资料下载

【技术实现步骤摘要】
基于空间和长短期时序特征建模的小样本动作识别方法

[0001]本专利技术涉及计算机视觉领域，具体涉及基于空间和长短期时序特征建模的小样本动作识别方法。

技术介绍

[0002]随着深度学习的发展，在动作识别领域出现了大量优秀的工作。大多数研究使用大量的标记数据来执行视频理解或分类任务来学习视频表征。由于大量耗时耗力的数据标注，这种方法在工业应用中并不令人满意。相反，小样本学习的核心假设是只使用来自众多类似任务的少数标记的训练样本作为大量标记的训练样本的替代。因此，人们对少量学习方法的关注与日俱增。小样本动作识别的任务旨在将未标记的查询视频归入支持集(通常是五个类别)中的一个动作类别，而每个动作类别的训练样本有限。
[0003]现有的主流的小样本图形分类方法主要可以分为adaptation
‑
based和metric
‑
based两大类方法。Adaptation
‑
based的方法旨在找到一个网络初始化，可以使用少量数据对未知任务进行微调，其被称为gradient by gradient。在MAML和Reptile的案例中，可以清楚地看到adaptation
‑
based的方法的应用。Metric
‑
based的方法旨在找到一个固定的特征表示，目标任务可以被嵌入其中并进行分类。这种方法的有效性已经在Prototypical Networks和Matching Networks中得到体现。此外，CrossTransformer

【技术保护点】

【技术特征摘要】
1.基于空间和长短期时序特征建模的小样本动作识别方法，其特征在于，包括以下步骤：S1、构建空间特征融合架构搜索单元；S2、构建长短期时序特征增强单元；S3、利用交叉注意力机制构建类原型建立及匹配单元；S4、对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于空间和长短期时序特征建模的小样本动作识别方法；S5、利用所述基于空间和长短期时序特征建模的小样本动作识别方法在新的小样本任务中识别目标动作。2.根据权利要求1所述的基于空间和长短期时序特征建模的小样本动作识别方法，其特征在于，所述步骤S1具体包括以下步骤：S11、将特征提取器中输出的L层的特征进行空间对齐并存入特征库中，其中N,T,C,H,W分别为批次大小、时间、空间、高度和宽度；将每个层的特征的空间和通道尺寸与最后一个层的特征对齐，具体为：F
i
＝Module
align
(F
i
)其中Module
align
是一个3
×
3卷积层；S12、将特征提取器输出的不同层的特征与自动搜索融合模块进行融合，具体为：其中是通过所有可选的融合操作后，层i和j的特征的加权求和结果；设置融合方案的集合表示为提供了三种无参数融合方案Sum、GP
low
和GP
high
；为每个操作分配一个权重α并进行softmax操作,使搜索空间连续；将搜索任务简化为学习权重α，而可以计算为：S13、将空间特征融合架构搜索单元中更新的最后一层特征取出为对融合的特征F
SP
和特征提取器输出的最终特征F
L
进行加权求和，可学习参数为γ∈[0,1]，具体为：F
SP
＝(1
‑
γ)F
SP
+γF
L
。3.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法，其特征在于，所述步骤S12中的所述三种无参数融合方案Sum、GP
low
和GP
high
具体为：Sum(F
i
,F
j
)＝F
i
+F
j
GP
low
(F
i
,F
j
)＝Max_pool(F
i
)+Sigmoid(Max_pool(F
i
))
×
F
j
GP
high
(F
i
,F
j
)＝Max_pool(F
j
)+Sigmoid(Max_pool(F
j
))
×
F
i
其中F
i
,F
j
为特征库中第i层和第j层特征，且i＜j≤L，Max_pool为Max_Pooling最大池化操作，Sigmoid为sigmoid函数。
4.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法，其特征在于，所述步骤S2具体包括以下步骤：S21、构建长期时序建模模块；根据提取的空间外观特征对全局时间关系进行建模；将空间增强后的视频特征图表示为将重塑为一个序列将F
sq
在时间维度上做自注意力相关，具体为：F
sq
＝F
sq
+Module
att
(F
sq
)其中Module
att
表示为L层的多头注意力机制；然后通过一个残差前馈网络对获得的特征进行指向性细化，以获得长期的时序特征具体为：其中LN表示层级归一化，表示多层感知机；将F
LT
被重塑为原始输入形状(即[N,T,C,H,W])；S22、构建短期时序建模模块；在特征层面上对相邻帧之间的运动信息进行编码；给定一个空间增强后的视频特征图使用可学习的权重W1,W2,获得query
‑
key
‑
value三要素具体为：F
q
＝F
SP
W1,F
k
＝F
SP
W2,F
...

【专利技术属性】
技术研发人员：刘勇，幸家正，王蒙蒙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人