一种小样本行为识别方法、系统及设备技术方案

技术编号:37995223 阅读:4 留言:0更新日期:2023-06-30 10:09
本发明专利技术实施例提供了一种小样本行为识别方法、系统及设备,该方法包括:构建小样本行为识别模型;将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集;基于小样本行为识别模型中的特征嵌入模块处理支持集和查询集,分别得到支持特征集合及查询特征集合;至少基于混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理;基于原型注意力模块将支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间,同时将增强处理后查询特征集合中的查询特征基于目标映射函数映射至不同的第二向量空间,比对各个第一向量空间与第二向量空间的距离,并确定向量空间距离最近的查询特征与支持特征所属类别为同一类别。所属类别为同一类别。所属类别为同一类别。

【技术实现步骤摘要】
一种小样本行为识别方法、系统及设备


[0001]本专利技术实施例涉及小样本行为识别
,特别涉及一种小样本行为识别方法、系统及设备。

技术介绍

[0002]动作识别是视频理解领域中的一个重要的分支任务,它旨在于对一段包含了人物动作的视频进行分类。与图像领域的任务不同,在视频领域的行为识别任务中,人体的动作是变化的。近年来,随着视频领域大规模数据集的不断完善和深度学习技术的发展,针对行为识别的研究也取得了不错的进展。传统的基于深度学习的行为识别任务需要有大量带有标签的视频数据来作为任务的底层数据支撑,人力成本高。当前的传统深度学习算法只擅长于掌握某个特定任务,即使在数据集相似的情况下,训练好的模型也难以迁移到其他数据集任务上。在现实工业界中,国防军事、医学诊疗等部分领域难以获取到大量的有标签视频数据。直接使用深度学习方法在小规模数据集上进行训练,往往会出现模型过拟合的问题。有研究者尝试采用对视频图片数据进行旋转、裁剪等简单的数据增强方法来扩充数据集,但效果欠佳。深度学习使用的神经网络设计模拟了人类大脑神经元的运作方式,然而人类学习分类新事物并不需要通过成千上万的数据来进行训练,人类有能力通过只看几个甚至一个图像来准确识别一个新的物体类别。在降低对大规模数据集的依赖和类人脑的需求之下,针对小样本数据的行为识别研究应运而生。
[0003]小样本行为识别建立在小样本学习的基础上。小样本学习被设置为一个N

way,K

shot的学习任务。其中way代表了训练数据采样的类别,shot代表了每个类里的样本总数。当设置采样类别N=3,样本总数K=3时,训练的采样过程如图1所示。首先,针对数据集中的所有类别,随机抽取其中N(图中N=3)个类别作为训练类别。图中在抽取了类别2、类别3、类别5。然后,在已经选择的类别的总样本中,随机选择K(图中K=3)个样本,在图中指的是绿色方块,构成训练用到的支持集。支持集中总共的样本量是K*N。最后,在选择训练类别的剩余未选样本中,选择X(图中X=3)个样本,在图中用橙色方块表示,构成查询集。查询集中拥有X*N个样本。支持集中所有的样本都带了标签,查询集中的样本没有标签。小样本学习的核心目标就是判断查询集中的样本和支持集中样本的相似性,将查询集中的样本精准分类。每一次的采样过程成为一个episode。
[0004]如图1所示,小样本行为识别的任务目标是将一个没有标签的查询视频分类到支持集中的一个动作类别中,支持集中每个动作类别的样本有限。小样本行为识别是一个具有挑战性的计算机视觉问题,视频由多张视频帧组成,具有时序性,识别视频中的人体行为需要联合上下文视频帧信息来进行理解。行为识别作为视频理解的最重要的分支之一,在现实场景中有重要的应用价值。而传统的基于深度学习的行为识别任务需要大量的数据依赖,模型缺乏数据迁移能力,难以拓展应用场景。研究小样本行为识别的方法能够更好地应对这种实际情况,提高识别精度。因此,基于小样本的行为识别方法研究意义重大,具有重要的理论意义和实际应用价值。
[0005]目前针对小样本行为识别任务的方法一般可以分成两类,一类是基于生成的方法,一类是基于度量学习的方法。基于生成的方法的本质目的是通过扩充数据集样本量来提升识别精度。基于度量学习的方法使用了元学习的思想,通过处理获得一个特征向量空间,通过度量与支持向量的距离得到分类结果。目前主流的方法大都采用了度量学习的思想。例如,STRM就在TRX的基础上增加了时空丰富模块和时间关系建模模块,在对特征进行增强处理后,通过一个分类器对中间层的特征进行度量分类来进一步增强特征可分辨性。STRM方法达到了当前的最优性能。但是,包括STRM在内的大部分小样本学习方法都采用了2D网络来作为网络基本骨架。2D网络在提取特征时是无法处理视频序列的时序信息的,所以这些方法都要割裂地对特征的时序信息进行处理。

技术实现思路

[0006]本专利技术实施例提供了一种小样本行为识别方法,包括:
[0007]构建小样本行为识别模型,所述小样本行为识别模型包括用于同时提取、处理视频的空间特征及时序特征的特征嵌入模块、用于捕捉处理所述视频的空间上下文特征的混合注意力模块、用于实现所述视频的特征分类的原型注意力模块;
[0008]将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集,所述支持集与查询集均由具有时序的视频帧形成;
[0009]向所述小样本行为识别模型中输入所述支持集及查询集;
[0010]基于所述特征嵌入模块处理所述支持集和查询集,分别得到支持特征集合及查询特征集合;
[0011]至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理;
[0012]基于所述原型注意力模块将增强处理后的所述支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间,同时将增强处理后所述查询特征集合中的查询特征基于所述目标映射函数映射至不同的第二向量空间,比对各个所述第一向量空间与第二向量空间的距离,并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别为同一类别。
[0013]作为一可选实施例,所述特征嵌入模块由一个2D卷积网络和一个1D卷积网络组成,所述2D卷积网络用于处理视频的空间数据,所述1D卷积网络用于处理视频的时序特征,以得到支持集、查询集中多个视频帧的时序关系。
[0014]作为一可选实施例,所述混合注意力模块引入有串联式的极化注意力机制,基于所述极化注意力机制会在所述小样本行为识别模型的输入通道、支持特征或查询特征的宽、高三个维度进行数据处理。
[0015]作为一可选实施例,所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理,包括:
[0016]基于所述极化注意力机制,将所述支持特征集合及查询特征集合中的每个特征均分成两个分支,并分别进入1x1的第一卷积层和第二卷积层转换形成第一数据及第二数据,其中所述第一数据的输入通道压缩成1,所述第二数据的输入通道维度为C/2,C为所述混合注意力模块的输入通道数;
[0017]基于目标函数对所述第一数据进行信息增强处理;
[0018]将所述第二数据与增强处理后的所述第一数据进行矩阵相乘,并在相乘结果后接上1x1卷积及所述混合注意力模块中的特征归一化层,以将所述第二数据的输入通道维度升为C;
[0019]对所述第一数据与第二数据进行动态映射,以控制所述混合注意力模块中的权重均位于0

1之间;
[0020]将所述权重与所述支持特征集合及查询特征集合中的每个特征进行点乘,以实现每个所述特征在对应的输入通道上的注意力增强。
[0021]作为一可选实施例,所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理,包括:
[0022]基于所述极化注意力机制,将所述支持特征集合及查询特征集合中的每个特征均分成两个分支,并分别进入1x1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小样本行为识别方法,其特征在于,包括:构建小样本行为识别模型,所述小样本行为识别模型包括用于同时提取、处理视频的空间特征及时序特征的特征嵌入模块、用于捕捉处理所述视频的空间上下文特征的混合注意力模块、用于实现所述视频的特征分类的原型注意力模块;将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集,所述支持集与查询集均由具有时序的视频帧形成;向所述小样本行为识别模型中输入所述支持集及查询集;基于所述特征嵌入模块处理所述支持集和查询集,分别得到支持特征集合及查询特征集合;至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理;基于所述原型注意力模块将增强处理后的所述支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间,同时将增强处理后所述查询特征集合中的查询特征基于所述目标映射函数映射至不同的第二向量空间,比对各个所述第一向量空间与第二向量空间的距离,并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别为同一类别。2.根据权利要求1所述的小样本行为识别方法,其特征在于,所述特征嵌入模块由一个2D卷积网络和一个1D卷积网络组成,所述2D卷积网络用于处理视频的空间数据,所述1D卷积网络用于处理视频的时序特征,以得到支持集、查询集中多个视频帧的时序关系。3.根据权利要求1所述的小样本行为识别方法,其特征在于,所述混合注意力模块引入有串联式的极化注意力机制,基于所述极化注意力机制会在所述小样本行为识别模型的输入通道、支持特征或查询特征的宽、高三个维度进行数据处理。4.根据权利要求3所述的小样本行为识别方法,其特征在于,所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理,包括:基于所述极化注意力机制,将所述支持特征集合及查询特征集合中的每个特征均分成两个分支,并分别进入1x1的第一卷积层和第二卷积层转换形成第一数据及第二数据,其中所述第一数据的输入通道压缩成1,所述第二数据的输入通道维度为C/2,C为所述混合注意力模块的输入通道数;基于目标函数对所述第一数据进行信息增强处理;将所述第二数据与增强处理后的所述第一数据进行矩阵相乘,并在相乘结果后接上1x1卷积及所述混合注意力模块中的特征归一化层,以将所述第二数据的输入通道维度升为C;对所述第一数据与第二数据进行动态映射,以控制所述混合注意力模块中的权重均位于0

1之间;将所述权重与所述支持特征集合及查询特征集合中的每个特征进行点乘,以实现每个所述特征在对应的输入通道上的注意力增强。5.根据权利要求3所述的小样本行为识别方法,其特征在于,所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理,包括:基于所述极化注意力机制,将所述支持特征集合及查询特征集合中的每个特征均分成
两个分支,并分别进入1x1的第三卷积层和第四卷积层转换形成第三数据及第四数据;对所述第三数据进行空间维度压缩,使其宽、高转换形成1*1的尺寸;保持所述第四数据的空间维度恒定;对压缩后的所述第三数据进行信息增强处理;对所述第四数据与信息增强后的所述第三数...

【专利技术属性】
技术研发人员:魏迎梅阮瓒茜申天睿郭延明谢毓湘蒋杰
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1