一种基于高低分辨率双模态蒸馏的视频人体行为识别方法技术

技术编号:35449022 阅读:50 留言:0更新日期:2022-11-03 12:03
本发明专利技术公开了一种基于高低分辨率双模态蒸馏的视频人体行为识别方法。该方法包括以下步骤:构建深度学习模型框架,其中第一分支依次包含超分辨率模块和超分模态模型,第二分支包含低分模态模型,超分辨率模块用于扩展输入视频的分辨率,获得超分辨率视频,超分模态模型用于识别超分辨率视频中的人体行为类别,低分模态模型用于识别输入视频中的人体行为类别;以设定的损失函数为监督信号,训练所述深度学习模型框架,在训练过程中,将超分模态模型输出的人体行为类别作为超分辨率知识,指导所述低分模态模型的训练;利用经训练的低分模态模型对目标视频进行人体行为识别。本发明专利技术能够有效提高真实场景下低分辨率视频的人体行为识别准确率。为识别准确率。为识别准确率。

【技术实现步骤摘要】
一种基于高低分辨率双模态蒸馏的视频人体行为识别方法


[0001]本专利技术涉及图像处理
,更具体地,涉及一种基于高低分辨率双模态蒸馏的视频人体行为识别方法。

技术介绍

[0002]真实低分辨视频具有动作细节不清晰,单帧信息量少,相邻帧冗余信息多和噪声含量大的特点,传统的行为识别网络很难准确识别低分辨视频中的人体行为信息。
[0003]在现有技术中,主流视频行为识别模型通常针对的是分辨率较高的模型,在低分辨场景下这些模型的识别效果较差。目前用于研究的低分辨率数据集大多是高分辨率数据集人为下采样得到,并不能代表真实场景下的低分辨率视频。TinyVIRAT数据集填补了真实场景下低分辨率数据集的空白。与以往的人工降采样数据集不同,它是真实场景下的低分辨数据,并没有相对应的高分辨视频数据。这个数据集的识别难点是:需要被识别的行为主体被拍摄的距离很远,因此分辨率低,并且有镜头噪声的干扰(如Tirupattur P,Rana A J,Sangam T,et al.TinyAction Challenge:Recognizing Real

world Low

resolution Activities in Videos[J].arXiv preprint arXiv:2107.11494,2021)。
[0004]综上,传统的行为识别模型是根据较高分辨率的视频数据而设计,没有针对低分辨率这一特点进行相应的设计。而对于TinyVIRAT这种真实场景下的低分辨率数据来说,传统行为识别模型的识别准确率很低。

技术实现思路

[0005]本专利技术的目的是克服上述现有技术的缺陷,提供一种基于高低分辨率双模态蒸馏的视频人体行为识别方法。该方法包括以下步骤:
[0006]构建具有双分支的深度学习模型框架,其中第一分支依次包含超分辨率模块和超分模态模型,第二分支包含低分模态模型,所述超分辨率模块用于降低输入视频的噪声,增加动作细节,获得超分辨率视频数据,所述超分模态模型用于对所述超分辨率视频数据识别类别,所述低分模态模型用于对所述输入视频识别类别;
[0007]以设定的损失函数为监督信号训练所述深度学习模型框架,在训练过程中,将所述超分模态模型的输出向量作为额外的超分辨率知识,指导所述低分模态模型的训练;
[0008]利用经训练的低分模态模型对目标视频进行人体行为识别。
[0009]与现有技术相比,本专利技术的优点在于,引入了高低分辨率双模态蒸馏方法,将高分辨率信息引入低分辨率视频行为识别模型的训练中,提高了真实场景下的低分辨率视频行为识别的准确率。
[0010]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0011]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0012]图1是根据本专利技术一个实施例的基于高低分辨率双模态蒸馏的视频人体行为识别方法的流程图;
[0013]图2是根据本专利技术一个实施例的基于高低分辨率双模态蒸馏的模型框架示意图;
[0014]图3是根据本专利技术一个实施例的视频数据超分前后对比效果图。
具体实施方式
[0015]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0016]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0017]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0018]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0019]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0020]本专利技术提出基于高低分辨率双模态蒸馏的视频人体行为识别方法,采用模型蒸馏机制,将超分模态模型(或称为超分辨率模型)作为教师模型,将它的相关知识迁移到学生模型(即低分模态模型,或称为低分辨率模型),使得学生模型在训练的同时也能灵活的融合教师模型的相关知识。超分模态模型会注意到低分模态模型忽略的人体动作细节,所以可以作为低分模态模型的细节补充,通过模型蒸馏的方式指导低分模态模型的训练。将高分模态模型的相关知识融合到低分模态模型中,能够提升模型识别的精确率。
[0021]参见图1所示,所提供的基于高低分辨率双模态蒸馏的视频人体行为识别方法包括以下步骤:
[0022]步骤S110,构建具有高分辨率分支和低分辨率分支的深度学习模型框架,其中高分辨率分支设有超分模态模型,低分辨率分支设有低分模态模型。
[0023]参见图2所示,所提出的基于高低分辨率双模态蒸馏的深度学习模型框架包括两个分支,分别称为高分辨分支和低分辨率分支,高分辨率分支设有超分辨率模块(或称超分辨率模型)和超分模态模型,输出为超分模态模型的输出;低分辨率分支设有低分模态模型。
[0024]超分辨率模块用于扩展输入视频的分辨率,降低数据噪声,增加视频细节,并获得超分辨率视频数据,所述超分辨率模块可采用多种类型的结构,只要能够实现效果较好的超分辨率视频即可。
[0025]超分模态模型用于对超分辨率视频数据识别类别,低分模态模型用于对所述输入视频识别类别。超分模态模型和低分模态模型可以选用多种类型的深度学习模型,经过实
验表明,Ir

CSN和Uniformer两大类模型效果较好。
[0026]步骤S120,以设定损失函数为监督信号训练深度学习模型框架,训练过程中,将超分模态模型的输出作为知识,蒸馏到低分辨率分支。
[0027]在训练过程中,采用高低分双模态模型蒸馏机制,最重要的是超分辨率分支,低分辨率分支以及两个分支之间的交互关系。
[0028]具体地,超分辨率分支主要包含以下步骤:
[0029]步骤S11,将低分辨率的输入视频输入超分辨率模块(如RealBasicVSR)中,得到经过超分辨率的视频数据。
[0030]例如,分辨率从70x70左右被扩展到了224x224。
[0031]在一个实施例中,超分辨率模块可预先训练,在模型蒸馏训练中,冻结超分辨率模块的参数。引入超分辨率模块能够降低数据噪声,而冻结超分辨率模块参数并进行离线调用能够减少知识蒸馏时的显存消耗,节省计算资源,加快训练速度。
[0032]步骤S12,利用这些超分辨率数据训练超分模态模型。
[0033]例如,选用的模型骨干网络是Ir

CSN ResNet152网络。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高低分辨率双模态蒸馏的视频人体行为识别方法,包括以下步骤:构建具有双分支的深度学习模型框架,其中第一分支依次包含超分辨率模块和超分模态模型,第二分支包含低分模态模型,所述超分辨率模块用于扩展输入视频的分辨率,获得超分辨率视频,所述超分模态模型用于识别所述超分辨率视频中的人体行为类别,所述低分模态模型用于识别所述输入视频中的人体行为类别;以设定的损失函数为监督信号,训练所述深度学习模型框架,在训练过程中,将所述超分模态模型输出的人体行为类别作为超分辨率知识,指导所述低分模态模型的训练;利用经训练的低分模态模型对目标视频进行人体行为识别。2.根据权利要求1所述的方法,其特征在于,将所述损失函数设置为:其中,表示蒸馏损失和分类损失的加权和,表示低分模态模型的输出类别与真实标签之间的分类损失,表示低分模态模型的输出类别和超分模态模型的输出类别之间的蒸馏损失,α是设定的权重系数。3.根据权利要求2所述的方法,其特征在于,将低分模态模型输出类别和超分模态模型输出类别之间的分类损失设置为:其中,k表示超分模态模型的输出,代表超分模态模型学习到的超分辨率知识向量,p表示低分模态模型的输出类别向量,C表示训练过程所需要区分的类别数,c表示类别索引。4.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:陈伯瑜乔宇王亚立
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1