一种基于高低分辨率双模态蒸馏的视频人体行为识别方法技术

技术编号：35449022 阅读：50 留言：0更新日期：2022-11-03 12:03

本发明专利技术公开了一种基于高低分辨率双模态蒸馏的视频人体行为识别方法。该方法包括以下步骤：构建深度学习模型框架，其中第一分支依次包含超分辨率模块和超分模态模型，第二分支包含低分模态模型，超分辨率模块用于扩展输入视频的分辨率，获得超分辨率视频，超分模态模型用于识别超分辨率视频中的人体行为类别，低分模态模型用于识别输入视频中的人体行为类别；以设定的损失函数为监督信号，训练所述深度学习模型框架，在训练过程中，将超分模态模型输出的人体行为类别作为超分辨率知识，指导所述低分模态模型的训练；利用经训练的低分模态模型对目标视频进行人体行为识别。本发明专利技术能够有效提高真实场景下低分辨率视频的人体行为识别准确率。为识别准确率。为识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于高低分辨率双模态蒸馏的视频人体行为识别方法

[0001]本专利技术涉及图像处理
，更具体地，涉及一种基于高低分辨率双模态蒸馏的视频人体行为识别方法。

技术介绍

[0002]真实低分辨视频具有动作细节不清晰，单帧信息量少，相邻帧冗余信息多和噪声含量大的特点，传统的行为识别网络很难准确识别低分辨视频中的人体行为信息。
[0003]在现有技术中，主流视频行为识别模型通常针对的是分辨率较高的模型，在低分辨场景下这些模型的识别效果较差。目前用于研究的低分辨率数据集大多是高分辨率数据集人为下采样得到，并不能代表真实场景下的低分辨率视频。TinyVIRAT数据集填补了真实场景下低分辨率数据集的空白。与以往的人工降采样数据集不同，它是真实场景下的低分辨数据，并没有相对应的高分辨视频数据。这个数据集的识别难点是：需要被识别的行为主体被拍摄的距离很远，因此分辨率低，并且有镜头噪声的干扰(如Tirupattur P,Rana A J,Sangam T,et al.TinyAction Challenge:Recognizing Real
‑
world Low
‑
resolution Activities in Videos[J].arXiv preprint arXiv:2107.11494，2021)。
[0004]综上，传统的行为识别模型是根据较高分辨率的视频数据而设计，没有针对低分辨率这一特点进行相应的设计。而对于TinyVIRAT这种真实场景下的低分辨率数据来说，传...

【技术保护点】

【技术特征摘要】
1.一种基于高低分辨率双模态蒸馏的视频人体行为识别方法，包括以下步骤：构建具有双分支的深度学习模型框架，其中第一分支依次包含超分辨率模块和超分模态模型，第二分支包含低分模态模型，所述超分辨率模块用于扩展输入视频的分辨率，获得超分辨率视频，所述超分模态模型用于识别所述超分辨率视频中的人体行为类别，所述低分模态模型用于识别所述输入视频中的人体行为类别；以设定的损失函数为监督信号，训练所述深度学习模型框架，在训练过程中，将所述超分模态模型输出的人体行为类别作为超分辨率知识，指导所述低分模态模型的训练；利用经训练的低分模态模型对目标视频进行人体行为识别。2.根据权利要求1所述的方法，其特征在于，将所述损失函数设置为：其中，表示蒸馏损失和分类损失的加权和，表示低分模态模型的输出类别与真实标签之间的分类损失，表示低分模态模型的输出类别和超分模态模型的输出类别之间的蒸馏损失，α是设定的权重系数。3.根据权利要求2所述的方法，其特征在于，将低分模态模型输出类别和超分模态模型输出类别之间的分类损失设置为：其中，k表示超分模态模型的输出，代表超分模态模型学习到的超分辨率知识向量，p表示低分模态模型的输出类别向量，C表示训练过程所需要区分的类别数，c表示类别索引。4.根据权利要求1所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：陈伯瑜，乔宇，王亚立，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人