一种基于频域增强的压缩视频人体行为识别方法技术

技术编号:39256001 阅读:15 留言:0更新日期:2023-10-30 12:07
本发明专利技术提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间

【技术实现步骤摘要】
一种基于频域增强的压缩视频人体行为识别方法


[0001]本专利技术涉及视频分析
,尤其涉及一种基于频域增强的压缩视频人体行为识别方法。

技术介绍

[0002]人体行为识别是智能视频分析领域的研究热点,是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础,近年来得到了学术界及工程界的广泛重视,人体行为识别在视频检索、自动驾驶和智能监控等方面有广泛的应用前景。而基于压缩域数据和频域数据的人体行为识别方法,由于其高效性,以及压缩域数据、频域数据与RGB数据含有的不同语义和运动线索,近年也受到了大量关注。
[0003]而对于实际应用,需要考虑实时性和准确性的问题,现有的方法仍存在许多问题和挑战。在基于RGB数据的人体行为识别方法中,基于卷积神经网络(Convolutional Neural Network,CNN)的方法取得了较好的识别效果,但仍存在计算量大、缺乏对全局信息的建模等问题;而视觉Transformer的方法能够捕获长距离的特征依赖关系,提升了人体行为识别任务的识别效果,但仍存在计算量大、需要大量训练数据和缺乏对局部信息的建模等问题。另一方面,基于压缩域数据的人体行为识别方法近年来也受到大量关注。基于压缩域数据的人体行为识别利用视频的压缩域数据而不是RGB数据进行人体行为识别。压缩域数据只保留少数完整帧,即I帧(I frame,I),其他帧基于偏移进行重建,称为运动矢量(Motion Vector,MV)和残差(Residual,R)。基于压缩域数据的人体行为识别方法达到了较高的识别速度,但解码过程仍需花费较长时间,且仍存在空间信息冗余的问题。此外,基于频域数据进行视觉任务的处理的方法也受到了广泛关注,其将频域数据,即离散余弦变换(Discrete Cosine Transform,DCT)系数作为原始图像或压缩视频格式的替代,提供了数据的频域形式,但大部分方法需要完整解压图像或视频,然后再通过DCT变换计算获得其DCT系数,因此速度并没有显著提升。并且,目前基于频域数据的方法忽略了频域不同通道的显著性不同的特点,造成低频包含的显著纹理和边缘信息的丢失,导致目前基于频域数据的方法的识别准确率相较于基于RGB视频帧的方法仍有一定差距。
[0004]目前,现有技术的视频人体行为识别方法存在信息冗余问题和识别效率较低的问题。由于视频的相邻帧之间的相似性较高,视频中含有大量的冗余信息。而视频的压缩域数据只保留少数完整帧(I帧),其他帧(P帧,包括残差R和运动矢量MV)基于偏移进行重建,能够一定程度降低视频的信息冗余。另一方面,传统的基于RGB数据的人体行为识别方法需要对视频进行完全解码以获得RGB视频帧,而基于压缩域的方法也需要对I帧和残差R进行完全解码获得RGB数据,解码过程所需的预处理时间较长,降低了人体行为识别的效率;且需要对解码得到的RGB帧进行空间下采样,造成了空间显著信息的丢失。
[0005]现有技术的基于频域的人体行为识别方法存在低频显著时空纹理和边缘信息丢失的问题。与RGB数据的通道不同,频域数据的通道显著性分布具有一定的特点,即主要时空信息集中在DC和低频通道,而高频通道包含一部分冗余信息和噪声等。现有的频域学习
方法直接采用卷积操作对频域数据的所有通道进行相同处理,忽略了不同频域通道所包含信息量不同的特点,导致了低频的显著时空纹理和边缘线索的丢失,造成频域中行为相关的物体和背景信息不能被有效获取,使得基于频域数据的人体行为识别方法的准确率与基于RGB数据及压缩域数据的方法相比有一定的差距。
[0006]现有技术中的第一种压缩视频人体行为识别(CoViAR)方法包括:利用压缩视频的I帧、运动矢量MV、残差R进行人体行为识别。具体处理步骤包括:
[0007]1)视频解码。通过对压缩视频进行解码,得到压缩域I帧和P帧(残差R、运动矢量
[0008]MV)数据。
[0009]2)数据处理。为了打破连续P帧之间的依赖性,使得每个P帧只依赖于参考I帧,而不依赖于其他P帧,累计运动矢量和残差到参考I帧。
[0010]3)输入网络。将I帧、残差R、运动矢量MV分别输入到ResNet

152、ResNet

18、
[0011]ResNet

18网络中,输入帧数均为3帧,最后对输出的预测分数取平均,得到最终的预测结果。
[0012]上述现有技术中的第一种压缩视频人体行为识别(CoViAR)方法的缺点包括:
[0013]1)采用ResNet

152作为I帧的骨干网络,计算复杂度较高,导致识别速度下降。
[0014]2)仍然需要将压缩域的I帧和残差R解码为RGB图片数据,解码过程仍需要较多时间,降低了人体行为识别的效率。
[0015]3)存在空间下采样过程中帧内显著空间信息丢失的问题。
[0016]现有技术中的第二种从频域进行快速人体行为识别(Fast

CoViAR)的方法包括:利用压缩视频的频域数据进行人体行为识别。具体处理步骤包括:
[0017]1)通过对压缩视频进行解码,得到I帧和运动矢量MV数据,不使用残差R。
[0018]2)通过熵解码获得I帧频域DCT数据,并选择16或32个主要通道作为输入。
[0019]3)将I帧和运动矢量MV分别输入到适应于DCT输入的ResNet50、ResNet18中,输入帧数均为3帧,最后对输出的预测分数取平均,得到最终的预测结果。
[0020]上述现有技术中的第二种从频域进行快速人体行为识别(Fast

CoViAR)的方法的缺点包括:
[0021]1)频域数据的获取较为复杂,效率提升不明显。
[0022]2)缺乏对频域数据的时空上下文的提取。
[0023]3)没有充分利用频域数据的显著性分布特点,导致识别准确率相比基于压缩域的基线方法CoViAR出现明显下降,识别性能与基于压缩域的方法相比有较大差距。
[0024]现有技术中的第三种基于频域数据的快速压缩视频人体行为识别方法(Faster

FCoViAR)包括:利用压缩视频部分解码,直接获得视频的频域数据,进行快速的压缩视频人体行为识别。具体处理步骤包括:
[0025]1)部分解码。通过对压缩视频进行部分解码,得到I帧和残差R的频域数据以及运动矢量MV,效率较高。
[0026]2)通道选择。通过实验选择24个信息显著的通道作为输入。
[0027]3)输入网络。将频域I帧、频域残差R、运动矢量MV分别输入到ResNet

50、ResNet

[0028]50、ResNet

18网络中,输入帧数均为3帧,最后对输出的预测分数取平均。
[0029]4)空间域

频域联合学习。通过知识蒸馏,将空间语义知识从空间教师网络转移到
轻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于频域增强的压缩视频人体行为识别方法,其特征在于,包括:构建频域增强FE模块,所述FE模块包括时间

通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet

50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。2.根据权利要求1所述的方法,其特征在于,所述的构建频域增强FE模块,所述FE模块包括时间

通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块,包括:构建包括TCTHA模块和FOGC模块的FE模块,输入特征首先经过TCTHA模块,将TCTHA模块输出的特征输入到FOGC模块中;所述TCTHA模块对输入特征X进行全局平均池化,得到空间池化后的特征,对空间池化后的特征进行通道维度的1D卷积,得到不同通道的注意力权重,使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征;所述FOGC模块将输入特征X的通道分成G组,使得每组内只含有相邻频段的通道,组与组之间有部分通道重叠,对每组特征进行一个时间维度的1D卷积和一个空间2D卷积,对不同组的输出特征沿通道维度进行拼接,应用一个1
×
1的2D卷积将通道维度转换为与输入通道大小一致,得到最终的输出结果。3.根据权利要求2所述的方法,其特征在于,所述的TCTHA模块将输入特征3.根据权利要求2所述的方法,其特征在于,所述的TCTHA模块将输入特征分别输入到通道注意力分支和时间注意力分支,在通道注意力分支中,将输入特征X进行全局平均池化,得到空间池化后的特征特征X进行全局平均池化,得到空间池化后的特征对特征U
channel
进行通道维度的1D卷积,得到不同通道的注意力权重:s
channel
=σ(Conv1D(U
channel
))
ꢀꢀꢀꢀꢀ
(2)其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数;使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征其中
·
为通道维度的乘法。在时间注意力分支中,将特征X进行全局平均池化)后,得到空间池化后的特征在时间注意力分支中,将特征X进行全局平均池化)后,得到空间池化后的特征对特征U
tempora...

【专利技术属性】
技术研发人员:明悦熊露周江琬吕柏阳冯帆
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1