一种基于频域增强的压缩视频人体行为识别方法技术

技术编号：39256001 阅读：15 留言：0更新日期：2023-10-30 12:07

本发明专利技术提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括：构建频域增强FE模块，所述FE模块包括时间

全部详细技术资料下载

【技术实现步骤摘要】
一种基于频域增强的压缩视频人体行为识别方法

[0001]本专利技术涉及视频分析
，尤其涉及一种基于频域增强的压缩视频人体行为识别方法。

技术介绍

[0002]人体行为识别是智能视频分析领域的研究热点,是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础，近年来得到了学术界及工程界的广泛重视，人体行为识别在视频检索、自动驾驶和智能监控等方面有广泛的应用前景。而基于压缩域数据和频域数据的人体行为识别方法，由于其高效性，以及压缩域数据、频域数据与RGB数据含有的不同语义和运动线索，近年也受到了大量关注。
[0003]而对于实际应用，需要考虑实时性和准确性的问题，现有的方法仍存在许多问题和挑战。在基于RGB数据的人体行为识别方法中，基于卷积神经网络(Convolutional Neural Network，CNN)的方法取得了较好的识别效果，但仍存在计算量大、缺乏对全局信息的建模等问题；而视觉Transformer的方法能够捕获长距离的特征依赖关系，提升了人体行为识别任务的识别效果，但仍存在计算量大、需要大量训练数据和缺乏对局部信息的建模等问题。另一方面，基于压缩域数据的人体行为识别方法近年来也受到大量关注。基于压缩域数据的人体行为识别利用视频的压缩域数据而不是RGB数据进行人体行为识别。压缩域数据只保留少数完整帧，即I帧(I frame，I)，其他帧基于偏移进行重建，称为运动矢量(Motion Vector，MV)和残差(Residual，R)。基于压缩域数据的人体行为识别方法达到了较高的识别速度，但...

【技术保护点】

【技术特征摘要】
1.一种基于频域增强的压缩视频人体行为识别方法，其特征在于，包括：构建频域增强FE模块，所述FE模块包括时间
‑
通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块；将所述FE模块插入到骨干网络为ResNet
‑
50的网络中，得到频域增强的压缩视频人体行为识别FENet网络，对所述FENet网络进行训练；将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果。2.根据权利要求1所述的方法，其特征在于，所述的构建频域增强FE模块，所述FE模块包括时间
‑
通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块，包括：构建包括TCTHA模块和FOGC模块的FE模块，输入特征首先经过TCTHA模块，将TCTHA模块输出的特征输入到FOGC模块中；所述TCTHA模块对输入特征X进行全局平均池化，得到空间池化后的特征，对空间池化后的特征进行通道维度的1D卷积，得到不同通道的注意力权重，使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征；所述FOGC模块将输入特征X的通道分成G组，使得每组内只含有相邻频段的通道，组与组之间有部分通道重叠，对每组特征进行一个时间维度的1D卷积和一个空间2D卷积，对不同组的输出特征沿通道维度进行拼接，应用一个1
×
1的2D卷积将通道维度转换为与输入通道大小一致，得到最终的输出结果。3.根据权利要求2所述的方法，其特征在于，所述的TCTHA模块将输入特征3.根据权利要求2所述的方法，其特征在于，所述的TCTHA模块将输入特征分别输入到通道注意力分支和时间注意力分支，在通道注意力分支中，将输入特征X进行全局平均池化，得到空间池化后的特征特征X进行全局平均池化，得到空间池化后的特征对特征U
channel
进行通道维度的1D卷积，得到不同通道的注意力权重：s
channel
＝σ(Conv1D(U
channel
))
ꢀꢀꢀꢀꢀ
(2)其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数；使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征其中
·
为通道维度的乘法。在时间注意力分支中，将特征X进行全局平均池化)后，得到空间池化后的特征在时间注意力分支中，将特征X进行全局平均池化)后，得到空间池化后的特征对特征U
tempora...

【专利技术属性】
技术研发人员：明悦，熊露，周江琬，吕柏阳，冯帆，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人