【技术实现步骤摘要】
一种基于频域增强的压缩视频人体行为识别方法
[0001]本专利技术涉及视频分析
,尤其涉及一种基于频域增强的压缩视频人体行为识别方法。
技术介绍
[0002]人体行为识别是智能视频分析领域的研究热点,是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础,近年来得到了学术界及工程界的广泛重视,人体行为识别在视频检索、自动驾驶和智能监控等方面有广泛的应用前景。而基于压缩域数据和频域数据的人体行为识别方法,由于其高效性,以及压缩域数据、频域数据与RGB数据含有的不同语义和运动线索,近年也受到了大量关注。
[0003]而对于实际应用,需要考虑实时性和准确性的问题,现有的方法仍存在许多问题和挑战。在基于RGB数据的人体行为识别方法中,基于卷积神经网络(Convolutional Neural Network,CNN)的方法取得了较好的识别效果,但仍存在计算量大、缺乏对全局信息的建模等问题;而视觉Transformer的方法能够捕获长距离的特征依赖关系,提升了人体行为识别任务的识别效果,但仍存在计算量大、需要大量训练数据和缺乏对局部信息的建模等问题。另一方面,基于压缩域数据的人体行为识别方法近年来也受到大量关注。基于压缩域数据的人体行为识别利用视频的压缩域数据而不是RGB数据进行人体行为识别。压缩域数据只保留少数完整帧,即I帧(I frame,I),其他帧基于偏移进行重建,称为运动矢量(Motion Vector,MV)和残差(Residual,R)。基于压缩域数据的人体行为识别方法达到了较高的识别速度,但 ...
【技术保护点】
【技术特征摘要】
1.一种基于频域增强的压缩视频人体行为识别方法,其特征在于,包括:构建频域增强FE模块,所述FE模块包括时间
‑
通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet
‑
50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。2.根据权利要求1所述的方法,其特征在于,所述的构建频域增强FE模块,所述FE模块包括时间
‑
通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块,包括:构建包括TCTHA模块和FOGC模块的FE模块,输入特征首先经过TCTHA模块,将TCTHA模块输出的特征输入到FOGC模块中;所述TCTHA模块对输入特征X进行全局平均池化,得到空间池化后的特征,对空间池化后的特征进行通道维度的1D卷积,得到不同通道的注意力权重,使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征;所述FOGC模块将输入特征X的通道分成G组,使得每组内只含有相邻频段的通道,组与组之间有部分通道重叠,对每组特征进行一个时间维度的1D卷积和一个空间2D卷积,对不同组的输出特征沿通道维度进行拼接,应用一个1
×
1的2D卷积将通道维度转换为与输入通道大小一致,得到最终的输出结果。3.根据权利要求2所述的方法,其特征在于,所述的TCTHA模块将输入特征3.根据权利要求2所述的方法,其特征在于,所述的TCTHA模块将输入特征分别输入到通道注意力分支和时间注意力分支,在通道注意力分支中,将输入特征X进行全局平均池化,得到空间池化后的特征特征X进行全局平均池化,得到空间池化后的特征对特征U
channel
进行通道维度的1D卷积,得到不同通道的注意力权重:s
channel
=σ(Conv1D(U
channel
))
ꢀꢀꢀꢀꢀ
(2)其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数;使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征其中
·
为通道维度的乘法。在时间注意力分支中,将特征X进行全局平均池化)后,得到空间池化后的特征在时间注意力分支中,将特征X进行全局平均池化)后,得到空间池化后的特征对特征U
tempora...
【专利技术属性】
技术研发人员:明悦,熊露,周江琬,吕柏阳,冯帆,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。