一种端到端的局部视频行为语义预测方法技术

技术编号：37875684 阅读：22 留言：0更新日期：2023-06-15 21:04

本发明专利技术提出一种端到端的局部视频行为语义预测方法，包括，获取包含人体运动的视频；对视频中的片段采样x帧原始帧，对x帧原始帧的RGB差分信息进行下采样，通过2D卷积网络对下采样得到的RGB差分特征进行特征提取，获得局部运动特征，对局部运动特征进行上采样，获得最终的局部运动特征；将原始帧通过2D卷积网络得到局部空间特征，将最终的局部运动特征与局部空间特征融合得到融合特征；将融合特征与局部运动特征融合得到片段的时空特征；根据视频中所有片段的时空特征，得到历史全局尺度，根据历史全局尺度对视频进行动作类别预测。通过本发明专利技术提出的方法，实现了以端到端的方式预测局部视频中的人体行为语义。局部视频中的人体行为语义。局部视频中的人体行为语义。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的局部视频行为语义预测方法

[0001]本专利技术属于行为分析领域。

技术介绍

[0002]视频中的人体行为语义预测的目标是根据观察到的正在进行的人体行为动作来预测其语义标签。它是人类行为分析研究领域的一个子领域。与具有完全执行的传统行为语义识别不同，该任务由于人体行为的不完整性和动作的持续演化，使其语义预测更具挑战性。由于其在一些实时性要求较高的场景中的广泛应用，如人机交互、安全监控等，今年来该领域引起了大量的研究关注。
[0003]尽管先前的工作通过采用两阶段方法取得了令人满意的结果，但通常存在建模复杂和特征冗余的问题。先前的方法将特征提取与行为预测分离。这种分离操作使得所获得的时空表征可能偏离预测任务本身，并且使模型设计复杂化。其次，由于特征是离线生成的，因此必须提前将完整的动作划分为固定的片段，这不仅导致了特征在时间维度上的冗余，而且不适用于实际场景。
[0004]与空间多尺度技术在图像领域的应用类似，在视频分析中，时间维度的多尺度研究也在增加。与图像相比，视频中时间尺度的变化带来了额外的挑战。如何有效地利用不同时间尺度的运动演化信息，在视频运动分析中逐渐受到关注。Feichtenhofer等人提出了用于视频识别的SlowFast网络。他们的方法利用两个分支，一个是低帧率的慢路径，另一个是高帧率的快路径，以精细的时间分辨率捕获空间语义和运动。Wang等人提出了一种有效的多尺度动作识别模型，该模型利用短期和长期时间差分模块更好地捕捉短时和长时运动信息。
[0005]大多数现有的...

【技术保护点】

【技术特征摘要】
1.一种端到端的局部视频行为语义预测方法，其特征在于，包括以下步骤：获取包含人体运动的视频；对所述视频中的片段采样x帧原始帧，对所述x帧原始帧的RGB差分信息进行下采样，通过2D卷积网络对下采样得到的RGB差分特征进行特征提取，获得局部运动特征，对所述局部运动特征进行上采样，获得最终的局部运动特征；将所述原始帧通过2D卷积网络得到局部空间特征，将所述最终的局部运动特征与所述局部空间特征融合得到融合特征；将所述融合特征与所述局部运动特征融合得到所述片段的时空特征；根据所述视频中所有片段的时空特征，得到历史全局尺度，根据所述历史全局尺度对所述视频进行动作类别预测。2.根据权利要求1所述的方法，其特征在于，在获取包含人体运动的视频之后，还包括：将所述视频等分成K个片段，其中K为大于1的正整数。3.根据权利要求1所述的方法，其特征在于，在对所述视频中的片段采样x帧原始帧之后，还包括：利用所述x帧原始帧做差，计算所述x帧原始帧的RGB差分信息，得到RGB差分特征。4.根据权利要求1所述的方法，其特征在于，所述根据所述视频中所有片段的时空特征，得到历史全局尺度，包括：通过LSTM模型将所述视频中所有片段的时空特征按时间维度添加到历史序列中，实现对历史全局时空特征的提取，得到历史全局尺度。5.一种端到端的局部视频行为语义预测装置，其特征在于，包括以下模块：获取模块，用于获取包含人体运动的视频；提取模块，用于对所述视频中的片段采样x帧原始帧，对所述x帧原始帧的RGB差分信息进行下采样，通过2D卷积...

【专利技术属性】
技术研发人员：尹建芹，刘孝发，孙源，张志成，唐进，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人