基于前景语义增强的双路多标记时空动作检测方法技术

技术编号：43319223 阅读：31 留言：0更新日期：2024-11-15 20:19

本发明专利技术公开了基于前景语义增强的双路多标记时空动作检测方法。本发明专利技术首先对视频采样生成视频片段集合与背景集合，通过动作前景语义增强模块融合背景信息，获得动作前景语义增强的视频片段集合；再利用二维卷积和三维卷积神经网络获取目标边界框，并提取目标级时空特征和视频时空特征图；之后，由交互关系编码器构建目标交互关系，获得刻画交互关系的目标级运动特征；最后，通过双路动作多标记学习模块，建模动作标记之间的关系，输出动作类别。本发明专利技术不仅通过增强动作前景语义与目标动作类别建模以减少语义偏差，还通过刻画不同动作标记内在关联以缓解标记稀疏问题，同时最小化双路动作分类损失缓解正负类别不平衡的问题，提高了动作检测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，尤其是视频处理中的时空动作检测领域，涉及一种基于前景语义增强的双路多标记时空动作检测方法。

技术介绍

1、随着短视频平台以及网络直播和自媒体行业的兴起，每天都有大量的视频被创造和分享，不仅可以丰富人们的娱乐生活，也为科研和商业应用提供了宝贵的资源，然而，在大数据时代，如何有效地管理和利用这些海量视频成为一个亟待解决的问题；相较于文本、图像和音频等其他类型的数据，视频包含更为复杂的视觉信息，虽然人类能够轻松地理解视频内容，但对于机器来说，要实现同样的理解水平却极具挑战性，这是因为视频不仅包含静态的物体和场景信息，还包含动态的时间序列信息，如人物的动作、物体的移动等；时空动作检测技术正是为了解决这一难题而生，它的核心任务是识别视频中动作出现的时间区间和对应的类别，同时在空间范围内用目标边界框 (bounding box)标注出目标的空间位置，这对于许多领域都有着重要的应用价值，例如，在智能监控系统中，通过实时检测危险动作（如打斗、跌倒等），保障公共安全；在体育分析中，通过检测运动员的动作细节，辅助教练进行战术指导；在智能家居环境中，通过检测人的活动模式，为人机交互提供支持。

2、目前，时空动作检测中存在两个问题：偏差问题和多标记问题，偏差问题是指，在有偏差数据集上训练时空动作检测模型时，某些背景与特定动作同时出现的频率较高，导致模型在学习过程中过度依赖这些背景进行动作检测，而无法学习到复杂的动作前景语义特征，例如，模型可能仅仅依靠视频背景为游泳馆就检测目标在游泳，偏差问题导致模型在独立同分布

3、上述时空动作检测方法的不足主要表现在以下三个方面：1）利用场景伪标记和人的掩膜的方法需要额外的属性标记，额外的属性标记（如物体类别、动作细节等）通常需要专家进行手动标注，这是一项耗时且昂贵的工作；2）依赖于特定属性标记的方法可能无法很好地适应新场景或未见过的组合，从而限制了模型的泛化能力，因为模型在训练时过度依赖特定的标记（如物体类别、动作细节等），导致在面对新场景或没有特定属性标记的数据时表现不佳，无法灵活应对多样化的实际情况；3）采用sigmoid 激活函数和加权二值交叉熵损失函数的方法无法根本性解决样本稀疏性问题，随着动作类别的增加，样本的稀疏性问题仍然存在，导致模型难以学习到有效的多标记组合，同时，加权二值交叉熵损失函数还会带来正负类别不平衡的问题，导致模型整体性能下降。基于这些考虑，迫切需要设计一种既能消除对非动作特征的过度依赖又能缓解多标记动作检测导致的样本稀疏性问题的时空动作检测方法。

技术实现思路

1、本专利技术的目的就是针对现有方法的不足，提供一种基于前景语义增强的双路多标记时空动作检测方法，既能缓解偏差问题，减少模型对背景的过度依赖，实现对动作前景语义特征的捕获，又能缓解多标记动作检测导致的稀疏样本问题，生成精确的动作出现的时间区间、动作类别和目标边界框。

2、本专利技术提供一种基于前景语义增强的双路多标记时空动作检测方法，包括以下步骤：

3、步骤（1）构建视频预处理模块，对原始视频进行预处理，得到背景集合和视频片段集合；

4、步骤（2）构建动作前景语义增强模块，输入为背景集合和视频片段集合，输出为动作前景语义增强的视频片段集合；

5、步骤（3）利用二维卷积和三维卷积神经网络提取特征，输入为增强后的视频片段集合，输出为目标边界框，目标级运动特征和视频时空特征图；

6、步骤（4）构建交互关系编码器，输入为目标级运动特征和视频时空特征图，输出为构建过交互关系后的目标级运动特征；

7、步骤（5）构建双路动作多标记学习模块，输入为类别标记嵌入和构建过交互关系的目标级运动特征，输出为预测的动作类别；得到依次包括视频预处理模块、动作前景语义增强模块、交互关系编码器和双路动作多标记学习模块的时空动作检测模型；

8、步骤（6）对时空动作检测模型进行训练；

9、计算目标定位和动作分类损失，再利用随机梯度下降算法优化上述时空动作检测模型，对新的视频序列依次执行步骤（1）～（5）获取所有目标在不同时刻下的空间位置和动作类别，直至模型收敛；

10、步骤（7）获取待检测的视频序列，输入至训练完成的时空动作检测模型中，得到预测的目标边界框和动作类别概率，进而得到动作开始时间、结束时间和动作类别。

11、优选的，步骤（1）具体包括以下步骤：

12、（1-1）构建视频预处理模块，获取原始视频，输入所述视频预处理模块，以每秒帧的采样率，的取值为30，对所述原始视频进行采样，获得帧数量为的视频帧序列集合，其中，表示视频帧序列集合的第帧视频帧，表示实数域，和分别表示视频帧的高度和宽度，3表示rgb三通道；

13、（1-2）利用目标检测器，所述目标检测器faster r-cnn模型，对视频帧序列集合进行目标检测，根据检测结果选取视频帧序列集合中不包含人的帧作为背景帧，使用所述背景帧组成背景集合，其中，表示背景集合中的第个背景帧，表示背景集合的背景帧数量；

14、（1-3）从视频帧序列集合中的第帧开始，确保第帧、最后第帧和最后一帧不作为关键帧，每帧取一帧作为后续用于划分视频片段的关键帧，得到关键帧集合，其中，表示原始视频的总时长，单位为秒，表示第秒视频片段的关键帧，以关键帧集合中的关键帧为中心，从视频帧序列集合中截取长度为帧的视频片段，最终得到视频片段集合，其中，表示第秒视频片段，由关键帧前帧视频帧、关键帧和关键帧后帧视频帧组成，表示视频片段长度的一半。

15、优选的，步骤（2）具体包括以下步骤：

16、构建动作前景语义增强模块，用于将原始视频片段与由随机选择的单张背景图像组成的静态视频片段融合，增加动作与背景组合的多样性，使得某些背景与特定动作同时出现的频率降低，减少模型对背景的过度依赖，促使模型学习到更复杂的动作前景语义特征，从而缓解偏差问题；所述动作前景语义增强模块由视频融合子模块和动作标记平滑模块组成；

17、利用所述视频融合子模块执行视频融合操作，包括如下步骤：从背景集合中随机抽取一帧作为背景帧，沿时间维度复制得到长度为帧的静态背景视频，并与视频片段进行线性相加实现融合，得到增强后的视频片段，其中，表示融合比例，表示视频片段中的第帧视频帧；...

【技术保护点】

1.基于前景语义增强的双路多标记时空动作检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（1）具体包括以下步骤：

3.如权利要求2所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（2）具体包括以下步骤：

4.如权利要求3所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（3）具体包括以下步骤：

5.如权利要求4所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（4）具体包括以下步骤：

6.如权利要求5所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（5）具体包括以下步骤：

7.如权利要求6所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（6）具体包括以下步骤：

8.如权利要求7所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（7）具体包括以下步骤：

【技术特征摘要】

1.基于前景语义增强的双路多标记时空动作检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（1）具体包括以下步骤：

3.如权利要求2所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（2）具体包括以下步骤：

4.如权利要求3所述的基于前景语义增强的双路多标记时空动作检测方法，其特征在于，步骤（3）具体包括以下步骤：

5.如权利...

【专利技术属性】
技术研发人员：李平，何凌风，刘钧宇，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人