基于峰值区域自适应扩散的视频时空动作检测方法技术

技术编号:37577771 阅读:23 留言:0更新日期:2023-05-15 07:53
本发明专利技术公开了基于峰值区域自适应扩散的视频时空动作检测方法。本发明专利技术方法首先对原始视频进行采样获得视频帧序列,利用目标检测器和卷积神经网络提取目标边界框元组、视频帧特征和视频时空特征图;利用构建峰值区域挖掘模块得到峰值区域中心位置坐标;再格式塔均值扩散模块,得到修正后的所有目标的目标边界框元组;最后,使用通道池化模块判别视频片段目标所属动作类别以及对动作时长间隔进行修正。本发明专利技术方法不仅能够目标大小自适应调节峰值区域尺寸,以尽可能少的目标特征刻画目标轨迹,还能通过格式塔原则均值扩散模块使用稳定的颜色属性挖掘目标完整特征,以提高目标运动特征提取的有效性,从而获得更高的时空动作检测精度。精度。精度。

【技术实现步骤摘要】
基于峰值区域自适应扩散的视频时空动作检测方法


[0001]本专利技术属于计算机视觉
,尤其是视频处理中的动作定位
,涉及一种基于峰值区域自适应扩散的视频时空动作检测方法。

技术介绍

[0002]互联网上的视频内容琳琅满目、鱼龙混杂、规模呈指数级增长,视频内容的安全性日益得到重视。其中,视频中的目标及其关联动作是内容审查的关键,而人工审核耗时耗力,且可能出现误伤。因此,如何快速且准确地检测视频中的动作及其关联目标,即时空动作检测(Spatio

temporal Action Detection),成为重要研究课题。该任务面向精细时空标记,以包含多目标、多动作的未剪辑视频为输入,输出视频内所有动作的起止时间、与动作相关联目标的空间位置及对应的动作类别。时空动作检测在园区智能监控、智慧交通保障,以及危险行为预警等实际场景有广阔的应用前景。例如,针对智慧交通系统,时空动作检测方法能通过天网摄像头实时监控道路上发生的违规行为,如汽车逆向行驶、行人闯红灯等,并及时预警,以降低交通事故率;此外,还可以应用到体育赛事场景,检测违规视频片段,如恶意伤人、违规踩线等,以维护和提升赛事的公平性。
[0003]时空动作检测方法主要分为单帧输入(Frame

level)和多帧输入(Tubelet

level)两种方式。其中,Tubelet

level主要解决Frame

level方式时序关系挖掘困难问题。Tubelet/>‑
level时空动作检测主要采用两阶段范式,即对运动轨迹的描述划分为粗粒度阶段和细粒度阶段;在粗粒度阶段,将给定关键帧的目标边界框提议扩展成3D时序目标边界框,即不同帧的空间维度上具有相同的初始位置和形状,之后将其输入动作类别判别器以获取动作类别;在细粒度阶段,使用帧级检测器对交并比未达到预设阈值的目标边界框进行线性修正,以描述目标运动轨迹。然而,上述方式在应对大动作时,如运动目标的快速形变(跳水)与快速位移(跑步),由于动作特征的偏差,容易导致模型优化时出现错误累积,造成时空动作检测效果不佳。
[0004]上述时空动作检测方法的不足主要表现在两个方面:(1)采用多帧输入方式虽然能很好地挖掘目标间时序关系,但是使用直接扩展的方式无法快速应对相机抖动、目标快速位移情况;(2)基于3D时序目标边界框判别的动作类别,由于固定相同的空间位置,而目标在运动过程容易发生形变,导致目标特征与真实特征存在偏差,造成模型检测错误。因此,针对直接扩展方式造成的目标定位偏差和模型结果动作类别判别错误问题,迫切需要设计一种既能刻画目标运动轨迹,又能根据目标外观调整目标边界框尺寸的时空动作检测方法。

技术实现思路

[0005]本专利技术针对现有方法的不足,提出一种基于峰值区域自适应扩散的视频时空动作检测方法。本专利技术方法通过构建自顶向下高斯核热图峰值区域挖掘模块,挖掘感兴趣特征区域以刻画目标运动轨迹,以应对相机抖动与运动目标快速位移问题;同时,设计基于格式
塔原则的均值扩散定位模块,以调整与动作相关联目标边界框尺寸,以应对动作幅度变化剧烈而导致的目标形变问题。
[0006]本专利技术方法对给定动作类别、动作时空标记的视频数据集合,依次进行如下操作:
[0007]步骤(1)对视频进行预处理得到视频帧序列,利用二维、三维卷积神经网络以及更快的区域卷积神经网络提取初始目标边界框元组、视频帧特征和视频时空特征图;
[0008]步骤(2)构建峰值区域挖掘模块,输入为初始目标边界框元组和视频帧特征,输出为峰值区域及其中心位置坐标;
[0009]步骤(3)建立格式塔均值扩散模块,输入为原始视频帧序列和峰值区域中心位置坐标,输出当前时刻所有目标的目标边界框元组;
[0010]步骤(4)构建通道池化模块,输入为视频时空特征图和目标边界框元组,输出为当前时刻与动作相关联的目标以及动作类别;
[0011]步骤(5)利用随机梯度下降算法优化由峰值区域挖掘模块、格式塔均值扩散模块和通道池化模块组成的时空动作检测模型,对新的视频序列依次执行步骤(1)~(4)得到所有与动作相关联目标在不同时刻的目标边界框和动作类别。
[0012]进一步,步骤(1)具体是:
[0013](1

1)以每秒N帧的采样率对视频采样,5≤N≤10,获得含T

帧的帧序列集合帧的帧序列集合表示实数域,U
s
表示第s帧的帧序列,H

、W

、3分别表示视频帧的高、宽、RGB三通道;
[0014](1

2)将视频帧序列划分为T个视频片段单个视频片段长度为2
·
N帧,V
t
表示第t个视频片段,再将V
t
输入至三维卷积神经网络,生成第t个视频片段的时空特征图H、W、2
·
N分别是特征图的高度、宽度、通道数,由此获得所有视频片段的时空特征图;
[0015](1

3)利用更快的区域卷积神经网络对视频片段的中间帧进行目标检测,获取初始目标边界框元组集合中间帧即为视频片段的第N帧;N
t,N
表示视频片段V
t
中间帧存在的目标数量,表示视频片段V
t
中间帧第i个目标的边界框,分别表示视频片段V
t
中间帧第i个目标边界框的左上角的横坐标与纵坐标,分别表示视频片段V
t
中间帧第i目标边界框的右下角的横坐标与纵坐标;将视频片段V
t
的视频帧输入至二维卷积神经网络,获取视频帧特征C为通道数,1<n<2
·
N。
[0016]再进一步,步骤(2)具体是:
[0017](2

1)构建峰值区域挖掘模块,获得所有目标的目标边界框中心位置坐标和尺寸,第i个目标边界框的中心位置坐标第i个目标的目标边界框尺寸
[0018]根据计算高斯核方差值,以调节高斯核尺寸,σ0为预设方差,0<σ0<1,计算坐标(x,y)下相对于第i个目标的高斯值类似地,获得目标i的高斯热图分布以及其他目标的高斯热图分布,通过获得第t个视频片段第N帧的高斯热图分布矩阵;
[0019](2

2)获得峰值区域特征

表示对应元素相乘操作,maxpool(
·
)表示最大池化操作,参数max(
·
,
·
)表示取最大值;然后对相邻帧计算余弦相似度score=cossim(F
t,N,peak
·
F
t,N+1,can
),是通过滑动窗口的方式提取区域特征;选择相似度最高的前top

k个且score>δ0的区域,预设阈值0<δ0<1,选择前top
...

【技术保护点】

【技术特征摘要】
1.基于峰值区域自适应扩散的视频时空动作检测方法,其特征在于,对给定动作类别、动作时空标记的视频数据集合,依次进行如下操作:步骤(1)对视频进行预处理得到视频帧序列,利用二维、三维卷积神经网络以及更快的区域卷积神经网络提取初始目标边界框元组、视频帧特征和视频时空特征图;步骤(2)构建峰值区域挖掘模块,输入为初始目标边界框元组和视频帧特征,输出为峰值区域及其中心位置坐标;步骤(3)建立格式塔均值扩散模块,输入为原始视频帧序列和峰值区域中心位置坐标,输出当前时刻所有目标的目标边界框元组;步骤(4)构建通道池化模块,输入为视频时空特征图和目标边界框元组,输出为当前时刻与动作相关联的目标以及动作类别;步骤(5)利用随机梯度下降算法优化由峰值区域挖掘模块、格式塔均值扩散模块和通道池化模块组成的时空动作检测模型,对新的视频序列依次执行步骤(1)~(4)得到所有与动作相关联目标在不同时刻的目标边界框和动作类别。2.如权利要求1所述的基于峰值区域自适应扩散的视频时空动作检测方法,其特征在于,步骤(1)具体是:(1

1)以每秒N帧的采样率对视频采样,5≤N≤10,获得含T

帧的帧序列集合表示实数域,U
s
表示第s帧的帧序列,H

、W

、3分别表示视频帧的高、宽、RGB三通道;(1

2)将视频帧序列划分为T个视频片段单个视频片段长度为2
·
N帧,V
t
表示第t个视频片段,再将V
t
输入至三维卷积神经网络,生成第t个视频片段的时空特征图H、W、2
·
N分别是特征图的高度、宽度、通道数,由此获得所有视频片段的时空特征图;(1

3)利用更快的区域卷积神经网络对视频片段的中间帧进行目标检测,获取初始目标边界框元组集合中间帧即为视频片段的第N帧;N
t,N
表示视频片段V
t
中间帧存在的目标数量,表示视频片段V
t
中间帧第i个目标的边界框,分别表示视频片段V
t
中间帧第i个目标边界框的左上角的横坐标与纵坐标,分别表示视频片段V
t
中间帧第i目标边界框的右下角的横坐标与纵坐标;将视频片段V
t
的视频帧输入至二维卷积神经网络,获取视频帧特征C为通道数,1<n<2
·
N。3.如权利要求2所述的基于峰值区域自适应扩散的视频时空动作检测方法,其特征在于,步骤(2)具体是:(2

1)构建峰值区域挖掘模块,获得所有目标的目标边界框中心位置坐标和尺寸,第i个目标边界框的中心位置坐标第i个目标
的目标边界框尺寸根据计算高斯核方差值,以调节高斯核尺寸,σ0为预设方差,0<σ0<1,计算坐标(x,y)下相对于第i个目标的高斯值类似地,获得目标i的高斯热图分布以及其他目标的高斯热图分布,通过获得第t个视频片段第N帧的高斯热图分布矩阵;(2

2)获得峰值区域特征

表示对应元素相乘操作,maxpool(
·
)表示最大池化操作,参数max(
·
,
·
)表示取最大值;然后对相邻帧计算余弦相似度score=cossim(F
t,N,peak
·
F
t,N+1,can
),是通过滑动窗口的方式提取区域特征;选择相似度最高的前top

k个且score>δ0的区域,预设阈值0<δ0<1,选择前top

k个区域的交集作为当前帧峰值区域元组k个区域的交集作为当前帧峰值区域元组分别表示视频片段V
t
的第N+1帧第i个峰值区域的左上角的横坐标与纵坐标,分别表示视频片段V
t
的第N+1帧第i目标峰值区域的右下角的横坐标与纵坐标,计算当前帧峰值区域中心位置坐标由此得到当前片段所有帧的峰值区域及其中心位置坐标;(2

3)利用真实结果目标边界框中心位置和峰值区域中心位置,计算定位偏移损失其中表示视频片段V
t
第n帧第i个目标的真实目标边界框,||
·
||1表示l1范数,N
t,n
表示视频片段V
t
第n帧的目标数量。4.如权利要求3所述的基于峰值区域自适应扩散的视频时空动作检测方法,其特征在于,步骤(3)具体是:(3

1)构建由目标跟踪子模块和空间梯度子模块组成格式塔均值扩散模块,目标跟踪子模块使用颜色概率分布对目标定位进行粗粒度判别,空间梯度子模块用于提取纹理特征,以细化目标定位;将原始视频帧序列映射到HSV颜色空间,按照[Hue,Saturation,Value]的形式排列成矢...

【专利技术属性】
技术研发人员:李平叶兴超徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1