一种基于多尺度时空传播层的运动目标检测方法技术

技术编号:26599141 阅读:16 留言:0更新日期:2020-12-04 21:21
本发明专利技术公开了一种基于多尺度时空传播层的运动目标检测方法,其步骤如下:1获取具有像素级标签的视频数据集;2构建搭载多尺度时空传播层的网络模型;3训练多尺度时空传播层的网络模型;4利用训练好的模型进行预测,以确认其性能能达到运动目标检测的要求。本发明专利技术能为解决现有的运动目标检测对时空特征提取方法的单一、鲁棒性差、只注重局部信息等问题,从而能快速准确检测在不同挑战场景下的前景目标,并加强对前景检测的效果,进而为运动目标检测提供了一种新的解决方法。

【技术实现步骤摘要】
一种基于多尺度时空传播层的运动目标检测方法
本专利技术应用于计算机视觉
,是一种基于多尺度时空传播层的运动目标检测方法。
技术介绍
运动目标检测是一种二分类任务,把视频的每一帧图像的每个像素点分为前景或背景。它是视觉应用的基础,在交通分析、拥挤度分析、物体追踪、自动驾驶和异常情况检测等视频监测任务中都起到十分重要的作用。运动目标检测需要克服多种不同噪声对视频的影响,如光线差异、动态背景、物体阴影、相机抖动、物体不规则运动等。目前,运动目标检测算法主要分成两类,一类是对背景进行建模的传统算法,另一类则是利用神经网络自主学习进行前景识别的深度学习算法。传统算法常对视频背景进行建模以实现运动目标检测。通常会通过利用如颜色、像素点强度、梯度、历史像素点分布等低级特征对背景模型进行更新与维护。然而,由于低级特征易受到噪声影响,因此传统算法只适用于简单场景。另外,传统算法通常依赖人工调优,需要人为的持续干预以保证效果,因此无法具有较好的泛用性。凭借深度学习对高级特征强大的提取能力与其较少人工干预的特性,基于深度学习的运动目标检测的鲁棒性通常更高,效果更好。且基于深度学习的算法可实现端对端的效果,因此不需要后续的建模过程与后处理。但是,目前基于深度学习的运动目标检测大都依赖神经网络已有的网络层,对时间特征提取手段较为单一,缺乏灵活性。
技术实现思路
本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于多尺度时空传播层的运动目标检测方法,以期能为解决现有的运动目标检测对时空特征提取方法的单一、鲁棒性差、只注重局部信息等问题,从而能快速准确检测在不同挑战场景下的前景目标,并加强对前景检测的效果,进而为运动目标检测提供了一种新的解决方法。本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种基于多尺度时空传播层的运动目标检测方法的特点包括如下步骤:步骤1、获取视频数据集以及像素级标签;步骤1.1、选取带有像素级标签的视频图像数据,并分成N段多帧的短视频序列,并对N段多帧的短视频序列中所有像素点进行归一化,得到归一化后的训练样本集,记为S={S1,S2,...,So,...,SN},So表示第o段归一化后的短视频序列,且So={Fo1,Fo2,...,Fon},Fon为第i段归一化后的短视频序列中第n帧图像;o∈[1,N];步骤2、建立搭载多尺度时空传播层的网络模型,所述网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成;步骤2.1、初始化权重值:对网络模型的卷积层及BatchNormalization层进行参数初始化;步骤2.2、所述空间特征提取模块由VGG模型的前13层,且每层各连接一个BatchNormalization层所组成;依次输入第i段归一化后的短视频序列So中的图像,并自经过所述空间特征提取模块分别得到分辨率为输入短视频序列So的1/2的第一空间尺度时空体H1={h11,h21,...,hn1},分辨率为输入短视频序列So的1/4的第二空间尺度时空体H2={h12,h22,...,hn2},分辨率为输入短视频序列So的1/8的第三空间尺度时空体H3={h13,h23,...,hn3};其中,hn1表示输入视频序列So中第n帧对应的第一空间尺度特征图,hn2表示输入视频序列So中第n帧对应的第二空间尺度特征图,hn3表示输入视频序列So中第n帧对应的第三空间尺度特征图;步骤2.3、将所述第o段归一化后的短视频序列So中的中间帧图像Fmid作为所述类Unet模型的输入,经过所述类Unet模型的处理后,输出所述时空特征融合模块的参数矩阵W={W1,W2,...,Wz,...,WM};Wz表示第z个子矩阵;1<z≤M;步骤2.4、所述时空特征融合模块根据所述类Unet模型提供的参数矩阵W,分别对空间特征提取模块所构建的三个时空体H1、H2、和H3进行时空特征融合,相应得到的融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3;步骤2.4.1、记任意融合后的第q个时空体为Rq,q=1,2,3,记第q个时空体Rq的宽度为U,高度为M,时间维度为T;将第q个时空体Rq在宽度U上分成若干片,其中第S个分片记为将第S个分片中第i行第j帧的时空点记为并利用式(1)得到融合后的第q个时空体Rq在宽度U上第S个分片中第i行第j帧的时空点式(1)中,表示第q个时空体Hq在宽度U上第S个分片中第i行第j帧的时空点;wi(j,j+m)表示第i个子矩阵Wi中第j行第j+m列的参数;表示融合后的第q个时空体Rq宽度U上第S个分片中第i-1行第j+m帧的时空点;λi(j,j)表示与第i个子矩阵Wi中第j行所对应的归一化限定参数,并有:步骤2.4.2、根据步骤2.4.1的过程,分别得到第q个时空体Rq在宽度U上、高度M和时间维度T上每个分片中的每个时空点;步骤2.4.3、把融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3按照时间维度划分n片,从而得到划分后的第一时空体R1={r11,r21,...,rn1},第一时空体R2={r12,r22,...,rn2},第一时空体R3={r13,r23,...,rn3};其中,rn1表示第一时空体R1的第n个特征片,rn2表示第二时空体R2的第n个特征片,rn3表示第三时空体R3的第n个特征片;步骤2.5、所述特征解码模块将融合后的第三空间尺度时空体R3中的第(1+n)/2片特征片r3(1+n)/2经过反卷积层放大至其分辨率的两倍处理后,再与融合后的第二空间尺度时空体R2中的第(1+n)/2片特征片r2(1+n)/2相加,得到第一融合特征,然后经过另一个反卷积层的放大至当前分辨率的两倍处理后,再与融合后的第一空间尺度时空体R1中的第(1+n)/2特征片r1(1+n)/2相加,得到第二融合特征,并经过一个输出通道数为2的卷积层后输出最终的特征图;最后对最终的特征图输入激活层中,从而得到概率图P;步骤3、权值的更新:建立概率图P与像素级标签之间的损失函数FL(p),再使用自适应优化算法以固定的学习率更新多尺度时空传播层的网络模型里的每一个权值,使得所述损失函数FL(p)趋于稳定,从而得到训练好的网络模型;步骤4、利用训练好的网络模型对任一短视频序列进行预测,得到对应短视频序列的前景概率图;设置一阈值,并对所述前景目标概率图进行二值化分割,将分割后的概率图中概率值小于阈值的像素点设置为背景像素点,大于或等于阈值的像素点设置成前景像素点,从而得到最终分割结果。与现有技术相比,本专利技术的有益效果在于:1、本专利技术通过类Unet网络所生成的参数,构建四个方向异性的关联矩阵,并以迭代的方式模拟关联矩阵与输入特征向量时间体的相乘,从而能有效地提取半全局时空信息,因此不必加入更多的卷积层以增大视野域,进而加强了其提取效率与准确度。2、本专利技术打破了以往只能使用3d卷积层或卷积长本文档来自技高网...

【技术保护点】
1.一种基于多尺度时空传播层的运动目标检测方法,其特征包括如下步骤:/n步骤1、获取视频数据集以及像素级标签;/n步骤1.1、选取带有像素级标签的视频图像数据,并分成N段多帧的短视频序列,并对N段多帧的短视频序列中所有像素点进行归一化,得到归一化后的训练样本集,记为S={S

【技术特征摘要】
1.一种基于多尺度时空传播层的运动目标检测方法,其特征包括如下步骤:
步骤1、获取视频数据集以及像素级标签;
步骤1.1、选取带有像素级标签的视频图像数据,并分成N段多帧的短视频序列,并对N段多帧的短视频序列中所有像素点进行归一化,得到归一化后的训练样本集,记为S={S1,S2,...,So,...,SN},So表示第o段归一化后的短视频序列,且So={Fo1,Fo2,...,Fon},Fon为第i段归一化后的短视频序列中第n帧图像;o∈[1,N];
步骤2、建立搭载多尺度时空传播层的网络模型,所述网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成;
步骤2.1、初始化权重值:对网络模型的卷积层及BatchNormalization层进行参数初始化;
步骤2.2、所述空间特征提取模块由VGG模型的前13层,且每层各连接一个BatchNormalization层所组成;
依次输入第i段归一化后的短视频序列So中的图像,并自经过所述空间特征提取模块分别得到分辨率为输入短视频序列So的1/2的第一空间尺度时空体H1={h11,h21,...,hn1},分辨率为输入短视频序列So的1/4的第二空间尺度时空体H2={h12,h22,...,hn2},分辨率为输入短视频序列So的1/8的第三空间尺度时空体H3={h13,h23,...,hn3};其中,hn1表示输入视频序列So中第n帧对应的第一空间尺度特征图,hn2表示输入视频序列So中第n帧对应的第二空间尺度特征图,hn3表示输入视频序列So中第n帧对应的第三空间尺度特征图;
步骤2.3、将所述第o段归一化后的短视频序列So中的中间帧图像Fmid作为所述类Unet模型的输入,经过所述类Unet模型的处理后,输出所述时空特征融合模块的参数矩阵W={W1,W2,...,Wz,...,WM};Wz表示第z个子矩阵;1<z≤M;
步骤2.4、所述时空特征融合模块根据所述类Unet模型提供的参数矩阵W,分别对空间特征提取模块所构建的三个时空体H1、H2、和H3进行时空特征融合,相应得到的融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3;
步骤2.4.1、记任意融合后的第q个时空体为Rq,q=1,2,3,记第q个时空体Rq的宽度为U,高度为M,时间维度为T;将第q个时空体Rq在宽度U上分...

【专利技术属性】
技术研发人员:杨依忠阮嘉濠党政解光军程心张章
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1