【技术实现步骤摘要】
基于时序校正卷积的视频预测方法
[0001]本专利技术属于计算机视觉
,尤其是视频理解中的视频预测领域,涉及一种基于时序校正卷积的视频预测方法。
技术介绍
[0002]近几年,随着移动互联网的飞速发展和视频感知设备的广泛普及,海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题,即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下,生成未来时刻的视频帧,可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如,雷达回波图像能反映当地的降雨情况,视频预测方法通过刻画雷达回波历史图像的潜在变化规律,生成能准确反映短期气象变化趋势的视频,提升灾害天气的短期预报精度。此外,根据城市交通GPS数据,视频预测能够对城市的高峰期交通状况进行预判,从而帮助用户规划更合理的驾驶路线。
[0003]传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等,但这些方法难以表示真实复杂场景视频的潜在结构。近几年来,深度学习在计算机视觉领域获得巨大的成功,特别是在视频理解领域较大地提升了任务性能,其已被应用于视频预测模型的研发。例如,为了对视频中的时空特征进行建模,研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点,提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM:Convolutional Long Short
‑
Term Memory),以增强视频数据的表 ...
【技术保护点】
【技术特征摘要】
1.基于时序校正卷积的视频预测方法,其特征在于,首先获取原始视频数据集合,然后依次进行如下操作:步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。2.如权利要求1所述基于时序校正卷积的视频预测方法,其特征在于,步骤(1)具体是:(1
‑
1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列其中,表示实数域,X
t
表示第t帧,t=1,2,
…
,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;(1
‑
2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5
×
5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;(1
‑
3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将X
t
和第t
‑
3个时空编码特征图H
t
‑3经过卷积和逐元素相乘操作融合,得到强化外观特征图X
′
t
=2σ(Conv1(H
t
‑3))
⊙
X
t
,符号
⊙
表示逐元素乘积,σ(
·
)表示Sigmoid激活函数;再将第t
‑
1个时空编码特征图H
t
‑1和强化外观特征图X
t
′
经过卷积和逐元素相乘操作融合,得到强化时空编码特征图H
′
t
‑1=2σ(Conv2(X
′
t
))
⊙
H
t
‑1,Conv1(
·
)、Conv2(
·
)表示卷积核大小为5
×
5的二维卷积层;(1
‑
4)将强化外观特征图X
′
t
和第t
‑
2个时空编码特征图H
t
‑2经过卷积和逐元素相乘操作融合,得到融合外观特征图X
″
t
=2σ(Conv1(H
t
‑2))
⊙
X
′
t
;再将融合外观特征图X
″
t
与强化时空编码特征图H
′
t
‑1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图H
″
t
‑1=2σ(Conv2(X
″
t
))
⊙
H
′
t
‑1。3.如权利要求2所述基于时序校正卷积的视频预测方法,其特征在于,步骤(2)所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量,具体是:(2
‑
1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足
5帧时,长短期视频帧序列元素由全0初始化补全;(2
‑
2)将短期历史视频帧序列在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征Pooling(
·
)为空间维度上的全局平均池化,Conv3D1(
·
)表示输入通道为3、输出通道为C、卷积核尺寸为3
×1×
1的三维卷积层;(2
‑
3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征GAP(
·
)为在时序、空间维度上的全局平均池化操作,Conv3D2(
·
)表示输入通道为3、输出通道为C、卷积核尺寸为1
×1×
1的三维卷积层;(2
‑
4)将短期上下文时空特征A
t
和长期上下文时空特征B
t
通过R
t
=δ(A
t
+B
t
)得到卷积校正张量其中δ(
·
)为ReLU激活函数,R
t
的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。4.如权利要求3所述基于时序校正卷积的视频预测方法,其特征在于,步骤(3)具体是:(3
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。