基于时序校正卷积的视频预测方法技术

技术编号:34187087 阅读:17 留言:0更新日期:2022-07-17 14:30
本发明专利技术公开了基于时序校正卷积的视频预测方法。本发明专利技术方法对给定的原始视频进行采样预处理获得视频帧序列,并将该序列输入时序上下文融合模块,得到融合外观特征图和融合时空编码特征图,同时将该序列输入时序卷积校正模块得到卷积校正张量;然后,将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图;最后将预测时空编码特征图通过时空记忆解码器进行解码,输出预测视频帧序列。本发明专利技术方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正,还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模,从而生成更高视觉质量的预测视频帧序列。序列。序列。

Video prediction method based on timing correction convolution

【技术实现步骤摘要】
基于时序校正卷积的视频预测方法


[0001]本专利技术属于计算机视觉
,尤其是视频理解中的视频预测领域,涉及一种基于时序校正卷积的视频预测方法。

技术介绍

[0002]近几年,随着移动互联网的飞速发展和视频感知设备的广泛普及,海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题,即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下,生成未来时刻的视频帧,可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如,雷达回波图像能反映当地的降雨情况,视频预测方法通过刻画雷达回波历史图像的潜在变化规律,生成能准确反映短期气象变化趋势的视频,提升灾害天气的短期预报精度。此外,根据城市交通GPS数据,视频预测能够对城市的高峰期交通状况进行预判,从而帮助用户规划更合理的驾驶路线。
[0003]传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等,但这些方法难以表示真实复杂场景视频的潜在结构。近几年来,深度学习在计算机视觉领域获得巨大的成功,特别是在视频理解领域较大地提升了任务性能,其已被应用于视频预测模型的研发。例如,为了对视频中的时空特征进行建模,研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点,提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM:Convolutional Long Short

Term Memory),以增强视频数据的表征与预测能力。进一步,为了刻画预测视频帧的底层细节特征(如纹理、边缘),现有工作在ConvLSTM的基础上增加时空记忆单元,实现更有效的时空特征建模。但是,这些方法容易出现梯度消失问题,难以捕捉距离较远的历史视频帧与当前视频帧之间的长时外观特征依赖关系。为此,后续工作重用历史时空特征,即利用当前帧的外观特征和历史帧的时空特征对当前时空特征进行更新,以缓解梯度消失现象,从而增强模型对长时依赖关系捕捉的能力。
[0004]上述方法存在的不足点主要表现在三个方面:1)均使用相同的卷积核作用于对不同时刻视频帧的每个区域,然而视频序列中的空间特征随时间而变化,不同时刻采用相同参数的卷积核将妨碍模型对空间特征的刻画;2)为应对不同的视频帧采用的自适应调整卷积核参数方法(称为动态卷积),需要较大的计算开销以校正高维特征表示使之适应当前视频帧;3)若当前视频帧包含上下文无关的目标(如新物体)时,使得该帧的外观特征和历史帧的时空特征不相似,导致难以有效利用历史时空特征。因此,为了缓解现有方法对空间特征刻画不充分、难以有效利用历史时空特征和计算开销大的问题,迫切需要一种能够根据不同时刻的输入视频帧自适应地学习卷积核参数并能更有效利用历史时空特征的方法,从而提高预测视频的清晰度。

技术实现思路

[0005]本专利技术针对现有技术的不足,提供一种基于时序校正卷积的视频预测方法,一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数,另一方面能利用时序上下文融合机制加强对历史时空特征的利用,并使当前视频帧和历史时空特征进行充分交互,以挖掘上下文无关帧图像和历史时空特征之间的潜在关系,从而生成画面更清晰的预测视频帧。
[0006]本专利技术方法首先获取原始视频数据集合,依次进行如下操作:
[0007]步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
[0008]步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
[0009]步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
[0010]步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
[0011]步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
[0012]进一步,步骤(1)具体是:
[0013](1

1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列其中,表示实数域,X
t
表示第t帧,t=1,2,

,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
[0014](1

2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5
×
5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
[0015](1

3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将X
t
和第t

3个时空编码特征图H
t
‑3经过卷积和逐元素相乘操作融合,得到强化外观特征图X

t
=2σ(Conv1(H
t
‑3))

X
t
,符号

表示逐元素乘积,σ(
·
)表示Sigmoid激活函数;再将第t

1个时空编码特征图H
t
‑1和强化外观特征图X

t
经过卷积和逐元素相乘操作融合,得到强化时空编码特征图H

t
‑1=2σ(Conv2(X

t
))

H
t
‑1,Conv1(
·
)、Conv2(
·
)表示卷积核大小为5
×
5的二维卷积层;
[0016](1

4)将强化外观特征图X

t
和第t

2个时空编码特征图H
t
‑2经过卷积和逐元素相乘操作融合,得到融合外观特征图X

t
=2σ(Conv1(H
t
‑2))

X

t
;再将融合外观特征图X

t
与强化时空编码特征图H

t
‑1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图H

t
‑1=2σ(Conv2(X

t
))

H

t
‑1。
[0017]更进一步,步骤(2)所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于时序校正卷积的视频预测方法,其特征在于,首先获取原始视频数据集合,然后依次进行如下操作:步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。2.如权利要求1所述基于时序校正卷积的视频预测方法,其特征在于,步骤(1)具体是:(1

1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列其中,表示实数域,X
t
表示第t帧,t=1,2,

,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;(1

2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5
×
5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;(1

3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将X
t
和第t

3个时空编码特征图H
t
‑3经过卷积和逐元素相乘操作融合,得到强化外观特征图X

t
=2σ(Conv1(H
t
‑3))

X
t
,符号

表示逐元素乘积,σ(
·
)表示Sigmoid激活函数;再将第t

1个时空编码特征图H
t
‑1和强化外观特征图X
t

经过卷积和逐元素相乘操作融合,得到强化时空编码特征图H

t
‑1=2σ(Conv2(X

t
))

H
t
‑1,Conv1(
·
)、Conv2(
·
)表示卷积核大小为5
×
5的二维卷积层;(1

4)将强化外观特征图X

t
和第t

2个时空编码特征图H
t
‑2经过卷积和逐元素相乘操作融合,得到融合外观特征图X

t
=2σ(Conv1(H
t
‑2))

X

t
;再将融合外观特征图X

t
与强化时空编码特征图H

t
‑1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图H

t
‑1=2σ(Conv2(X

t
))

H

t
‑1。3.如权利要求2所述基于时序校正卷积的视频预测方法,其特征在于,步骤(2)所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量,具体是:(2

1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足
5帧时,长短期视频帧序列元素由全0初始化补全;(2

2)将短期历史视频帧序列在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征Pooling(
·
)为空间维度上的全局平均池化,Conv3D1(
·
)表示输入通道为3、输出通道为C、卷积核尺寸为3
×1×
1的三维卷积层;(2

3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征GAP(
·
)为在时序、空间维度上的全局平均池化操作,Conv3D2(
·
)表示输入通道为3、输出通道为C、卷积核尺寸为1
×1×
1的三维卷积层;(2

4)将短期上下文时空特征A
t
和长期上下文时空特征B
t
通过R
t
=δ(A
t
+B
t
)得到卷积校正张量其中δ(
·
)为ReLU激活函数,R
t
的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。4.如权利要求3所述基于时序校正卷积的视频预测方法,其特征在于,步骤(3)具体是:(3

【专利技术属性】
技术研发人员:李平张陈翰王涛
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1