【技术实现步骤摘要】
一种基于深度学习的视频阴影检测与消除方法
[0001]本专利技术涉及一种基于深度学习的视频阴影检测与消除方法,尤其是可以仅用给定的RGB视频数据快速检测视频中阴影信息并将该阴影消除。本专利技术属于视频处理
,尤其涉及一种针对阴影对象的视频检测、削除方法。
技术介绍
[0002]阴影作为一种普遍的自然光学现象,在日常生活场景中随处可见,同时,它也广泛存在于图像以及视频等信息传播介质中。它是由不透明物体遮挡光源照射的光线从而在原本正常光照下的区域形成光照衰减的现象,导致该区域与其他区域形成一定程度的明暗变化。视频中的阴影信息会对视频的目标检测与识别、实例分割等多项视觉任务产生不良的影响。因此,如何对视频中的阴影进行检测与消除对后期视频任务处理起到极为关键的作用,是亟待解决的问题。
[0003]视频上的阴影检测与消除主要是指在给定的输入视频文件当中,将视频中的阴影部分检测出来,并且能够将其阴影部分的光照信息修复成与没有阴影部分的光照一致,从而实现阴影消除效果。目前,视频阴影检测与消除算法大多使用传统数学建模的方式,通过利用阴影特征信息对视频帧中的阴影进行处理,由于已有方法的数学模型复杂度有限,这些方法处理的场景都相对单一,且处理结果与数学模型自身的构建具有强相关性,阴影的状态变化对结果影响很大。
技术实现思路
[0004]针对现有技术存在的问题,本专利技术提供了一种基于深度学习的视频阴影检测与消除方法,旨在解决现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题而提供一种有 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的视频阴影检测与消除方法,其特征在于,包括以下步骤:步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息;步骤S2:构建一个时空一致性模块,通过采用非局部双向GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果;步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果;步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC
‑
Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果;步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性;步骤S7:构建纹理保留模块,利用小波池化与非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的;步骤S8:构建视频帧生成损失、光流生成损失、视频一致性损失以及视频帧感知损失等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。2.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:步骤S1的网络由空间特征提取器和像素级分类器组成;空间特征提取器基于ResNet
‑
50模型构建,使用了ResNet
‑
50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块,同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息,空间特征提取器利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数;像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3
×
3卷积层,获取初始视频阴影检测结果。3.根据权利要求2中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:步骤S2的具体过程如下:步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接;步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模,令x1,x2,...,x
T
表示为
ConvGRU的输入,h1,h2,...,h
T
表示为与之对应的隐藏状态,一个ConvGRU模块由一个重置门R
t
和一个更新门Z
t
组成;通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘;基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:Z
t
=σ(W
z
x
t
+U
z
h
t
‑1)R
t
=σ(W
r
x
t
+U
r
h
t
‑1))其中,
⊙
为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵;为了简单起见,公式中省略了偏差项,为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理;计算公式如下:忆,加强视频序列信息的时空处理;计算公式如下:忆,加...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。