当前位置: 首页 > 专利查询>重庆大学专利>正文

基于补丁匹配与合成的视频去模糊方法技术

技术编号:32527625 阅读:10 留言:0更新日期:2022-03-05 11:20
本发明专利技术提出一种基于补丁匹配与合成的视频去模糊方法,本方法设计了多尺度补丁匹配模块和补丁合成模块,首先利用多尺度补丁匹配模块将输入的多个视频帧特征离散为不同尺度、部分重叠的特征补丁,然后从特征补丁集合中匹配相似、可用的锐利补丁,为目标特征补丁的复原提供关键的纹理细节。然后利用补丁合成模块融合多尺度补丁匹配模块得到的锐利补丁,帮助目标补丁的去模糊。本方法通过直接匹配、融合视频帧序列中任意相似补丁来获取视频帧间时空依赖,从而有效改善视频去模糊的效果。从而有效改善视频去模糊的效果。从而有效改善视频去模糊的效果。

【技术实现步骤摘要】
基于补丁匹配与合成的视频去模糊方法


[0001]本专利技术属于视频图像处理


技术介绍

[0002]现今各领域(如安防领域的视频监控、卫星的气象监控等)随时随刻都产生着大量的视频数据。但由于拍摄过程中设备抖动、对象运动、景深变换等原因,所得到的视频不可避免包含不同程度的模糊,这严重影响了视频的后续处理任务(如视觉跟踪、同步定位与建图、3D重建等)。因此,视频去模糊技术被广泛地应用到天文观测、医学成像、视频多媒体、刑事侦察等领域。目前基于深度学习的视频去模糊方法受网络参数量与感受野限制,但存在视频复原效果较差及复原耗时等问题。
[0003]由于模糊视频的连续特性,对目标的连续拍摄过程中,部分视频帧存在显著边缘纹理信息,而这些锐利信息对于相似模糊区域的去模糊处理是至关重要的。可见,准确有效的利用视频帧间的锐利纹理,是视频去模糊的关键所在。从技术上讲,相邻视频帧间相应的锐利纹理有利于视频模糊帧中的模糊目标的恢复,也就是说,捕获视频的长距离时空依赖非常重要。
[0004]为了利用视频的长距离时空依赖性,现有技术提出了多种有效的帧间像素映射建模方法,如3D卷积、循环神经网络、帧间对齐等方法。其中,3D卷积与循环神经网络通过卷积自身的时空特性,聚合相邻帧的信息,可实现视频去模糊。然而,这种方法受网络参数量限制,在学习较远处视频帧的图像信息时,计算量大,耗时长。基于帧间对齐的方法,对齐精度越高,捕获的视频时空依赖越长。但由于视频中往往目标运动复杂且细节丰富,很难准确估计目标像素点运动轨迹,因此,对齐精度低,也就是这种方法捕获的视频时空依赖短。
[0005]通过分析,专利技术人认为在视频中目标的细节丰富或运动复杂时,现有方法存在的问题是:1、有效捕获视频长距离时空依赖困难,进而难以利用帧间的锐利纹理信息。因此,限制视频去模糊的质量。2、现有网络在学习远处帧信息时受参数量限制,计算量庞大、耗时长。

技术实现思路

[0006]针对视频帧含有丰富细节或目标运动复杂时,现有方法不能有效的捕获视频长距离依赖,进而难以利用帧间的锐利纹理信息,导致视频帧去模糊效果不佳问题,本专利技术提出一种基于补丁匹配与合成的视频去模糊方法,旨在有效利用视频长距离时空依赖,达到快速、有效的视频去模糊。
[0007]本专利技术的技术方案如下:
[0008]一种基于补丁匹配与合成的视频去模糊方法,该方法首先设计了一个多尺度补丁匹配模块,该模块将输入的多个视频帧特征离散为不同尺度、部分重叠的特征补丁。再从特征补丁集合中匹配相似、可用的锐利补丁,为目标特征补丁的去模糊提供关键的纹理细节。其次,设计了补丁合成模块,该模块用于融合多尺度补丁匹配模块得到的锐利补丁,帮助目
标补丁的去模糊。该方法通过直接匹配、融合视频帧序列中任意相似补丁,可很好的地获取视频帧间的时空依赖,从而有效利用帧间的锐利纹理信息,视频去模糊效果可得到很大改善。
[0009]本专利技术方法的具体步骤如下:
[0010](1)通过编解码网络初步提取视频帧特征,所得特征作为多尺度补丁匹配模块的输入。
[0011](2)在多尺度补丁匹配模块中,首先利用三个不同参数的可变形卷积对输入特征进行卷积处理,提取出能够作为视频帧关键基准的查询特征、键特征与值特征。然后在通道维度将特征均分,分别在不同尺度下进行补丁匹配。在不同尺度下匹配到相似、可用的锐利补丁后,再将其聚合为锐利特征作为补丁合成模块的输入。通过多尺度补丁匹配模块准确有效的获取视频帧间长距离时空依赖。
[0012](3)将不同尺度下的锐利特征与值特征作为补丁合成模块的输入,将锐利特征与值特征有效融合,同时在值特征指导下合成为融合特征。补丁合成模块可有效利用相关锐利特征,抑制补丁匹配操作带来的伪影。最后将不同尺度所得的融合特征聚合,形成视频图像复原特征,作为补丁合成模块的最终输出,用于复原视频图像。
[0013]与现有技术相比,本专利技术的优点是:
[0014]本专利技术方法提出的直接匹配、融合视频帧序列中任意相似补丁的策略,可以不受视频帧中目标的丰富细节和复杂运动的限制,可以有效利用视频长距离时空依赖,从而得到更清晰的视频。
附图说明
[0015]图1:本专利技术方法的基本框架图;
[0016]图2:本专利技术方法中多尺度补丁匹配模块的网络结构图;
[0017]图3:本专利技术方法中补丁合成模块的网络结构图;
[0018]图4:为视频长距离时空依赖关系图;
[0019]图5:为利用本专利技术方法对模糊视频进行复原的结果图。
具体实施方式
[0020]参见图1,本专利技术的网络结构分三个层级,利用由细到粗的空间金字塔匹配对视频帧进行去模糊。第一层的输入是4分割后的多张视频帧,第二层输入为2分割后的多张视频帧,第三层是原始的多张视频帧。具体地说,低层次输入经过编码、多尺度补丁匹配模块和补丁合成模块等后续处理后,使用特征图连接等操作加入高层级图像特征,进而实现由细到粗复原的金字塔架构。每一层级包括编解码网络、多尺度补丁匹配模块和补丁合成模块。编码网络用于初步提取视频图像特征。其中的多尺度补丁匹配模块是本专利技术的核心部分,用于准确有效的获取视频帧间长距离时空依赖。补丁合成模块用于有效利用相关锐利特征,抑制补丁匹配操作带来的伪影。最后,利用解码网络重构视频,获得去模糊后的视频帧。
[0021]以下的实施例,详细说明多尺度补丁匹配模块与补丁合成模块的具体处理步骤:
[0022]1、多尺度补丁匹配模块:
[0023]1)如图2所示,以编码器提取多张视频图像特征做为输入,采用三个结构相同但参
数不同的可变形卷积分别提取输入视频帧特征的深层特征信息,生成能代表视频帧关键基准信息的查询特征Q、键特征K、值特征V。
[0024]2)将1)中所得查询特征Q、键特征K、值特征V在特征通道维度离散,用于不同尺度下的补丁匹配。在不同尺度下,通过展开操作从每一帧的查询特征中提取形状为patch_size的空间补丁,并得到形状为(B,patch_size
×
C
×
T,N)的查询补丁集。执行类似操作以获取键补丁集与值补丁集。其中B为批处理大小,T为帧序列长度,C为通道数,patch_size为特征补丁空间大小,N为补丁数量。通过上述展开操作,将查询特征补丁与键特征补丁重塑为一维向量,之后通过矩阵乘法计算出补丁间的相似度。其中,第i补丁与第j补丁之间的相似度s
i,j
表示为:
[0025][0026]其中,1≤i,j≤N,q
i
表示第i块查询补丁,k
j
表示第j块键补丁,“·”表示矩阵相乘。相似度通过每个向量的维数归一化,避免了后续的softmax函数造成的小梯度。
[0027]所有补丁对应的关注权值由softmax函数计算:
[0028][0029]其中,r
i,j
表示对于第i补丁,第j补丁的关注权重。
[0030]3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于补丁匹配与合成的视频去模糊方法,其特征在于,包括以下步骤:(1)通过编解码网络初步提取图像特征,作为多尺度补丁匹配模块的输入特征;(2)在多尺度补丁匹配模块中,首先利用三个不同参数的可变形卷积对所述输入特征进行卷积处理,提取出能够作为图像关键基准的查询特征、键特征与值特征;然后在通道维度将特征均分,分别在不同尺度下进行补丁匹配;在不同尺度下匹配到相似、可用的锐利补丁后,再将其聚合为锐利特征;(3)以不同尺度下的锐利特征与值特征作为补丁合成模块的输入,将锐利特征与值特征有效融合,同时在值特征指导下合成融合特征,最后将不同尺度所得融合特征聚合形成视频图像复原特征,作为补丁合成模块的最终输出,用于复原视频图像。2.根据权利要求1所述的基于补丁匹配与合成的视频去模糊方法,其特征在于,所述步骤3中,在不同尺度下匹配到相似、可用的锐利补丁后的具体方法是:通过展开操作,将查询特征补丁与键特征补丁重塑为一维向量,计算出补丁间的相似度s
i,j
,其中,1≤i,j≤N,N为图像特征离散为补丁后的补丁数量,s
i,j
表示第i补丁与第j补丁之间的相似度,q
i
表示第i块查询补丁,k
j
表示第j块键补丁,“·”表示矩阵相乘,C为通道数,patch_size为特征补丁空间大小。3.根据权利要求1所述的基于补丁匹配与合成的视频去模糊方法,其特征在于,所述步骤2中对锐利特征的聚合是:对所有空间补丁的深度对应进行建模,然后通过相关值补丁的加权总和,获得每个补丁匹配后的锐利补丁:其中,o
i
表示图像中第i个补丁匹配后所得的锐利补丁,v
j
表示第j个值...

【专利技术属性】
技术研发人员:张超李伟红杨利平王欣然侯俊岭
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1