本发明专利技术公开了一种基于深度学习的视频超分辨率重建方法,其技术关键在于(1)给定同一镜头下连续图像,网络预测更清晰的视频帧图像;(2)采用双向循环神经网络和深度3D反向投影网络;(3)本发明专利技术将两个网络合并成一个网络,此网络作为本发明专利技术的深度学习的视频超分辨率重建的网络(4)训练数据为有标签,将处理的数据视频帧通过此网络得到损失函数。本发明专利技术最终目标是输入低分辨率视频帧经过双向循环网络预测视频帧的时间和空间上的信息,经过3D投影网络再预测视频帧的细节信息,经过反复训练得到一个最优模型,这个模型应用于去除相机的抖动、物体快速运动的模糊、失焦模糊、镜头光学模糊、景深变化、压缩失真和噪声等降质因素的影响。
【技术实现步骤摘要】
一种基于深度学习的视频超分辨率重建方法
本专利技术属于视频处理领域,尤其涉及一种基于深度学习的视频超分辨率重建方法。
技术介绍
视频超分辨率(superresolution,SR)是从一个低分辨率视频得到高分辨率视频的过程,该技术主要被用于对视频空间分辨率的增强,其可以突破原有的系统成像硬件条件的限制,重新获得的高分辨率视频具有更高的分辨率,更多的细节信息,更高质量的画质的特点,是目前获取高精度视频的最有效、最低成本的途径之一。视频获取过程中,受成像条件和成像方式等因素的限制,成像系统通常并不能获取原始场景中的所有信息,在成像过程中会受到震动、变形、模糊、下采样和噪声等诸多因素的影响,从而造成获取的视频质量下降。因此,在不改变成像系统硬件设备的前提下,有效提高所获取的视频质量,一直以来都是成像
所致力解决的核心问题。该项技术的研究具有重要的意义。实际生活中对模糊视频的处理已经迫在眉睫,不管是相机抖动,雾霭,噪声,本身分辨率不够等多种原因,都需要一种有效的方法将不清晰的模糊的视频变为清晰的视频。一种方法是提高视频帧的分辨率,另一种就是提高视频帧的质量(类似photoshop中图像的品质)。由此也产生2个不同的研究方向:一个是超分辨率方向,一个是解模糊方向。超分辨率实现技术的方法有多种,这里我们阐述几个目前最常使用的方法:1)基于插值。该方法是目前超分辨率研究中最直观的方法。通过对该视频的多帧进行比较估计,得到它们之间的相对关系信息,以此获得高分辨率视频帧在非均匀间距采样点上的像素值。然后通过非均匀插值的方法,经过一定的插值,就可以得到一幅高分辨率的视频帧。当然,这样得到的视频帧会存在噪音、模糊等问题,因此可以通过图像恢复技术进行一定的修复。2)基于重建。该方法主要有配准和重建两个关键步骤。在配准时,利用多帧低分辨的图像作为数据一致性的约束,这样可以获得其他低分辨率的图像和参考低分辨图像之间的亚像素精度的相对运动。重建时,可以利用图像的先验知识对目标图像进行优化。该方法常见的算法有迭代方向投影、最大后验概率、凸集投影等。3)基于学习。该方法的前提是认为低分辨率的图像完全拥有用于推理预测其所对应的高分辨率部分的信息。这样就可以对一个低分辨率图像集进行训练,产生一个学习模型,这个模型可以计算出图像高频细节信息。目前有以下几种基于学习的代表性方法:Dong等率先将卷积神经网络引入到图像超分辨率问题当中,设计了基于深度卷积神经网络的图像超分辨率复原方法(Superresolutionusingconvolutionneuralnetwork,SRCNN)。Kim等在SRCNN的基础上借鉴用于图像分类的VGG网络结构,提出极深网络的图像超分辨率复原方法(Accurateimagesuper-resolutionusingverydeepconvolutionalnetwork,VDSR)。与图像分类的极深网络不同,极深网络的超分辨率方法可以用更深网络对低分辨率图像和高分辨率图像之间映射关系建模。VDSR的方法具有20层深层网络,其缺乏层间信息反馈及上下文信息关联,为了解决此问题,Kim等提出了深度递归卷积神经网络的超分辨率方法(Deeplyrecursiveconvolutionaknetwork,DRCN)。Christian等将生成式对抗网络用语SR问题,提出(Photo-RealisticSingleImageSuper-ResolutionUsingaGenerativeAdversarialNetwork,SRGAN)。其出发点是传统方法一般处理的是较小的放大倍数,当放大倍数在4以上时,很容易使得到的结果显得过于平滑,而缺少一些细节信息上的真实感。因此SRGAN使用GAN来生成图像中的细节。BeeLim等提出了用于单一图像超分辨率的增强型深度残差网络(EnhancedDeepResidualNetworksforSingleImageSuper-Resolution,EDSR),是NTIRE2017夺冠论文。虽然已有多种视频超分辨率复原方法,但是实际应用中仍存在一下问题:(1)SR是一个逆问题,它的难点在于细节的恢复。(2)真实多媒体应用中获得的低质量视频往往是多种降质因素并存的复杂降质视频,如相机的抖动、快速运动的物体、失焦模糊、镜头光学模糊、景深变化、压缩失真和噪声等降质因素的影响。
技术实现思路
本专利技术的目的在于针对上面技术的不足,提出一种基于深度学习的视频超分辨率重建方法,利用深度学习技术对低分辨率视频数据帧进行训练得到低分辨率视频帧到高分辨率视频帧之间的映射函数,从而达到超分辨率的效果。本专利技术采用的技术方案是:一种基于深度学习的视频超分辨率重建方法,包括以下步骤:步骤1:训练与测试数据准备:(1)公开数据集采集:采集两组内容相同的公开视频M对,一组为低分辨率视频,另一组为相应的高清视频;(2)私有数据集采集:用不同的手机和不同的摄像机拍摄高清视频,总共采集N组高清视频,高清视频用Hi(i=1、2、…N)表示;将采集的高清视频Hi使用对抗网络生成具有多种相机运动、多种场景深度以及多种运动模糊低分辨率视频,其中生成相机运动Via(a=1、2、…na)组,生成不同场景深度Vib(b=1、2、…nb)组,生成运动模糊Vic(c=1、2、…nc)组,总共采集P(P=a+b+c)组低分辨率视频;然后将内容相同的低分辨率视频与高清视频一一对应,集合成P组视频对。步骤2:视频对数据增强:将采集的M对公开视频和用对抗网络生成的P对视频生成视频帧,把这些视频帧通过平移、旋转图像(0°,90°,180°,270°)和缩放图像(1/4,1/3,1/2)来增加数据;总共收集7×(M+P)组视频对,其中0.9×7×(M+P)组视频对作为训练数据,0.1×7×(M+P)组视频对作为测试数据,且训练数据和测试数据不交叉。步骤3:视频对数据处理:将7×(M+P)对视频转化成连续的图像,用Vit(i=1、2、3…N,t=1、2、…7×(M+P))表示视频的每一帧,把处理的视频图像数据存为HDF5(HierarchicalDataFormat)文件。步骤4:设计网络结构:本专利技术所提出的网络模型的体系结构将连续的3帧作为输入,前向循环神经网络输入正向低分辨率视频帧,反向循环神经网络输入反向低分辨率视频帧,经过双向循环神经网络后是一个卷积,每个卷积块的深度代表卷积后的特征数量,紧接着是放大投影卷积和缩小投影卷积,并将所有的放大投影特征融合,进行卷积输出结果。步骤5:训练:确定深度神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数,随机初始化各层的连接权值W和偏置b,给定学习速率η,选定激活函数RELU,选定损失函数Loss。输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型。步骤6:测试:输入同一镜头下连续帧低分辨率图像到训练好的神经网络模型中,神经网络的输出即为重建后的超分辨率视频帧。步骤7:将得到的连续超分辨率视频帧合成视频。附图说明以下结合附图,对本专利技术的具体实施方式做进一步的详细描述。图1为深度双向循环网络图。图2为深度3D本文档来自技高网...
【技术保护点】
1.一种基于深度学习的视频超分辨率重建方法,其特征在于包括如下步骤:步骤1:训练与测试数据准备:(1)公开数据集采集:采集两组内容相同的公开视频M对,一组为低分辨率视频,另一组为相应的高清视频;(2)私有数据集采集:用不同的手机和不同的摄像机拍摄高清视频,总共采集N组高清视频,高清视频用Hi(i=1、2、…N)表示;将采集的高清视频Hi使用对抗网络生成具有多种相机运动、多种场景深度以及多种运动模糊低分辨率视频,其中生成相机运动Via(a=1、2、…na)组,生成不同场景深度Vib(b=1、2、…nb)组,生成运动模糊Vic(c=1、2、…nc)组,总共采集P(P=a+b+c)组低分辨率视频;然后将内容相同的低分辨率视频与高清视频对应组对,集合成P组视频对;步骤2:视频对数据增强:将采集的M对公开视频和用对抗网络生成的P对视频生成视频帧,把这些视频帧通过平移、旋转图像(0°,90°,180°,270°)和缩放图像(1/4,1/3,1/2)来增加数据;总共收集7×(M+P)组视频对,其中0.9×7×(M+P)组视频对作为训练数据,0.1×7×(M+P)组视频对作为测试数据,且训练数据和测试数据不交叉;步骤3:视频对数据处理:将7×(M+P)对视频转化成连续的图像,用Vit(i=1、2、3…N,t=1、2、…7×(M+P))表示视频的每一帧,把处理的视频图像数据存为HDF5(Hierarchical Data Format)文件;步骤4:设计网络结构:本专利技术所提出的网络模型的体系结构将连续的3帧作为输入,前向循环子网络输入正向低分辨率视频帧Vit,所述正向视频帧从V1t帧到VNt帧;反向循环子网络输入反向低分辨率视频帧Vit,所述反向视频帧从VNt帧到V1t帧;选定前向子网络和反向子网络隐藏层深度为n,双向循环神经网络后连接一个3D卷积层,每个卷积块的深度代表卷积后的特征数量;紧接着是放大投影卷积单元和缩小投影卷积单元,选定放大投影单元深度为f,选定缩小投影单元深度为f,所述放大投影单元依次是将缩小投影单元输出的结果作为3D卷积的输入,输出为Lt‑1,接着进行3D反卷积,输出为H0t,再一次进行3D卷积,输出为Lt,Lt与Lt‑1相减得到Et,Et进行3D卷积得到H1t,H1t与H0t相加得到Ht;所述缩小投影单元依次是将放大投影单元输出的结果作为3D卷积的输入,输出为Ht1,再一次进行3D卷积输出为L0t,紧接着进行3D反卷积,输出为H0t,H0t与Ht1相减得到Et,Et进行3D卷积得到L1t,L1t与L0t相加得到Lt;经过f个放大投影单元和f个缩小投影单元之后是连接层,连接层将所有放大投影单元输出的特征融合,将融合的特征进行3D卷积,输出结果;步骤5:训练:选定深度神经网络输入层节点数q个、输出层节点数e个、隐藏层数r层和隐藏层节点数t个、batch_size大小为u,随机初始化各层的连接权值W和偏置b,给定学习速率η,选定激活函数RELU,选定损失函数Loss;选定损失函数Loss,在一种基于深度学习的视频超分辨率重建方法研究中采用的训练集为有标签数据,所述标签为低分辨率视频帧所对应的原始高分辨率视频帧;采用欧式距离的计算方法,当前视频帧图像矩阵有W×H个元素(像素点),用W×H个元素值(A1,A2,...,AW×H)构成原始高分辨率视频帧图像的一维向量,用(a1,a2,...,aW×H)构成重建高分辨率视频帧图像的一维向量,然后利用数学上的欧式距离公式计算这两个向量之间的距离,距离越小就说明两幅图像越相似;反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型;步骤6:测试:对用于测试的低分辨率视频进行镜头分割,把同一镜头的低分辨率视频输入到训练好的神经网络模型中,模型的输出即为重建后的超分辨率视频。...
【技术特征摘要】
1.一种基于深度学习的视频超分辨率重建方法,其特征在于包括如下步骤:步骤1:训练与测试数据准备:(1)公开数据集采集:采集两组内容相同的公开视频M对,一组为低分辨率视频,另一组为相应的高清视频;(2)私有数据集采集:用不同的手机和不同的摄像机拍摄高清视频,总共采集N组高清视频,高清视频用Hi(i=1、2、…N)表示;将采集的高清视频Hi使用对抗网络生成具有多种相机运动、多种场景深度以及多种运动模糊低分辨率视频,其中生成相机运动Via(a=1、2、…na)组,生成不同场景深度Vib(b=1、2、…nb)组,生成运动模糊Vic(c=1、2、…nc)组,总共采集P(P=a+b+c)组低分辨率视频;然后将内容相同的低分辨率视频与高清视频对应组对,集合成P组视频对;步骤2:视频对数据增强:将采集的M对公开视频和用对抗网络生成的P对视频生成视频帧,把这些视频帧通过平移、旋转图像(0°,90°,180°,270°)和缩放图像(1/4,1/3,1/2)来增加数据;总共收集7×(M+P)组视频对,其中0.9×7×(M+P)组视频对作为训练数据,0.1×7×(M+P)组视频对作为测试数据,且训练数据和测试数据不交叉;步骤3:视频对数据处理:将7×(M+P)对视频转化成连续的图像,用Vit(i=1、2、3…N,t=1、2、…7×(M+P))表示视频的每一帧,把处理的视频图像数据存为HDF5(HierarchicalDataFormat)文件;步骤4:设计网络结构:本发明所提出的网络模型的体系结构将连续的3帧作为输入,前向循环子网络输入正向低分辨率视频帧Vit,所述正向视频帧从V1t帧到VNt帧;反向循环子网络输入反向低分辨率视频帧Vit,所述反向视频帧从VNt帧到V1t帧;选定前向子网络和反向子网络隐藏层深度为n,双向循环神经网络后连接一个3D卷积层,每个卷积块的深度代表卷积后的特征数量;紧接着是放大投影卷积单元和缩小投影卷积单元,选定放大投影单元深度为f,选定缩小投影单元深度为f,所述放大投影单元依次是将缩小投影单元...
【专利技术属性】
技术研发人员:章东平,张香伟,倪佩青,
申请(专利权)人:中国计量大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。