当前位置: 首页 > 专利查询>北京大学专利>正文

基于深度学习的端到端视频压缩方法、系统及存储介质技术方案

技术编号:24863635 阅读:43 留言:0更新日期:2020-07-10 19:14
本申请实施例中提供了一种基于深度学习的端到端视频压缩方法、系统及存储介质,本申请的基于深度学习的端到端视频压缩方法通过将目标视频分为多个图像组;然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;其次,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;最后,非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比,可以实现端到端全局优化视频编码器,在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。

【技术实现步骤摘要】
基于深度学习的端到端视频压缩方法、系统及存储介质
本申请属于数字信号处理
,具体地,涉及一种基于深度学习的端到端视频压缩方法、系统及存储介质。
技术介绍
视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高,原始视频信源的数据量已使现有传输网络带宽和存储资源无法承受,因而经编码压缩后的视频才是宜在网络中传输中的信息,视频编码技术已成为目前国内外学术研究和工业应用的热点之一。近年来基于深度神经网络的图像编码方法成为编码领域的研究热点,它通过端到端建模自编码器(Auto-encoder)结构,优化图像重建损失函数,并利用熵估计模型近似估算自编码器结构中瓶颈层(BottleneckLayer)的码字分布实现率失真优化。在此基础之上,熵估计模型被不断改进提升,基于混合高斯模型以及基于高斯超先验分布熵估计模型的概率估计模型被提出,并结合基于自回归模型(Auto-regressive)的PixelCNN框架建立瓶颈层码字的上下文模型。这一类端到端图像压缩的目标函数可以表示为:其中,x和分别代表原始像素与瓶颈层未量化像素,y和分别代表瓶颈层未量化及量化后的码字,C为常数。端到端神经网络对于视频压缩有着重要的意义。传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪,在面临更高效的视频压缩时遭遇了新的挑战。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对应保证视频压缩框架的整体率失真性能仍然具有很大的挑战,因此设计开发一种利用深度神经网络实现端到端视频编码的同时可以保证较好的率失真性能的视频压缩方法及系统显得是至关重要。
技术实现思路
本专利技术提出了一种基于深度学习的端到端视频压缩方法、系统及存储介质,旨在解决现有技术中视频压缩编码中无法保证较好率失真性能的问题。根据本申请实施例的第一个方面,提供了一种基于深度学习的端到端视频压缩方法,包括以下步骤:将目标视频分为多个图像组;对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。可选地,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息;根据运动场信息得到非关键帧的帧间预测信息;根据非关键帧的帧间预测信息以及非关键帧进行预测残差编码。可选地,对图像组中的关键帧进行端到端帧内编码得到关键帧编码,具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架,自编码器的瓶颈层进行上下文建模。可选地,帧内编码框架在训练时的目标函数公式为:其中,x为输入图像,为输出图像;其中,y为根据图像编码的隐变量,y=Enc(x);隐变量y的先验分布为服从均值μ,方差为σ的正态分布,y~N(μ,σ);其中,均值μ和方差σ是根据超先验自编码器通过端到端学习得到,具体为:z=HyperEnc(y);其中,为经过量化后的超先验自编码器的码字,为超先验正太分布的初步参数,采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。可选地,环路滤波网络基于全卷积网络,环路滤波网络采用损失函数L2,环路滤波网络具体公式为:其中,xrec表示输入的已编码图像,x为已编码图像对应的真实标签,n表示帧数。可选地,基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息,具体包括:当关键帧重建帧只有一帧时,运动场信息需要通过自编码器编码得到,并写入码流中,运动场信息flow1的计算公式为:flow1=Flownet(ft-1);当关键帧重建帧数目大于一帧时,取相对当前非关键帧最临近的两帧重建帧得到运动场信息,此时运动场信息无需写入码流中,运动场信息flow2的计算公式为:flow2=Flownet(ft-2,ft-1);其中,f1为可使用的关键帧重建帧,Flownet为光流预测网络。可选地,根据运动场信息得到非关键帧的帧间预测信息,具体包括:根据运动场信息的视频运动特征及解码缓存区的重建帧通过插值及图像处理技术生成非关键帧的帧间预测信号,帧间预测信号Framepred计算公式为:Framepred=Warp(ft-1,flow);其中,Warp为多项式插值方法,f1为可使用的关键帧重建帧,flow为非关键帧的运动场信息。可选地,根据非关键帧的帧间预测信息以及非关键帧计算预测残差以及预测残差编码,具体包括:预测残差FrameResi计算公式为:FrameResi=Frame-Framepred;其中,Frame为当前非关键帧的原始信号,Framepred为帧间预测信号;预测残差FrameResi通过由全卷积网络构成的自编码器结构进行压缩编码,其瓶颈层被熵编码后写入码流中。根据本申请实施例的第二个方面,提供了一种基于深度学习的端到端视频压缩系统,具体包括:图像组模块:用于将目标视频分为多个图像组;关键帧编码模块:用于对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧重建帧模块:用于将关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;非关键帧编码模块:用于基于解码缓冲区中的关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;非关键帧重建帧模块:用于将非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。根据本申请实施例的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现基于深度学习的端到端视频压缩方法。采用本申请实施例中的基于深度学习的端到端视频压缩方法、系统及存储介质,通过将目标视频分为多个图像组;然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;其次,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;最后,非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比,可以实现端到端全局优化视频编码器,在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1中示出了根据本申请实施例的一种本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的端到端视频压缩方法,其特征在于,包括以下步骤:/n将目标视频分为多个图像组;/n对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码;/n所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;/n基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;/n所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。/n

【技术特征摘要】
1.一种基于深度学习的端到端视频压缩方法,其特征在于,包括以下步骤:
将目标视频分为多个图像组;
对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码;
所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。


2.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:
基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息;
根据所述运动场信息得到非关键帧的帧间预测信息;
根据所述非关键帧的帧间预测信息以及所述非关键帧进行预测残差编码。


3.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码,具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架,所述自编码器的瓶颈层进行上下文建模。


4.根据权利要求3所述的基于深度学习的端到端视频压缩方法,其特征在于,所述帧内编码框架在训练时的目标函数公式为:



其中,x为输入图像,为输出图像;
其中,y为根据图像编码的隐变量,y=Enc(x);隐变量y的先验分布为服从均值μ,方差为σ的正态分布,y~N(μ,σ);
其中,均值μ和方差σ是根据超先验自编码器通过端到端学习得到,具体为:
z=HyperEnc(y);






其中,为经过量化后的超先验自编码器的码字,为超先验正太分布的初步参数,采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。


5.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述环路滤波网络基于全卷积网络,所述环路滤波网络采用损失函数L2,所述环路滤波网络具体公式为:



其中,xrec表示输入的已编码图像,x为已编码图像对应的真实标签,n表示帧数。


6.根据权利要求2所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信...

【专利技术属性】
技术研发人员:马思伟贾川民赵政辉王苫社
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1