基于深度学习的端到端视频压缩方法、系统及存储介质技术方案

技术编号：24863635 阅读：43 留言：0更新日期：2020-07-10 19:14

本申请实施例中提供了一种基于深度学习的端到端视频压缩方法、系统及存储介质，本申请的基于深度学习的端到端视频压缩方法通过将目标视频分为多个图像组；然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码；关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；其次，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；最后，非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比，可以实现端到端全局优化视频编码器，在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的端到端视频压缩方法、系统及存储介质
本申请属于数字信号处理
，具体地，涉及一种基于深度学习的端到端视频压缩方法、系统及存储介质。
技术介绍
视频压缩，也称视频编码，其目的是消除视频信号间存在的冗余信息。随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高，原始视频信源的数据量已使现有传输网络带宽和存储资源无法承受，因而经编码压缩后的视频才是宜在网络中传输中的信息，视频编码技术已成为目前国内外学术研究和工业应用的热点之一。近年来基于深度神经网络的图像编码方法成为编码领域的研究热点，它通过端到端建模自编码器(Auto-encoder)结构，优化图像重建损失函数，并利用熵估计模型近似估算自编码器结构中瓶颈层(BottleneckLayer)的码字分布实现率失真优化。在此基础之上，熵估计模型被不断改进提升，基于混合高斯模型以及基于高斯超先验分布熵估计模型的概率估计模型被提出，并结合基于自回归模型(Auto-regressive)的PixelCNN框架建立瓶颈层码字的上下文模型。这一类端到端图像压缩的目标函数可以表示为：其中，x和分别代表原始像素与瓶颈层未量化像素，y和分别代表瓶颈层未量化及量化后的码字，C为常数。端到端神经网络对于视频压缩有着重要的意义。传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪，在面临更高效的视频压缩时遭遇了新的挑战。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对...

【技术保护点】
1.一种基于深度学习的端到端视频压缩方法，其特征在于，包括以下步骤：/n将目标视频分为多个图像组；/n对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码；/n所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；/n基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；/n所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。/n

【技术特征摘要】
1.一种基于深度学习的端到端视频压缩方法，其特征在于，包括以下步骤：
将目标视频分为多个图像组；
对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码；
所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；
基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；
所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

2.根据权利要求1所述的基于深度学习的端到端视频压缩方法，其特征在于，所述基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码，具体包括：
基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息；
根据所述运动场信息得到非关键帧的帧间预测信息；
根据所述非关键帧的帧间预测信息以及所述非关键帧进行预测残差编码。

3.根据权利要求1所述的基于深度学习的端到端视频压缩方法，其特征在于，所述对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码，具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架，所述自编码器的瓶颈层进行上下文建模。

4.根据权利要求3所述的基于深度学习的端到端视频压缩方法，其特征在于，所述帧内编码框架在训练时的目标函数公式为：

其中，x为输入图像，为输出图像；
其中，y为根据图像编码的隐变量，y＝Enc(x)；隐变量y的先验分布为服从均值μ，方差为σ的正态分布，y～N(μ，σ)；
其中，均值μ和方差σ是根据超先验自编码器通过端到端学习得到，具体为：
z＝HyperEnc(y)；

其中，为经过量化后的超先验自编码器的码字，为超先验正太分布的初步参数，采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。

5.根据权利要求1所述的基于深度学习的端到端视频压缩方法，其特征在于，所述环路滤波网络基于全卷积网络，所述环路滤波网络采用损失函数L2，所述环路滤波网络具体公式为：

其中，xrec表示输入的已编码图像，x为已编码图像对应的真实标签，n表示帧数。

6.根据权利要求2所述的基于深度学习的端到端视频压缩方法，其特征在于，所述基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信...

【专利技术属性】
技术研发人员：马思伟，贾川民，赵政辉，王苫社，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人