【技术实现步骤摘要】
基于深度学习的端到端视频压缩方法、系统及存储介质
本申请属于数字信号处理
,具体地,涉及一种基于深度学习的端到端视频压缩方法、系统及存储介质。
技术介绍
视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高,原始视频信源的数据量已使现有传输网络带宽和存储资源无法承受,因而经编码压缩后的视频才是宜在网络中传输中的信息,视频编码技术已成为目前国内外学术研究和工业应用的热点之一。近年来基于深度神经网络的图像编码方法成为编码领域的研究热点,它通过端到端建模自编码器(Auto-encoder)结构,优化图像重建损失函数,并利用熵估计模型近似估算自编码器结构中瓶颈层(BottleneckLayer)的码字分布实现率失真优化。在此基础之上,熵估计模型被不断改进提升,基于混合高斯模型以及基于高斯超先验分布熵估计模型的概率估计模型被提出,并结合基于自回归模型(Auto-regressive)的PixelCNN框架建立瓶颈层码字的上下文模型。这一类端到端图像压缩的目标函数可以表示为:其中,x和分别代表原始像素与瓶颈层未量化像素,y和分别代表瓶颈层未量化及量化后的码字,C为常数。端到端神经网络对于视频压缩有着重要的意义。传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪,在面临更高效的视频压缩时遭遇了新的挑战。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对 ...
【技术保护点】
1.一种基于深度学习的端到端视频压缩方法,其特征在于,包括以下步骤:/n将目标视频分为多个图像组;/n对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码;/n所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;/n基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;/n所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。/n
【技术特征摘要】
1.一种基于深度学习的端到端视频压缩方法,其特征在于,包括以下步骤:
将目标视频分为多个图像组;
对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码;
所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。
2.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:
基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息;
根据所述运动场信息得到非关键帧的帧间预测信息;
根据所述非关键帧的帧间预测信息以及所述非关键帧进行预测残差编码。
3.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码,具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架,所述自编码器的瓶颈层进行上下文建模。
4.根据权利要求3所述的基于深度学习的端到端视频压缩方法,其特征在于,所述帧内编码框架在训练时的目标函数公式为:
其中,x为输入图像,为输出图像;
其中,y为根据图像编码的隐变量,y=Enc(x);隐变量y的先验分布为服从均值μ,方差为σ的正态分布,y~N(μ,σ);
其中,均值μ和方差σ是根据超先验自编码器通过端到端学习得到,具体为:
z=HyperEnc(y);
其中,为经过量化后的超先验自编码器的码字,为超先验正太分布的初步参数,采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。
5.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述环路滤波网络基于全卷积网络,所述环路滤波网络采用损失函数L2,所述环路滤波网络具体公式为:
其中,xrec表示输入的已编码图像,x为已编码图像对应的真实标签,n表示帧数。
6.根据权利要求2所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信...
【专利技术属性】
技术研发人员:马思伟,贾川民,赵政辉,王苫社,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。