一种基于深度学习的帧内编码优化方法技术

技术编号:18404590 阅读:49 留言:0更新日期:2018-07-08 22:35
本发明专利技术提供一种基于深度学习的帧内编码优化方法,涉及视频编码技术领域,在帧内预测之前对输入的视频数据进行纹理分析,对于纹理分析后可以确定预测模式的视频数据直接赋予相应的预测模式,对于模式不确定的视频数据则其放进神经网络中进行预测后再赋予其相应的预测模式,然后得到模式对应的编码,最后通过这些模式编码获得帧内检测后的数据,本发明专利技术运用神经网络的方法自适应地选择帧内预测模式,在神经网络准确率较高的情况下,此方法可以在满足编码性能的前提下降低编码复杂度,大大减少编码时间,实现实时编码。

An intra frame coding optimization method based on deep learning

The present invention provides an intra coding optimization method based on depth learning, which involves the field of video coding technology, and performs texture analysis on the input video data before intra prediction, and directly gives the corresponding prediction mode to the video data that can determine the prediction mode after the texture analysis, and the number of video numbers that are uncertain in the pattern. According to it, the prediction mode is given to the neural network, and then the corresponding coding is obtained. Finally, the intra frame detection data are obtained through these patterns. The invention applies the neural network method to select the intra prediction model adaptively, with the high accuracy of the neural network. This method can reduce the coding complexity and reduce the encoding time and achieve real-time coding on the premise of satisfying the coding performance.

【技术实现步骤摘要】
一种基于深度学习的帧内编码优化方法
本专利技术涉及视频编码
,尤其涉及一种基于深度学习的帧内编码优化方法。
技术介绍
视频编码技术致力于将视频压缩后得到便于传输的码流,尤其是在目前的网络带宽下传输高清视频。近年来,随着拍摄视频的硬件和技术的不断进步,出现了2K、4K乃至8K的视频。为了应对超高清视频的传输要求,2013年,视频编码联合组(JointCollaborativeTeamonVideoCoding(JCT-VC))提出了新一代视频编码标准HEVC(HighEfficiencyVideoCoding),HEVC比上一代AVC性能提升了50%左右,在高清视频编码时表现尤为突出。HEVC改进的技术包括基于四叉树的编码单元数据结构,多角度预测模式,可变尺寸块变换单元,基于变换系数扫描的预测方向选择等技术。在所有的技术中,率失真优化技术显得尤为重要,率失真优化技术计算各种不同技术组合(编码模式、相关系数和CU(CodingUnit)分块模式等)情况下的RD(Rate-Distortion)costs后,选取RDcosts最小的组合。在帧内预测中,率失真优化技术可以用来选择帧内预测模式。在HEVC中,有33种角度预测模式和DC以及Planar两种非方向模式,在计算总共35种预测模式的RDcosts后选择最优的模式。虽然这种做法可以得到最优的预测模式,但同时也大大增加了编码的复杂度。在确保编码质量的情况下减小编码的复杂度成为现在研究的难点问题。
技术实现思路
本专利技术的目的在于:为解决现有技术中编码质量和编码复杂度无法兼顾的问题,本专利技术提供一种基于深度学习的帧内编码优化方法。本专利技术的技术方案如下:一种基于深度学习的帧内编码优化方法,在帧内预测之前对输入的视频数据进行纹理分析,对于纹理分析后可以确定预测模式的视频数据直接赋予相应的预测模式,对于模式不确定的视频数据则其放进神经网络中进行预测后再赋予其相应的预测模式,然后得到模式对应的编码,最后通过这些模式编码获得帧内检测后的数据。具体地,所述纹理分析的步骤为:S1:将输入的视频数据划分成多个预测单元;S2:将每个预测单元中的亮度分量进行归一化处理;S3:计算每个预测单元中每个像素的梯度方向,统计不同梯度方向的像素个数;S4:计算每个预测单元中不同梯度方向的像素占比,对于占比大于等于一定的阈值的预测单元,赋予其相应的预测模式,对于其余的预测单元,则其放进神经网络中进行预测后再赋予其相应的预测模式。具体地,帧内预测的步骤为:S5:对纹理分析后的视频数据分为亮度分量和色度分量,并对亮度分量经过数据处理转换为列向量;S6:得到的列向量放入训练好的卷积神经网络模型进行模式预测,根据得到预测模式得到亮度模式编码;同时,直接对色度分量进行预测模式预测,S7:分别根据亮度预测模式和色度预测模式得到的预测模式得到亮度模式编码和色度模式编码,根据亮度模式编码和色度模式编码得到帧内预测后的数据。具体地,所述S3的具体过程为:一阶微分处理一般对灰度阶梯有较强的响应,一阶微分:S31:采用模板[1,0,-1]计算图像梯度及方向,像素点(x,y)处水平和垂直方向的梯度分别如下:Gh(x,y)=f(x+1,y)-f(x-1,y)Gv(x,y)=f(x,y+1)-f(x,y-1)该处的梯度方向为:θ(x,y)=arctan(Gh(x,y)/Gv(x,y))对于梯度方向的范围限定,一般采用无符号的范围,故梯度方向表示为:S32:,先统计每个像素点的梯度方向,设步长为△θ,共有个方向,再统计不同梯度方向的像素个数Ni。具体地,所述卷积神经网络共有6层(包括输入层),第一层(输入层)是32×32的数据块输入;第二层是有96个特征图的卷积层,每个特征图的尺寸为32×32,卷积核的尺寸是4×4;第三层是有256个特征图的卷积层,每个特征图的尺寸为32×32;第四层是有256个下采样层,它对第三层的特征图进行子采样,采样的卷积核尺寸是3×3;第四层到第六层(输出层),是全连接的多层神经元网络结构,且第五层和第六层的神经元个数分别为1024和35,根据输出层的结果,最终得到当前尺寸为32×32预测单元亮度度模式的预测结果。采用上述方案后,本专利技术的有益效果如下:(1)目前神经网络已广泛应用于图片处理、物体识别、人脸检测、语音文本分析等领域,本专利技术创新地将神经网络应用于传统视频编码过程中的帧内预测环节。本专利技术运用神经网络的方法自适应地选择帧内预测模式,在神经网络准确率较高的情况下,此方法可以在满足编码性能的前提下降低编码复杂度,大大减少编码时间,实现实时编码。(2)本专利技术中还增加了纹理分析步骤,通过对预测单元进行纹理分析,将纹理明显的编码块筛选出来,赋予相应的预测模式,能减轻神经网络的负担,提高编码效率。并且,传统的方法是对亮度和色度都要进行模式决策,本专利技术的方法对色度模式还按照传统方法进行,只是在亮度模式的决策方面加入了神经网络,只对亮度处理这是由于观察到色度分量只包含很少的结构信息,这有利于帧内预测模式的决定。附图说明图1为本专利技术的整体流程图;图2为本专利技术的纹理分析流程图;图3为本专利技术的帧内预测流程图;图4为本专利技术的亮度分量的帧内预测模式图;图5为本专利技术的卷积神经网络结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。鉴于在视频编码的过程中,采用率失真优化会在编码性能提升的同时大大增加编码的复杂度。基于以上问题,本专利技术提出了一种基于卷积神经网络的快速视频编码方法,该方法能够在保持编码性能基本不变的前提下大大减少编码时间,降低编码复杂度。此方法聚焦在帧内预测中的亮度模式的选择问题,将其看作成一个分类问题,利用对分类问题表现出色的卷积神经网络来对不同的PU进行分类,分别对应不同的帧内预测模式;避免了依次计算每种预测方式的RDcosts,减小了编码复杂度,从而减少了编码时间。同时在进入神经网络之前,每个预测单元都要进行一次纹理粗分析,将带有明显特殊纹理的单元分别分配给对应的预测模式,减轻了神经网络的负担,进一步降低编码复杂度,使得整个编码流程更为高效。该方法可应用于电视广播、视频会议、安防监控、远程医疗、在线教育等领域。实施例如图1所示,本实施例的基于深度学习的帧内编码优化方法,在帧内预测之前对输入的视频数据进行纹理分析,对于纹理分析后可以确定预测模式的视频数据直接赋予相应的预测模式,对于模式不确定的视频数据则其放进神经网络中进行预测后再赋予其相应的预测模式,然后得到模式对应的编码,最后通过这些模式编码获得帧内检测后的数据。首先在帧内预测之前对输入的视频数据进行纹理分析,如图2所示,这一步包括如下步骤:S1:将输入的视频数据划分成多个预测单元(PU,PredictUnit);S2:将每个预测单元中的亮度分量进行归一化处理;将图像归一化,主要是为了减少光照的影响,在图像的纹理强度中,局部的表层曝光贡献的比重较大,所以,这种压缩处理能够有效地降低图像局部的阴影和光照变化带来的影响。本文档来自技高网...

【技术保护点】
1.一种基于深度学习的帧内编码优化方法,其特征在于,在帧内预测之前对输入的视频数据进行纹理分析,对于纹理分析后可以确定预测模式的视频数据直接赋予相应的预测模式,对于模式不确定的视频数据则其放进神经网络中进行预测后再赋予其相应的预测模式,然后得到模式对应的编码,最后通过这些模式编码获得帧内检测后的数据。

【技术特征摘要】
1.一种基于深度学习的帧内编码优化方法,其特征在于,在帧内预测之前对输入的视频数据进行纹理分析,对于纹理分析后可以确定预测模式的视频数据直接赋予相应的预测模式,对于模式不确定的视频数据则其放进神经网络中进行预测后再赋予其相应的预测模式,然后得到模式对应的编码,最后通过这些模式编码获得帧内检测后的数据。2.根据权利要求1所述的一种基于深度学习的帧内编码优化方法,其特征在于,所述纹理分析的步骤为:S1:将输入的视频数据划分成多个预测单元;S2:将每个预测单元中的亮度分量进行归一化处理;S3:计算每个预测单元中每个像素的梯度方向,统计不同梯度方向的像素个数;S4:计算每个预测单元中不同梯度方向的像素占比,对于占比大于等于一定的阈值的预测单元,赋予其相应的预测模式,对于其余的预测单元,则其放进神经网络中进行预测后再赋予其相应的预测模式。3.根据权利要求1所述的一种基于深度学习的帧内编码优化方法,其特征在于,所述帧内预测的步骤为:S5:对纹理分析后的视频数据分为亮度分量和色度分量,并对亮度分量经过数据处理转换为列向量;S6:得到的列向量放入训练好的卷积神经网络模型进行模式预测,根据预测模式得到亮度模式编码;同时,直接对色度分量进行预测模式预测;S7:分别根据亮度预测模式和色度预测模式得到的预测模式得到亮度模式编码和色度模...

【专利技术属性】
技术研发人员:徐枫陈建武肖谋
申请(专利权)人:北京易智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1