用于视频编码或解码的基于神经网络的帧内预测制造技术

技术编号:35020304 阅读:19 留言:0更新日期:2022-09-24 22:49
本发明专利技术提供了一种视频编码系统,该视频编码系统在使用神经网络的模式中对仅具有一组特定块大小的块执行帧内预测。该模式的信令被设计成在该约束下的速率失真方面是有效的。引入块的上下文的不同变换和该块的神经网络预测,以便使用一个单个神经网络来预测若干大小的块以及对应信令。基于神经网络的预测模式考虑亮度块和色度块两者。该视频编码系统包括编码器装置和解码器装置、编码、解码和信号生成方法以及携带对应于所描述的编码模式的信息的信号。的信号。的信号。

【技术实现步骤摘要】
【国外来华专利技术】用于视频编码或解码的基于神经网络的帧内预测


[0001]本实施方案中的至少一个实施方案整体涉及用于视频编码或解码的基于神经网络的帧内预测。

技术介绍

[0002]为了实现高压缩效率,图像和视频编码方案通常采用预测和变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关,然后对在原始块与预测块之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重构视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。

技术实现思路

[0003]本实施方案中的一个或多个实施方案提供了一种视频编码系统,该视频编码系统在使用神经网络的模式中对仅具有一组特定块大小的块执行帧内预测。该模式的信令被设计成在该约束下的速率失真方面是有效的。引入块的上下文的不同变换和该块的神经网络预测,以便使用一个单个神经网络来预测若干大小的块以及对应信令。基于神经网络的预测模式考虑亮度块和色度块两者。视频编码系统包括编码器装置和解码器装置、编码、解码和信号生成方法以及携带对应于所描述的编码模式的信息的信号。
[0004]根据至少一个实施方案的第一方面,一种视频编码方法包括:基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;生成表示该基于神经网络的帧内预测模式的信令信息;以及至少对表示该至少一个块和该基于神经网络的帧内预测模式的信息进行编码。
[0005]根据至少一个实施方案的第二方面,一种视频解码方法包括:对于图片或视频中的至少一个块,至少获得块上下文和表示基于神经网络的预测模式的信息,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;以及基于该块上下文使用基于神经网络的帧内预测模式对图片或视频中的该至少一个块执行帧内预测。
[0006]根据至少一个实施方案的第三方面,一种装置包括编码器,该编码器用于对图片或视频中的至少一个块的图片数据进行编码,其中该编码器被配置为:基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;生成表示该基于神经网络的帧内预测模式的信令信息;以及至少对表示该至少一个块和该基于神经网络的帧内预测模式的信息进行编码。
[0007]根据至少一个实施方案的第四方面,一种装置包括解码器,该解码器用于对图片或视频中的至少一个块的图片数据进行解码,其中该解码器被配置为:对于图片或视频中的至少一个块,至少获得块上下文和表示基于神经网络的预测模式的信息,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;以及基于该块上下文使用基于神经
网络的帧内预测模式对图片或视频中的该至少一个块执行帧内预测。
[0008]根据第一实施方案、第二实施方案、第三实施方案和第四实施方案的变体,该块上下文的该组周围像素包括位于当前块的顶侧、左侧、对角线左上侧、对角线右上侧和对角线左下侧处的块的像素,并且其中该块的大小基于至少一个块的大小。
[0009]根据至少一个实施方案的第五方面,比特流包括表示根据至少第一方面的方法的基于神经网络的预测模式的信息。
[0010]根据至少一个实施方案的第六方面,呈现了一种包括能够由处理器执行的程序代码指令的计算机程序,该计算机程序实施根据至少第一方面或第二方面的方法的步骤。
[0011]根据至少一个实施方案的第七方面,呈现了一种存储在非暂态计算机可读介质上并且包括能够由处理器执行的程序代码指令的计算机程序产品,该计算机程序产品实施根据至少第一方面或第二方面的方法的步骤。
附图说明
[0012]图1示出了视频编码器100的示例的框图。
[0013]图2示出了视频解码器200的示例的框图。
[0014]图3示出了在其中实现各个方面和实施方案的系统的示例的框图。
[0015]图4示出了用于帧内预测的参考样本生成过程的示例。
[0016]图5示出了角度预测模式的示例。
[0017]图6示出了基于矩阵的帧内预测模式的示例。
[0018]图7示出了MIP模式索引与MIP矩阵索引之间的映射的示例。
[0019]图8示出了用于导出不同块形状的最可能模式列表的上方和左侧CU位置的示例。
[0020]图9示出了示出如上所介绍的亮度的帧内预测信令的决策树的示例。
[0021]图10示出了示出色度的帧内预测信令的决策树的示例。
[0022]图11示出了围绕要针对基于神经网络的帧内预测而预测的当前正方形块的上下文的示例。
[0023]图12示出了经由全连接神经网络的帧内预测的示例。
[0024]图13示出了经由卷积神经网络的帧内预测的示例。
[0025]图14示出了根据示例性实施方案的围绕要预测的W
×
H矩形块Y的上下文X的选择的示例。
[0026]图15示出了根据至少一个实施方案的帧内预测模式信令的示例性选择。
[0027]图16示出了根据至少一个实施方案的由编码装置实施的用于块的编码方法的示例性流程图。
[0028]图17示出了根据至少一个实施方案的由解码装置实施的用于块的解码方法的示例性流程图。
[0029]图18示出了根据实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
[0030]图19示出了根据还考虑MIP模式的第一变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
[0031]图20示出了根据考虑并支持MIP模式的第二变体实施方案的表示用于当前亮度PB
的帧内预测模式信令的决策树的示例。
[0032]图21示出了根据不考虑MRL的第三变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
[0033]图22示出了根据将基于神经网络的帧内预测模式与ISP组合的第四变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
[0034]图23示出了根据其中PLANAR模式在S0中由基于神经网络的模式替换的第五变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
[0035]图24示出了根据第二变体实施方案的用于选择用于发信号通知预测块的色度的模式的示例性决策。
[0036]图25A示出了根据至少一个实施方案的对块的上下文进行下采样以及对神经网络预测进行内插的示例。
[0037]图25B示出了根据至少一个实施方案的用于对块的上下文进行下采样以及对神经网络预测进行内插的方法的示例。
[0038]图26示出了从当前亮度PB的大小W
×
H映射到γ,δ、帧内预测模式信令和用于预测的神经网络的示例。
[0039]图27A示出了对块的上下文进行转置以及对内插神经网络预测进行转置以便使用基于神经网络的帧内预测模式的示例。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种视频编码方法,所述视频编码方法包括

基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,所述块上下文包括一组周围像素,

生成表示所述基于神经网络的帧内预测模式的信令信息,以及

至少对表示所述至少一个块和所述基于神经网络的帧内预测模式的信息进行编码。2.一种视频解码方法,所述视频解码方法包括,

对于图片或视频中的至少一个块,至少获得块上下文和表示所述基于神经网络的预测模式的信息,所述块上下文包括一组周围像素,以及

基于所述块上下文使用基于神经网络的帧内预测模式对图片或视频中的所述至少一个块执行帧内预测。3.根据权利要求1或2所述的方法,其中所述块上下文的所述一组周围像素包括位于当前块的顶侧、左侧、对角线左上侧、对角线右上侧和对角线左下侧处的块的像素,并且其中所述块的大小基于所述至少一个块的大小。4.根据权利要求3所述的方法,其中所述基于神经网络的帧内预测是基于所述当前块在所述图片中的位置和所述块的所述大小来执行的。5.根据权利要求4所述的方法,其中在执行所述帧内预测之前对所述块上下文进行下采样,并且在所述帧内预测之后对预测块进行内插。6.根据权利要求4或5所述的方法,其中在执行所述帧内预测之前对所述块上下文进行转置,并且在所述帧内预测之后将所述预测块转回。7.根据权利要求1至6中任一项所述的方法,其中所述基于神经网络的预测在所述至少一个块的亮度和色度两者中进行。8.根据权利要求1至7中任一项所述的方法,其中所述信令信息被编码在比特流中,并且包括指示针对所述至少一个块选择基于神经网络的帧内预测模式的标记,所述标记基于表示布置在二叉树中用于在比特流中编码的多个帧内预测模式的一组标记,并且其中指示选择基于神经网络的帧内预测模式的所述标记位于所述树的第一层级处并且用单个比特编码。9.根据权利要求1至8中任一项所述的方法,其中最可能模式的有序列表确定多个预测模式之间的优先级,并且其中在选择所述基于网络的帧内预测模式的条件下,与其他预测模式相比,具有系统高优先级的常规帧内预测模式的优先级降低。10.一种装置(1000),所述装置包括用于对图片或视频中的当前块进行编码的编码器(1030),其中所述编码器被配置为:

基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,所述块上下文包括位于所述至少一个块的顶侧和左侧处的一组周围像素,

生成表示所述基于神经网络的帧内预测模式的信令...

【专利技术属性】
技术研发人员:T
申请(专利权)人:交互数字VC控股法国公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1