视频编解码中用于基于神经网络的工具的分级结构制造技术

技术编号：35982607 阅读：74 留言：0更新日期：2022-12-17 22:54

提供了一种视频编解码方法、计算机程序和计算机系统。接收视频数据，所述视频数据包括当前图片。基于与所述当前图片和最近已解码图片相关联的分层级别，生成用于所述当前图片的虚拟参考帧。基于生成的参考帧，对所述视频数据进行解码。据进行解码。据进行解码。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】视频编解码中用于基于神经网络的工具的分级结构
[0001]引用并入
[0002]本申请要求于2021年1月11日提交的、申请号为63/136,055的美国临时申请的优先权，以及于2021年9月17日提交的、申请号为17/478,138的美国申请的优先权，其全部内容通过引用并入本申请中。

[0003]本申请实施例涉及数据处理技术，尤其涉及视频编解码。

技术介绍

[0004]在视频编码和解码中使用具有运动补偿的帧间预测，已经有数十年。未压缩的数字视频可以由一系列图片组成，每个图片具有空间维度例如为1920x1080的亮度样本和相关联的色度样本。该系列图片可以具有固定或可变的图片速率(也被非正式地称为帧速率)，例如每秒60个图片或60Hz。未压缩的视频具有一个明确的比特率要求。例如，每样本8比特的1080p60 4:2:0视频(以60Hz帧速率、1920x1080亮度样本分辨率)需要接近1.5Gbit/s的带宽。一个小时这样的视频需要超过600GB的存储空间。
[0005]传统视频编码标准，诸如H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)和通用视频编码(VVC)，共享类似的(递归的)基于块的混合预测/变换框架，其中，各个编解码工具，诸如帧内/帧间预测、整数变换和上下文自适应熵编码，被集中地手工制作以优化整体效率。

技术实现思路

[0006]本申请实施例关于一种视频编解码方法、计算机程序和计算机系统。根据本申请的一方面，提供了一种视频编解码方法，包括：/>[0007]接收视频数据，所述视频数据包括当前图片；
[0008]基于与所述当前图片和最近已解码图片相关联的分层级别，生成用于所述当前图片的虚拟参考帧；及，
[0009]基于生成的参考帧，对所述视频数据进行解码。
[0010]根据本申请的另一方面，提供了一种用于视频编解码的计算机系统，包括：
[0011]至少一个计算机可读非易失性存储介质，用于存储计算机程序代码；
[0012]至少一个处理器，用于读取所述计算机程序代码，根据所述计算机程序代码的指令进行操作，所述计算机程序代码包括：
[0013]接收代码，用于使得所述至少一个处理器，接收视频数据，所述视频数据包括当前图片；
[0014]生成代码，用于使得所述至少一个处理器，基于与所述当前图片和最近已解码图片相关联的分层级别，生成用于所述当前图片的虚拟参考帧；及，
[0015]解码代码，用于使得所述至少一个处理器，基于生成的参考帧，对所述视频数据进
行解码。
[0016]根据本申请的另一方面，提供了一种非易失性计算机可读介质，其上存储有用于视频编解码的计算机程序，所述计算机程序用于使得至少一个计算机处理器：
[0017]接收视频数据，所述视频数据包括当前图片；
[0018]基于与所述当前图片和最近已解码图片相关联的分层级别，生成用于所述当前图片的虚拟参考帧；及，
[0019]基于生成的参考帧，对所述视频数据进行解码。
附图说明
[0020]从下面结合附图对示例性实施例的详细描述中，本申请上述的和其它目的、特征和优点将变得显而易见。附图的各种特征未按比例绘制，因为图示是为了清楚起见，以便于本领域技术人员结合详细描述对本申请技术方案进行的理解。在附图中：
[0021]图1是根据至少一个实施例的联网计算机环境；
[0022]图2是根据至少一个实施例的用于环路滤波器/帧间预测的分层时间结构；
[0023]图3是根据至少一个实施例的由程序执行的、对视频数据进行编解码的步骤的操作流程图；
[0024]图4是根据至少一个实施例的图1中所示的计算机和服务器的内部组件和外部组件的框图；
[0025]图5是根据至少一个实施例的包括图1所示的计算机系统的示例性云计算环境的框图；以及
[0026]图6是根据至少一个实施例的图5所示的示例性云计算环境的功能层的框图。
具体实施方式
[0027]本申请公开了所要求保护的结构和方法的具体实施例。然而，应当理解的是，所公开的实施例仅是可以以各种形式体现的所要求保护的结构和方法的示例。然而，这些结构和方法可以以许多不同的形式来体现，并且不应被解释为限于本申请所描述的示例性实施例。相反，提供这些示例性实施例是为了使本申请更加全面和完整，并且将范围完全传达给本领域技术人员。在说明书中，可以省略公知的特征和技术的细节，以避免不必要地混淆所呈现的实施例。
[0028]实施例总体上涉及数据处理领域，更具体地，涉及视频处理。以下描述的示例性实施例提供了一种系统、方法和计算机程序，除了其他方面，以基于分级时间结构，使用环路滤波器/帧间预测，对视频进行编码和/或解码。因此，一些实施例通过提高视频编解码的效率，提高计算的效率。
[0029]如上所述，在视频编码和解码中使用具有运动补偿的帧间预测，已经有数十年。未压缩的数字视频可以由一系列图片组成，每个图片具有空间维度例如为1920x1080的亮度样本和相关联的色度样本。该系列图片可以具有固定或可变的图片速率(也被非正式地称为帧速率)，例如每秒60个图片或60Hz。未压缩的视频具有一个明确的比特率要求。例如，每样本8比特的1080p60 4:2:0视频(以60Hz帧速率、1920x1080亮度样本分辨率)需要接近1.5Gbit/s的带宽。一个小时这样的视频需要超过600GB的存储空间。传统视频编码标准，诸
如H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)和通用视频编码(VVC)，共享类似的(递归的)基于块的混合预测/变换框架，其中，各个编解码工具，诸如帧内/帧间预测、整数变换和上下文自适应熵编码，被集中地手工制作以优化整体效率。
[0030]视频编码和解码的一个目的是，通过压缩减少输入视频信号中的冗余。压缩可以帮助减少上述带宽或存储空间需求，在一些情况下减少两个数量级或更多。可以采用无损压缩和有损压缩，以及它们的组合。无损压缩是指可以从压缩的原始信号重建原始信号的精确副本的技术。当使用有损压缩时，重建信号可能与原始信号不相同，但是原始信号和重建信号之间的失真小到足以使重建信号对预期的应用而言是有用的。针对视频，有损压缩被广泛地采用。容忍的失真量取决于应用；例如，某些消费者流应用的用户可以比电视贡献应用的用户容忍更高的失真。可实现的压缩比可以反映：较高的可允许/可容忍的失真，可以产生较高的压缩比。
[0031]利用时空像素邻域进行预测信号的构建，以获得对应的残差，用于后续的变换、量化和熵编码。另一方面，神经网络(NN)的本质是通过分析来自相邻像素的感受野的时空信息来提取不同级别的时空刺激(stimuli)。探索高度非线性和非局部时空相关性的能力，为大大提高压缩质量提供了具有前景的机会。
[0032]然而，利用来自多个相邻视频帧的信息时，一个警告是由移动相机和动态场景引起的复杂运动。传统的基本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种视频编解码方法，其特征在于，由处理器执行，包括：接收视频数据，所述视频数据包括当前图片；基于与所述当前图片和最近已解码图片相关联的分层级别，生成用于所述当前图片的虚拟参考帧；及，基于生成的参考帧，对所述视频数据进行解码。2.根据权利要求1所述的方法，其特征在于，所述生成所述虚拟参考帧，由神经网络执行。3.根据权利要求1所述的方法，其特征在于，所述参考帧对应于来自I
‑
帧、P
‑
帧和B
‑
帧中的至少一个。4.根据权利要求1所述的方法，其特征在于，已解码的视频数据包括在参考图片列表中。5.根据权利要求4所述的方法，其特征在于，基于所述参考图片列表，基于运动补偿预测、帧内预测或帧内块复制，对来自所述视频数据中的后续帧进行解码。6.根据权利要求4所述的方法，其特征在于，所述虚拟参考帧包括在所述参考图片列表中。7.根据权利要求6所述的方法，其特征在于，基于以下中的至少一个，生成所述虚拟参考帧：信号处理、空间或时间滤波、缩放、加权平均、上/下采样、池化、具有存储器的递归处理、线性系统处理、非线性系统处理、神经网络处理、基于深度学习的处理、AI处理、预训练网络处理、基于机器学习的处理、在线训练网络处理。8.一种用于视频编解码的计算机系统，其特征在于，包括：至少一个计算机可读非易失性存储介质，用于存储计算机程序代码；至少一个处理器，用于读取所述计算机程序代码，根据所述计算机程序代码的指令进行操作，所述计算机程序代码包括：接收代码，用于使得所述至少一个处理器，接收视频数据，所述视频数据包括当前图片；生成代码，用于使得所述至少一个处理器，基于与所述当前图片和最近已解码图片相关联的分层级别，生成用于所述当前图片的虚拟参考帧；及，解码代码，用于使得所述至少一个处理器，基于生成的参考帧，对所述视频数据进行解码。9.根据权利要求8所述的计算机系统，其特征在于，所述生成所述虚拟参考帧，由神经网络执行。10.根据权利要求8所述的计算机系统，其特征在于，所述...

【专利技术属性】
技术研发人员：李泽强，许晓中，王炜，蒋薇，刘杉，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人