使用频率分解的基于深度学习的压缩方法技术

技术编号：43562555 阅读：2 留言：0更新日期：2024-12-06 17:34

在一个实现方式中，我们提出了一种端到端的图像视频压缩方法，该压缩方法将输入内容的空间频率分解为经划分的潜在表示。对潜在空间中的分解频率进行分析并将其分组为单独的潜在表示或单独的张量，每个张量被联合优化以彼此独立地解码。因此，解码器可以以可缩放方式对张量进行独立解码，以渐进地重建输入。该方法通过渐进地传输在所产生的潜在空间中分离的分解频率数据的各个潜在表示来实现质量可缩放性。此外，实现了感兴趣区域(ROI)的质量可缩放性，由此，解码器仅将增强张量中的对应潜在表示与已经递送到解码器的潜在表示一起作为输入。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本实施例总体上涉及一种用于使用基于人工神经网络(ann)的工具来压缩图像和视频的方法和设备。

技术介绍

1、近年来，已经开发出基于神经网络的新的图像和视频压缩方法。与应用预定义预测模式和变换的传统方法相反，基于ann的方法依赖于在训练阶段期间通过迭代地使损失函数最小化而在大数据集上学习的许多参数。在压缩的情况下，损失函数例如由率失真代价定义，其中“率”代表对编码位流的位率的估计，并且失真是对解码视频相对于原始输入的质量进行量化。传统上，对解码输入图像的质量进行优化，例如，基于对均方误差的测量或者人类感知的视觉质量的近似值进行优化。

2、iso/mpeg和itu之间的联合视频探索组(jvet)目前正在研究基于ann的工具来取代最新视频编码标准h.266/vvc的一些模块，以及用端到端的自动编码器方法替换整个结构。

技术实现思路

1、根据一个实施例，一种视频编码的方法包括：将图像的至少一部分分解成多个频率组，其中频率组与一组频带相对应；针对所述多个频率组中的每个频率组，在潜在空间中生成相应的潜在表示；以及对所述相应的潜在表示中的一者或多者进行熵编码。

2、根据另一个实施例，一种视频解码的方法包括：获得潜在空间中的一个或多个潜在表示，其中所述一个或多个潜在表示中的每一者与一个或多个频率组中的一个频率组相对应，其中频率组与一组频带相对应；从所述一个或多个潜在表示中获得所述一个或多个频率组；以及由所述一个或多个频率组组合成图像的至少一部分。

3、根据另一个

4、根据另一个实施例，提供了一种用于视频解码的设备，所述设备包括一个或多个处理器和联接到所述一个或多个处理器的至少一个存储器，其中所述一个或多个处理器被配置为：获得潜在空间中的一个或多个潜在表示，其中所述一个或多个潜在表示中的每一者与一个或多个频率组中的一个频率组相对应，其中频率组与一组频带相对应；从所述一个或多个潜在表示中获得所述一个或多个频率组；以及由所述一个或多个频率组组合成图像的至少一部分。

5、一个或多个实施例还提供了一种计算机程序，所述计算机程序包括指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据本文描述的实施例中的任一者的编码方法或解码方法。本实施例中的一者或多者还提供了一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的用于根据本文描述的方法的视频编码或解码的指令。

6、一个或多个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的根据上文描述的方法生成的视频数据。一个或多个实施例还提供了一种用于传输或接收根据本文描述的方法生成的视频数据的方法和设备。

本文档来自技高网...

【技术保护点】

1.一种视频编码的方法，包括：

2.根据权利要求1所述的方法，其中，所述生成由具有激活函数的卷积层的序列来执行。

3.根据权利要求1或2所述的方法，其中，所述分解由多个分解层来执行，其中每个分解层执行频内过程和频间过程。

4.根据权利要求3所述的方法，其中，所述频内过程由一组卷积层来执行。

5.根据权利要求3所述的方法，其中，所述频间过程包括：

6.根据权利要求5所述的方法，其中，所述频率分解变换与小波变换、傅里叶变换、离散余弦变换或学习变换相对应。

7.根据权利要求1至6中任一项所述的方法，还包括：

8.一种视频解码的方法，包括：

9.根据权利要求8所述的方法，其中，由具有激活函数的卷积层的序列从对应的潜在表示中获得频率组。

10.根据权利要求8或9所述的方法，其中，由多个频率组合层来执行所述组合成图像的所述至少一部分，并且其中每个频率组合层执行频内过程以及频间过程。

11.根据权利要求10所述的方法，其中，所述频内过程由一组卷积层来执行。

12.

13.根据权利要求8至12中任一项所述的方法，还包括：

14.根据权利要求8至13中任一项所述的方法，还包括：

15.根据权利要求13中任一项所述的方法，其中，

16.根据权利要求8至15中任一项所述的方法，其中，所述一个或多个潜在表示中的至少一个潜在表示仅包含感兴趣区域的信息。

17.根据权利要求16所述的方法，其中，所述感兴趣区外的潜在变量在所述一个或多个潜在表示中的所述至少一个潜在表示中设置为0。

18.根据权利要求8至13中任一项所述的方法，还包括：

19.一种包括一个或多个处理器和至少一个存储器的设备，所述至少一个存储器联接到所述一个或多个处理器，其中所述一个或多个处理器被配置为执行根据权利要求1至18中任一项所述的方法。

20.一种包括视频数据的信号，所述视频数据通过执行根据权利要求1至7中任一项所述的方法来形成。

21.一种存储有指令的计算机可读存储介质，所述指令用于按照根据权利要求1至18中任一项所述的方法对视频进行编码或解码。

...

【技术特征摘要】
【国外来华专利技术】