图像编码和解码、视频编码和解码:方法、系统和训练方法技术方案

技术编号:38499881 阅读:18 留言:0更新日期:2023-08-15 17:08
披露一种用于图像或视频的有损或无损压缩和传输的计算机实现方法,该方法包括以下步骤:(i)接收输入图像;(ii)用经过训练的编码器神经网络来编码输入图像以产生y潜在表征;(iii)用经过训练的超编码器神经网络来编码y潜在表征以产生z超潜表征;(iv)用预定熵参数来量化z超潜表征以产生量化的z超潜表征;(v)用预定熵参数将量化的z超潜表征进行熵编码而生成第一比特流;(vi)用经过训练的超解码器神经网络来处理量化的z超潜表征以获得y潜在表征的位置熵参数μ

【技术实现步骤摘要】
【国外来华专利技术】图像编码和解码、视频编码和解码:方法、系统和训练方法
[0001]专利技术背景
1.专利

[0002]本专利技术的领域涉及用于图像编码和解码的计算机实现方法和系统、用于视频编码和解码的计算机实现方法和系统、计算机实现训练方法和相关的计算机程序产品。
2.技术背景
[0003]通信网络用户对图像和视频内容的需求越来越大。不仅对观看图像的数量和视频播放时间的需求在增加,对更高分辨率和更低失真内容(如有)的需求也在增加。这对通信网络提出更多需求并增加其能量使用,这例如有着不利成本影响,并且增加的能量使用可能对环境产生负面影响。
[0004]尽管图像和视频内容通常以压缩形式经由通信网络来传输,但希望在保持显示图像质量的同时增强压缩,或者在不增大实际在通信网络中传输的数据量的同时增强显示图像质量。与其他情况下将会出现的需求相比,这将会有助于减小对通信网络的需求。
[0005]3.相关技术的讨论
[0006]US10373300B1公开一种用于图像和视频有损压缩和传输的系统和方法,其利用神经网络作为用于将已知噪声图像映射到期望图像或目标图像的函数,仅允许传递该函数的超参数而不是压缩版图像本身。这允许通过接收超参数的任何系统重构期望图像的高质量近似物,假定该接收系统具有相同的噪声图像和相似的神经网络。与现有图像压缩技术相比,传输一定质量的图像所需要的数据量显著减少。由于视频只是一系列图像,故该图像压缩系统和方法的应用允许关于相同图像质量而以比先前技术更高的速率传输视频内容。
[0007]US10489936B1公开一种用于图像和视频有损压缩的系统和方法,其利用元网络来生成一组超参数,其是图像编码网络从一定噪声图像重构期望图像所需要的。

技术实现思路

[0008]下述的计算机实现方法、计算机系统和计算机程序产品的优点包括它们减少能耗。
[0009]下述解码计算机系统可被实现为便携式设备或者移动设备如智能手机、平板电脑或笔记本电脑。一个优点是可以减少便携式设备或移动设备的电池电荷消耗。
[0010]根据本专利技术的第一方面,提供一种用于图像或视频的有损或无损压缩和传输的计算机实现方法,该方法包括以下步骤:
[0011](i)接收输入图像;
[0012](ii)用经过训练的编码器神经网络来编码输入图像以产生y潜在表征;
[0013](iii)用经过训练的超编码器神经网络编码y潜在表征以产生z超潜表征;
[0014](iv)用预定熵参数量化z超潜表征以产生量化的z超潜表征;
[0015](v)用预定熵参数将量化的z超潜表征熵编码为第一比特流;
[0016](vi)用经过训练的超解码器神经网络处理量化的z超潜表征以获得y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y

[0017](vii)用隐式编码解算器处理y潜在表征、位置熵参数μ
y
和上下文矩阵A
y
以获得量化的潜在残差;
[0018](viii)用熵尺度参数σ
y
将量化的潜在残差熵编码为第二比特流;和
[0019](ix)发送第一比特流和第二比特流。
[0020]一个优点是在压缩算法训练期间内可以容易地使用基本事实变量(图像或潜值);这加快了训练。一个优点是因为隐式编码解算器(IES)也返回量化的y潜在表征,故在训练期间内不需要运行单独的解码解算器以从潜在残差中恢复量化的y潜在表征:已给出量化的y潜在表征;这加快了训练。一个优点是在基于人工智能的压缩管道中使用迭代线性解算器的计算成本可能占整个管道中总计算的一小部分。一个优点是减少了编码时间。
[0021]该方法可以是下述的方法,在此,在步骤(iv)中,预定熵参数是预定位置熵参数μ
z
,且在步骤(v)中,预定熵参数为预定位置熵系数μ
z
和预定熵尺度参数σ
z
。一个优点是熵参数的处理更快速,这减少了编码时间。
[0022]该方法可以是如下的方法,其中,隐式编码解算器求解下述隐式方程:
[0023](I)量化的潜在残差等于“y潜在表征减去μ
y
减去作用于量化的y潜在表征的A
y”之集合的量化函数;以及
[0024](II)量化的y潜在表征等于量化的潜在残差加上μ
y
加上作用于量化的y潜在表征的A
y

[0025]一个优点是在基于人工智能的压缩管道中使用迭代线性解算器的计算成本可能占整个管道中总计算的一小部分。一个优点是减少了编码时间。
[0026]该方法可以是下述的方法,其中,隐式编码解算器通过定义B=I

A来求解隐式方程,其中,A是m
×
m矩阵,I是m
×
m单位矩阵,其中,(a)如果B是下三角,则使用正向替换串行方法;或(b)如果B是上三角形,则使用反向替换串行方法;或(c)B按三角分解被因子分解,于是通过用正向替换反转下三角因子和用反向替换反转上三角因子来求解,其中,是量化残差;或(d)B用QR分解被因子分解,其中,Q是正交矩阵,R是上三角矩阵,解为y=R
‑1Q
t
μ,其中,Q
t
是Q转置,或B用B=QL被因子分解,其中,L是下三角矩阵,或B=RQ,或B=LQ,其中,Q通过其转置被反转,R通过反向替换被反转,L通过前向替换被反转,随后所述解分别为y=L
‑1Q
t
μ或y=Q
t
R
‑1μ或y=Q
t
L
‑1μ;或者(e)B=D+L+U,其中,D是对角矩阵,并且其中,L是严格下三角矩阵,U是严格上三角矩阵,然后应用雅可比迭代方法,直到满足收敛标准;或(f)使用高斯

塞德尔方法;或(g)使用逐次超松弛法,或(h)使用共轭梯度法。
[0027]一个优点是在基于人工智能的压缩管道中使用迭代线性解算器的计算成本可能占整个管道中总计算的一小部分。一个优点是减少了编码时间。
[0028]该方法可以是如下的方法,其中,隐式编码解算器使用迭代解算器求解隐式方程,其中,当满足收敛标准时结束迭代。一个优点是在基于人工智能的压缩管道中使用迭代线性解算器的计算成本可能占整个管道中总计算的一小部分。一个优点是减少了编码时间。
[0029]该方法可以是如下的方法,其中,隐式编码解算器返回残差和量化的潜在表征y。一个优点是因为隐式编码解算器(IES)也返回量化的y潜在表征,在训练期间内不需要运行
单独的解码解算器以从潜在残差中恢复量化的y潜在表征:已给出量化的y潜在表征;这加快了训练。
[0030]该方法可以是如下的方法,其中,矩阵A是下三角、上三角、严格下三角、严格上三角,或者A具有稀疏带状结构,或者A是块矩阵,或者A被构造为其矩阵范数小于1,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于图像或视频的有损或无损压缩和传输的计算机实现方法,该方法包括以下步骤:(i)接收输入图像;(ii)用经过训练的编码器神经网络来编码该输入图像以产生y潜在表征;(iii)用经过训练的超编码器神经网络来编码该y潜在表征以产生z超潜表征;(iv)用预定熵参数来量化该z超潜表征以产生量化的z超潜表征;(v)用预定熵参数将该量化的z超潜表征进行熵编码而生成第一比特流;(vi)用经过训练的超解码器神经网络来处理该量化的z超潜表征以获得该y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(vii)用隐式编码解算器来处理该y潜在表征、该位置熵参数μ
y
和该上下文矩阵A
y
以获得量化的潜在残差;(viii)用该熵尺度参数σ
y
将所述量化的潜在残差进行熵编码而生成第二比特流;和(ix)发送该第一比特流和该第二比特流。2.根据权利要求1所述的方法,其中,在步骤(iv)中该预定熵参数是预定的位置熵参数μ
z
,并且在步骤(v)中所述预定熵参数是该预定的位置熵参数μ
z
和预定的熵尺度参数σ
z
。3.根据权利要求1或2所述的方法,其中,该隐式编码解算器求解下述隐式方程:(I)所述量化的潜在残差等于“该y潜在表征减去μ
y
减去作用于该量化的y潜在表征的A
y”之集合的量化函数;和(II)该量化的y潜在表征等于所述量化的潜在残差加上μ
y
加上作用于该量化的y潜在表征的A
y
。4.根据任一前述权利要求所述的方法,其中,该隐式编码解算器通过定义B=I

A来求解所述隐式方程,其中,A是m
×
m矩阵,I是m
×
m单位矩阵,其中,(a)如果B是下三角,则使用正向替换串行方法;或(b)如果B是上三角形,则使用反向替换串行方法;或(c)B按照三角分解进行因子分解,于是通过用正向替换反转下三角因子并且用反向替换反转上三角因子来求解,其中,是该量化残差;或(d)B按照QR分解进行因子分解,其中,Q是正交矩阵,R是上三角矩阵,解为y=R
‑1Q
t
μ,其中,Q
t
是Q转置,或B按照B=QL进行因子分解,其中,L是下三角矩阵,或B=RQ,或B=LQ,其中,Q通过其转置被反转,R通过反向替换被反转,L通过正向替换被反转,随后所述解分别为y=L
‑1Q
t
μ或y=Q
t
R
‑1μ或y=Q
t
L
‑1μ;或者(e)B=D+L+U,其中,D是对角矩阵,并且其中,L是严格下三角矩阵,U是严格上三角矩阵,然后应用雅可比迭代法,直到满足收敛标准;或(f)使用高斯

塞德尔方法;或(g)使用逐次超松弛法,或(h)使用共轭梯度法。5.根据任一前述权利要求所述的方法,其中,该隐式编码解算器利用迭代解算器求解所述隐式方程,其中,当收敛标准被满足时结束迭代。6.根据任一前述权利要求所述的方法,其中,该隐式编码解算器返回残差和量化的潜
在表征y。7.根据任一前述权利要求所述的方法,其中,该矩阵A是下三角、上三角、严格下三角、严格上三角,或者A具有稀疏带状结构,或者A是块矩阵,或者A被构造为其矩阵范数小于1,或者A通过矩阵因子分解被参数化,所述矩阵因子分解例如是LU或QR分解。8.一种用于图像或视频的有损或无损压缩和传输的编码计算机系统,该编码计算机系统包括编码计算机、经过训练的编码器神经网络、经过训练的超编码器神经网络和经过训练的超解码器神经网络,其中:(i)该编码计算机被配置为接收输入图像;(ii)该编码计算机被配置为用该经过训练的编码器神经网络来编码该输入图像以产生y潜在表征;(iii)该编码计算机被配置为用该经过训练的超编码器神经网络来编码该y潜在表征以产生z超潜表征;(iv)该编码计算机被配置为用预定的熵参数来量化所述z超潜表征以产生量化的z超潜表征;(v)该编码计算机被配置为用预定的熵参数将该量化的z超潜表征进行熵编码而形成第一比特流;(vi)该编码计算机被配置为用该经过训练的超解码器神经网络来处理该量化的z超潜表征以获得该y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(vii)该编码计算机被配置为用隐式编码解算器处理该y潜在表征、该位置熵参数μ
y
和该上下文矩阵A
y
以获得量化的潜在残差;(viii)该编码计算机被配置为用该熵尺度参数σ
y
将所述量化的潜在残差进行熵编码而形成第二比特流;和(ix)该编码计算机被配置为发送该第一比特流和该第二比特流。9.根据权利要求8所述的系统,其中,该系统被配置用于执行根据权利要求1至7之一所述的方法。10.一种用于图像或视频的有损或无损解码的计算机实现方法,该方法包括以下步骤:(i)接收第一比特流和第二比特流;(ii)用算术解码器和预定熵参数解码该第一比特流以产生量化的z超潜表征;(iii)用经过训练的超解码器神经网络来解码该量化的z超潜表征以获得y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(iv)在算术解码器中使用该熵尺度参数σ
y
解码该第二比特流以输出量化的潜在残差;(v)用(如隐式)(如线性)解码解算器来处理所述量化的潜在残差、该位置熵参数μ
y
和上下文矩阵A
y
以获得量化的y潜在表征;(vi)用经过训练的解码器神经网络来解码该量化的y潜在表征以获得重构图像。11.根据权利要求10所述的方法,其中,在步骤(ii)中所述预定熵参数是预定的位置熵参数μ
z
和预定的熵尺度参数σ
z
。12.根据权利要求10或11所述的方法,该方法包括步骤(vii):存储该重构图像。13.根据权利要求10至12之一所述的方法,其中,所述(如隐式)(如线性)解码解算器求解如下的所述(例如隐式)方程,即,该量化的y潜在表征等于所述量化的潜在残差加上μ
y

上作用于该量化的y潜在表征的A
y
。14.根据权利要求10至13之一所述的方法,其中,所述(如隐式)(如线性)解码解算器通过定义B=I

A来求解所述(如隐式)方程,其中,A是m
×
m矩阵,I是m
×
m单位矩阵,其中,(a)如果B是下三角,则使用正向替换串行方法;或(b)如果B是上三角形,则使用反向替换串行方法;或(c)B按照三角分解进行因子分解,于是通过用正向替换反转下三角因子并且用反向替换反转上三角因子来求解,其中,是该量化残差;或(d)B按照QR分解进行因子分解,其中,Q是正交矩阵,R是上三角矩阵,解为y=R
‑1Q
t
μ,其中,Q
t
是Q转置,或B按照B=QL进行因子分解,其中,L是下三角矩阵,或B=RQ,或B=LQ,其中,Q通过其转置被反转,R通过反向替换被反转,L通过正向替换被反转,于是解分别为y=L
‑1Q
t
μ或y=Q
t
R
‑1μ或y=Q
t
L
‑1μ;或者(e)B=D+L+U,其中,D是对角矩阵,并且其中,L是严格下三角矩阵,U是严格上三角矩阵,然后应用雅可比迭代法,直到满足收敛标准;或(f)使用高斯

塞德尔方法;或(g)使用逐次超松弛法,或(h)使用共轭梯度法。15.根据权利要求10至14之一所述的方法,其中,使用迭代解算器,在此,当达到收敛标准时结束迭代。16.根据权利要求10至15之一所述的方法,其中,所述(如隐式)(如线性)解码解算器(例如任何线性方程解算器)不一定是与编码所用的解算器同类型的解算器(例如是与之不同的)。17.根据权利要求10至16之一所述的方法,其中,该矩阵A是下三角、上三角、严格下三角、严格上三角,或者A具有稀疏带状结构,或者A是块矩阵,或者A被构造为其矩阵范数小于1,或者A通过矩阵因子分解被参数化,所述矩阵因子分解例如是LU或QR分解。18.一种用于图像或视频的有损或无损解码的解码计算机系统,该解码计算机系统包括解码计算机、经过训练的解码器神经网络和经过训练的超解码器神经网络,其中:(i)该解码计算机被配置为接收第一比特流和第二比特流;(ii)该解码计算机被配置为用算术解码器和预定熵参数来解码该第一比特流以产生量化的z超潜表征;(iii)该解码计算机被配置为使用该经过训练的超解码器神经网络来解码该量化的z超潜表征以获得y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(iv)该解码计算机被配置为在算术解码器中用该熵尺度参数σ
y
来解码该第二比特流以输出量化的潜在残差;(v)该解码计算机被配置为使用(如隐式)(如线性)解码解算器来处理所述量化的潜在残差、该位置熵参数μ
y
和该上下文矩阵A
y
以获得量化的y潜在表征;(vi)该解码计算机被配置为用该经过训练的解码器神经网络来解码该量化的y潜在表征以获得重构图像。19.根据权利要求18所述的系统,其中,该系统配置成执行根据权利要求10至17之一所述的方法。
20.一种用于图像或视频的有损或无损压缩和传输以及用于图像或视频的有损或无损解码的计算机实现方法,该方法包括根据权利要求1至7之一的方法和根据权利要求10至17之一的方法。21.一种用于图像或视频的有损或无损压缩和传输以及用于图像或视频的有损或无损解码的系统,该系统包括根据权利要求8或9的系统和根据权利要求18或19的系统。22.一种用于训练编码器神经网络、解码器神经网络、超编码器神经网络和超解码器神经网络以及熵参数的计算机实现方法,所述神经网络和所述熵参数用于图像或视频的有损压缩、传输和解码,该方法包括以下步骤:(i)接收输入的训练图像;(ii)用该编码器神经网络来编码该输入的训练图像以产生y潜在表征;(iii)用该超编码器神经网络来编码该y潜在表征以产生z超潜表征;(iv)用所述熵参数中的一个熵参数来量化该z超潜表征以产生量化的z超潜表征;(v)用所述熵参数将该量化的z超潜表征进行熵编码而形成第一比特流;(vi)用该超解码器神经网络处理该量化的z超潜表征以获得该y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(vii)用隐式编码解算器处理该y潜在表征、该位置熵参数μ
y
和该上下文矩阵A
y
以获得量化的潜在残差;(viii)使用该熵尺度参数σ
y
将所述量化的潜在残差进行熵编码而形成第二比特流;(ix)用算术解码器和所述熵参数解码该第一比特流以产生量化的z超潜表征;(x)用该超解码器神经网络解码该量化的z超潜表征以获得y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(xi)在算术解码器中用该熵尺度参数σ
y
解码该第二比特流以输出量化的潜在残差;(xii)用(如隐式)(如线性)解码解算器处理所述量化的潜在残差、该位置熵参数μ
y
和该上下文矩阵A
y
以获得量化的y潜在表征;(xiii)用该解码器神经网络解码该量化的y潜在表征以获得重构图像;(xiv)求出基于该重构图像和该输入的训练图像之间的差异的损失函数以及速率项;(xv)求出所述损失函数的梯度;(xvi)遍历该解码器神经网络、该超解码器神经网络、该超编码器神经网络和该编码器神经网络来反向所述传播损失函数的梯度,并且使用所述熵参数,用以更新所述编码器、解码器、超编码器和超解码器神经网络的权重并更新所述熵参数;(xvii)用一组训练图像重复步骤(i)至(xvi)以产生经过训练的编码器神经网络、经过训练的解码器神经网络、经过训练的超编码器神经网络和经过训练的超解码器神经网络以及经过训练的熵参数;并且(xviii)存储该经过训练的编码器神经网络、该经过训练的解码器神经网络、该经过训练的超编码器神经网络和该经过训练的超解码器神经网络的权重并存储所述经过训练的熵参数。23.根据权利要求22所述的方法,其中,在步骤(iv)中该熵参数是位置熵参数μ
z
,且在步骤(v)、(ix)和(xvi)至(xviii)中所述熵参数是位置熵参数μ
z
和熵尺度参数σ
z
。24.根据权利要求22或23所述的方法,其中,该隐式编码解算器求解下述隐式方程:
(I)所述量化的潜在残差等于“该y潜在表征减去μ
y
减去作用于该量化的y潜在表征的A
y”之集合的量化函数;和(II)该量化的y潜在表征等于所述量化的潜在残差加上μ
y
加上作用于该量化的y潜在表征的A
y
。25.根据权利要求22至24之一所述的方法,其中,所述(如隐式)(如线性)解码解算器求解如下的所述(例如隐式)方程,即,该量化的y潜在表征等于所述量化的潜在残差加上μ
y
加上作用于该量化的y潜在表征的A
y
。26.根据权利要求22至25之一所述的方法,其中,在压缩算法训练期间使用基本事实变量(图像或潜值)。27.根据权利要求22至26之一所述的方法,其中,该隐式编码解算器通过定义B=I

A来求解所述隐式方程,其中,A是m
×
m矩阵,I是m
×
m单位矩阵,其中,(a)如果B是下三角,则使用正向替换串行方法;或(b)如果B是上三角形,则使用反向替换串行方法;或(c)B按照三角分解进行因子分解,于是通过用正向替换反转下三角因子并且用反向替换反转上三角因子来求解,其中,是该量化残差;或(d)B按照QR分解进行因子分解,其中,Q是正交矩阵,R是上三角矩阵,解为y=R
‑1Q
t
μ,其中,Q
t
是Q转置,或B按照B=QL进行因子分解,其中,L是下三角矩阵,或B=RQ,或B=LQ,其中,Q通过其转置被反转,R通过反向替换被反转,L通过正向替换被反转,于是解分别为y=L
‑1Q
t
μ或y=Q
t
R
‑1μ或y=Q
t
L
‑1μ;或(e)B=D+L+U,其中,D是对角矩阵,并且其中,L是严格下三角矩阵,U是严格上三角矩阵,于是应用雅可比迭代法,直到满足收敛标准;或(f)使用高斯

塞德尔方法;或(g)使用逐次超松弛法,或(h)使用共轭梯度法。28.根据权利要求22至27之一所述的方法,其中,所述(如隐式)(如线性)解码解算器通过定义B=I

A来求解所述(例如隐式)方程,其中,A是m
×
m矩阵,I是m
×
m单位矩阵,其中,(a)如果B是下三角,则使用正向替换串行方法;或(b)如果B是上三角形,则使用反向替换串行方法;或(c)B按照三角分解进行因子分解,于是通过用正向替换反转下三角因子并且用反向替换反转上三角因子来求解,其中,是该量化残差;或(d)B按照QR分解进行因子分解,其中,Q是正交矩阵,R是上三角矩阵,解为y=R
‑1Q
t
μ,其中Q
t
是Q转置,或B按照B=QL进行因子分解,其中,L是下三角矩阵,或B=RQ,或B=LQ,其中,Q通过其转置被反转,R通过反向替换被反转,L通过正向替换被反转,于是解分别为y=L
‑1Q
t
μ或y=Q
t
R
‑1μ或y=Q
t
L
‑1μ;或(e)B=D+L+U,其中,D是对角矩阵,并且其中,L是严格下三角矩阵,U是严格上三角矩阵,然后应用雅可比迭代法,直到满足收敛标准;或(f)使用高斯

塞德尔方法;或(g)使用逐次超松弛法,或
(h)使用共轭梯度法。29.根据权利要求22至28之一所述的方法,其中,由该解算器返回的量化的y潜在表征被用在数据压缩管道中的其它地方,于是无需在训练期间内运行解码解算器,这可显著减少训练基于人工智能的压缩算法所需要的时间。30.根据权利要求22至29之一所述的方法,其中,该隐式编码解算器使用迭代解算器求解所述隐式方程,其中,当满足收敛标准时结束迭代。31.根据权利要求22至30之一所述的方法,其中,该隐式编码解算器返回残差和量化的潜在表征y。32.根据权利要求22至31之一所述的方法,其中,该矩阵A是下三角、上三角、严格下三角、严格上三角,或者A具有稀疏带状结构,或者A是块矩阵,或者A被构造为其矩阵范数小于1,或者A通过矩阵因子分解被参数化,所述矩阵因子分解例如是LU或QR分解。33.根据权利要求22至32之一所述的方法,其中,所述(如隐式)(如线性)解码解算器(如任何线性方程解算器)不一定是与编码所用的解算器同类型的解算器(例如是与之不同的)。34.一种可在处理器上运行以用于训练编码器神经网络、解码器神经网络、超编码器神经网络和超解码器神经网络以及熵参数的计算机程序产品,所述神经网络和所述熵参数用于图像或视频的有损压缩、传输和解码,该计算机程序产品可在所述处理器上执行以:(i)接收输入的训练图像;(ii)用该编码器神经网络来编码该输入的训练图像以产生y潜在表征;(iii)用该超编码器神经网络来编码该y潜在表征以产生z超潜表征;(iv)用所述熵参数中的一个熵参数来量化该z超潜表征以产生量化的z超潜表征;(v)用所述熵参数将所述量化的z超潜表征进行熵编码而得到第一比特流;(vi)用该超解码器神经网络来处理该量化的z超潜表征以获得该y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(vii)用隐式编码解算器处理该y潜在表征、该位置熵参数μ
y
和该上下文矩阵A
y
以获得所述量化的潜在残差;(viii)使用该熵尺度参数σ
y
将所述量化的潜在残差进行熵编码而得到第二比特流;(ix)用算术解码器和所述熵参数解码该第一比特流以产生量化的z超潜表征;(x)用该超解码器神经网络解码该量化的z超潜表征以获得y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和上下文矩阵A
y
;(xi)在算术解码器中使用该熵尺度参数σ
y
解码该第二比特流以输出量化的潜在残差;(xii)用(如隐式)(如线性)解码解算器来处理所述量化的潜在残差、该位置熵参数μ
y
和该上下文矩阵A
y
以获得量化的y潜在表征;(xiii)用该解码器神经网络解码该量化的y潜在表征以获得重构图像;(xiv)求出基于该重构图像与该输入的训练图像之差的损失函数以及速率项;(xv)求出所述损失函数的梯度;(xvi)遍历该解码器神经网络、该超解码器神经网络、该超编码器神经网络和该编码器神经网络来反向传播所述损失函数的梯度,并使用所述熵参数,用以更新所述编码器、解码器、超编码器和超解码器神经网络的权重并更新所述熵参数;和
(xvii)使用一组训练图像重复(i)至(xvi)以产生经过训练的编码器神经网络、经过训练的解码器神经网络、经过训练的超编码器神经网络和经过训练的超解码器神经网络以及经过训练的熵参数;和(xviii)存储该经过训练的编码器神经网络、该经过训练的解码器神经网络、该经过训练的超编码器神经网络和该经过训练的超解码器神经网络的权重并存储所述经过训练的熵参数。35.根据权利要求34所述的计算机程序产品,该计算机程序产品能在处理器上运行以执行根据权利要求22至33之一的方法。36.一种用于图像或视频的有损或无损压缩和传输的计算机实现方法,该方法包括以下步骤:(i)接收输入图像;(ii)用经过训练的编码器神经网络来编码该输入图像以产生y潜在表征;(iii)用经过训练的超编码器神经网络来编码该y潜在表征以产生z超潜表征;(iv)用预学习的熵参数量化该z超潜表征以产生量化的z超潜表征;(v)使用算术编码器并使用依赖于包括该预学习的熵参数的多个预学习熵参数的一维离散概率质量函数将该量化的z超潜表征进行熵编码而得到第一比特流;(vi)用经过训练的超解码器神经网络来处理该量化的z超潜表征以获得该y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和L上下文矩阵L
y
;(vii)用隐式编码解算器处理该y潜在表征、该位置熵参数μ
y
和该L上下文矩阵L
y
以获得量化的潜在残差;(viii)用算术编码器和一维离散概率质量函数和该熵尺度参数σ
y
将所述量化的潜在残差进行熵编码而得到第二比特流;和(ix)发送该第一比特流和该第二比特流。37.根据权利要求36所述的方法,其中,在步骤(iv)中,该预学习的熵参数是预学习的位置熵参数μ
z
,并且在步骤(v)中,所述预学习的熵参数是该预学习的位置熵参数μ
z
和预学习的熵尺度参数σ
z
。38.根据权利要求36或37所述的方法,其中,在步骤(viii)中该一维离散概率质量函数具有零均值。39.根据权利要求36至38之一所述的方法,其中,该隐式编码解算器求解下述隐式方程:(I)所述量化的潜在残差等于“该y潜在表征减去μ
y
减去作用于该量化的y潜在表征的L
y”之集合的舍入函数;和(II)该量化的y潜在表征等于所述量化的潜在残差加上μ
y
加上作用于该量化的y潜在表征的L
y
。40.根据权利要求36至39之一所述的方法,其中,求解如下的方程,即,该量化的y潜在表征等于“该y潜在表征减去位置熵参数μ减去作用于该量化的y潜在表征的L上下文矩阵”的量化值加上该位置熵参数μ加上作用于该量化的y潜在表征的L上下文矩阵L
ij
,其中,该方程被串行求解,针对各个像素根据其在自回归模型中的依赖性排序进行运算,其
中,所有像素都以其自回归排序被迭代,并且在每次迭代时被应用以检索当前迭代时的量化潜值。41.根据权利要求36至40之一所述的方法,其中,利用由该稀疏上下文矩阵L定义的自回归结构来并行化串行解码通路的分量;在此做法中首先创建依赖图、即有向非循环图(DAG),其定义所述潜在像素之间依赖关系;该依赖图是基于该L矩阵的稀疏性结构来构建的;然后,该DAG的同一级别中的在条件上相互独立的像素都被并行计算而不影响其级别中任何其它像素的计算;并且该图通过在根节点开始并运行经过该DAG的各级别来遍历迭代,在每个级别,所有节点都被并行处理。42.根据权利要求36至41之一所述的方法,其中,在该量化的潜在表征y的熵模型中采用已学习的L上下文模块。43.一种用于图像或视频的有损或无损压缩和传输的编码计算机系统,该编码计算机系统包括编码计算机、经过训练的编码器神经网络、经过训练的超编码器神经网络和经过训练的超解码器神经网络,其中:(i)该编码计算机被配置为接收输入图像;(ii)该编码计算机被配置为用该经过训练的编码器神经网络来编码该输入图像以产生y潜在表征;(iii)该编码计算机被配置为用该经过训练的超编码器神经网络来编码该y潜在表征以产生z超潜表征;(iv)该编码计算机被配置为用预学习的熵参数来量化该z超潜表征以产生量化的z超潜表征;(v)该编码计算机被配置为使用算术编码器并使用依赖于包括该预学习的熵参数的多个预学习熵参数的一维离散概率质量函数将该量化的z超潜表征进行熵编码而得到第一比特流;(vi)该编码计算机被配置为用该经过训练的超解码器神经网络来处理该量化的z超潜表征以获得该y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和L上下文矩阵L
y
;(vii)该编码计算机被配置为用隐式编码解算器来处理该y潜在表征、该位置熵参数μ
y
和该L上下文矩阵L
y
以获得量化的潜在残差;(viii)该编码计算机被配置为使用算术编码器、使用一维离散概率质量函数和该熵尺度参数σ
y
将所述量化的潜在残差进行熵编码而得到第二比特流;和(ix)该编码计算机被配置为发送该第一比特流和该第二比特流。44.根据权利要求43所述的系统,其中,该系统配置成执行根据权利要求36至42之一的方法。45.一种用于图像或视频的有损或无损解码的计算机实现方法,该方法包括以下步骤:(i)接收第一比特流和第二比特流;(ii)使用算术解码器并使用依赖于预学习的位置熵参数的一维离散概率质量函数来解码该第一比特流以产生量化的z超潜表征;(iii)用经过训练的超解码器神经网络来解码该量化的z超潜表征以获得y潜在表征的位置熵参数μ
y
、熵尺度参数σ
y
和L上下文矩阵L
y

(iv)使用算术解码器、该一维离散概率质量函数和该熵尺度参数σ
y
来解码该第二比特流以输出量化的潜在残差;(v)用(如隐式)(如线性)解码解算器来处理所述量化的潜在残差、该位置熵参数μ
y
和该L上下文矩阵L
y
以获得量化的y潜在表征;(vi)用经过训练的解码器神经网络来解码该量化的y潜在表征以获得重构图像。46.根据权利要求45所述的方法,其中,在步骤(ii)中所述预学习的熵参数是预学习的位置熵参数μ
z
和预学习的熵尺度参数σ
z
。47.根据权利要求45或46所述的方法,其中,在步骤(iv)中该一维离散概率质量函数具有零均值。48.根据权利要求45至47之一所述的方法,该方法包括步骤(vii):存储该重构图像。49.根据权利要求45至48之一所述的方法,其中,所述(如隐式)(如线性)解码解算器求解如下的所述(例如隐式)方程,即,该量化的y潜在表征等于所述量化的潜在残差加上μ
y
加上作用于该量化的y潜在表征的L
y
。50.根据权利要求45至49之一所述的方法,其中,该方程系统是下三角的,并使用标准正向替换来求解(如隐式)方程。51.根据权利要求45至50之一所述的方法,其中,利用由该稀疏上下文矩阵L定义的自回归结构来并行化串行解码通路的分量;在此做法中首先创建依赖图、即有向非循环图(DAG),其模拟所述潜在像素之间的依赖关系;该依赖图是基于该L矩阵的稀疏性结构来构建的;然后,通过遍历迭代该DAG的各层并使用线性解码方程并行处理该级别的所有像素而从所述量化残差中恢复所述量化的y潜值。52.根据权利要求45至51之一所述的方法,其中,该L上下文建模步骤的解码通路不是串行过程,并且能并行运行。53.根据权利要求45至52之一所述的方法,其中,因为从该第二比特流中恢复所述量化残差不是自回归的,故该过程非常快。54.根据权利要求45至53之一所述的方法,其中,如果在编码中已使用L上下文模块,则使用L上下文模块。55.一种用于图像或视频的有损或无损解码的解码计算机系统,该解码计算机系统包括解码计算机、经过训练的解码器神经...

【专利技术属性】
技术研发人员:克里
申请(专利权)人:荻蒲仁德科技
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1