一种多码率与快速熵模型计算的图像编解码方法及装置制造方法及图纸

技术编号：34997328 阅读：21 留言：0更新日期：2022-09-21 14:45

本发明专利技术公开了一种多码率与快速熵模型计算的图像编解码方法及装置，本发明专利技术通过空间打乱上下文模型，可以利用空间上相邻特征相似度较高的先验，从通道与空间方向对特征进行重新排列，从而获得更多的先验信息，且特征总计只需要1次编码，2次解码，时间复杂度为O(1)，可见，时间复杂度远低于现有的自回归模型，可以提升编解码效率；同时，通过多码率模块进行多码率控制，还可以有效的控制码率范围。此外，通过熵参数估计模型融合超先验信息与上下文特征两部分先验信息，且支持添加ResBlock及下采样方式，能够进一步增大网络感受野，得到更好性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种多码率与快速熵模型计算的图像编解码方法及装置

[0001]本专利技术涉及图像编解码
，尤其涉及一种多码率与快速熵模型计算的图像编解码方法及装置。

技术介绍

[0002]目前的AI图像编解码算法，主要通过一个AutoEncoder(自编码器)网络来实现。具体来说，编码阶段，输入原始图像，通过卷积下采样及非线性激活函数，将图像变换到高维抽象特征空间，获得特征F，接着通过概率模型P，估计该特征F的预测概率用于熵编码；解码阶段，通过概率模型P计算特征的预测概率用于熵解码，之后将解码特征F送入一个上采样网络，得到解码重建图像。
[0003]上述概率模型P建模越精确，压缩后的图像码率越小，所以优秀的概率模型设计非常关键。近两年出现了自回归模型(PixelCNN Context Model)，利用已编码特征先验，进行上下文建模。图1展示了现有的自回归模型进行上下文建模的原理。对于特征F，白色部分为待编码特征值，虚线框外的灰色部分为已编码特征值。虚线框为一个3*3的Mask卷积，沿着每个特征点进行滑动，其中最深颜色块为下一次即将编码特征值，上方灰色特征块为编码该特征值利用到的先验信息。
[0004]通过自回归模型可以利用更多先验信息，可以减少待编码特征信息熵。但是，现有的自回归模型在推理时需要串行解码，时间复杂度为O(N2)，可见，其时间复杂度较高，编解码的效率较低，不利于实际部署。

技术实现思路

[0005]本专利技术的目的是提供一种多码率与快速熵模型计算的图像编解码方法及装置，时间复杂度...

【技术保护点】

【技术特征摘要】
1.一种多码率与快速熵模型计算的图像编解码方法，其特征在于，包括：搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络；输入图像通过所述分析网络获得图像特征F，再经前端的多码率模块进行码率变换获得特征f；所述特征f输入至所述超先验模型，获得超先验信息；将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型，由所述空间打乱上下文模型将所述待编码特征分解为多个部分，其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码，由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息，从通道以及空间方向上进行重新排列，获得上下文特征，再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码，最终获得解码特征；所述解码特征输入至后端的多码率模块进行码率逆变换，再通过生成网络对特征进行变换，获得重建图像。2.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法，其特征在于，经前端的多码率模块进行码率变换获得特征f，所述特征f通过量化，得到待编码特征y表示为：f＝F
×
qy＝Round(f)其中，q表示多码率可学习控制变量，round(.)表示四舍五入量化函数。3.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法，其特征在于，所述特征f输入至所述超先验模型，获得超先验信息的步骤包括：所述特征f通过所述超先验模型中的超先验分析网络进行卷积处理，卷积处理结果分为两路，其中一路通过量化，获得特征Z，另一路通过拉普拉斯估计模型进行建模，基于建模结果获得特征Z的概率分布；所述特征Z与特征Z的概率分布输入至所述超先验模型中的超先验生成网络，获得超先验信息。4.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法，其特征在于，由所述空间打乱上下文模型将所述待编码特征分解为多个部分，其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码，再通过所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息，从通道以及空间方向上进行重新排列，获得上下文特征，再由所述熵参数估计模型结合上下文特征对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码，最终获得解码特征包括：由所述空间打乱上下文模型将待编码特征y分解四个部分，依次记为特征y1、特征y2、特征y3与特征y4；取出在空间位置交错的特征y1与特征y4，由熵参数估计模型结合所述超先验信息对所述特征y1与特征y4进行熵编码与熵解码，获得对应的解码特征y1
’
与解码特征y4
’
；将解码特征y1
’
与解码特征y4
’
送入空间打乱上下文模型，在通道方向中进行拼接，获得拼接特征；将所述拼接特征沿通道方向拆分为四份，并在空间方向上进行堆叠，获得打乱
后的特征；将打乱后的特征通过两个并行的卷积网络，获得两个不同尺度的先验信息，并进行拼接，获得上下文特征；由所述熵参数估计模型利用所述超先验信息与上下文特征对所述特征y2与特征y3进行熵编码与熵解码，获得解码特征y2
’
与解码特征y3
’
；综合解码特征y1
’
、解码特征y2
’
、解码特征y3
’
与解码特征y4
’
获得解码特征y
’
。5.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法，其特征在于，由所述空间打乱上下文模型将所述待编码特征分解为多个部分，其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码，再通过所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息，从通道以及空间方向上进行重新排列，获得上下文特征，再由所述熵参数估计模型结合上下文特征对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码，最终获得解码特征包括：由所述空间打乱上下文模型将待编码特征分解四个部分，依次记为特征y1、特征y2、特征y3与特征y4；由熵参数估计模型结合所述超先验信息对所述特征y1进行熵编码与熵解码，获得对应的解码特征y1
’
；将解码特征y1
’
送入空间打乱上下文模型，沿通道方向拆分为四份，并在空间方向上进行堆叠，获得打乱后的特征，将打乱后的特征通过两个并行的卷积网络，获得两个不同尺度的先验信息，并进行拼接，获得解码特...

【专利技术属性】
技术研发人员：武祥吉，陈也达，袁庆祝，
申请(专利权)人：上海双深信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人