面向机器和人类视觉的图像编码、解码方法及压缩方法技术

技术编号：43804396 阅读：3 留言：0更新日期：2024-12-27 13:22

本发明专利技术提供一种面向机器和人类视觉的图像编码、解码方法及压缩方法，其主要过程是：获得待编码图像的第一特征图和第二特征，获得第一特征图的超先验信息；获得待编码图像在不同机器视觉任务下的量化步长并量化得到对应特征图；将上述特征图建模为高斯分布，通过熵模型预测对应的均值和方差；根据每层特征图的分布和概率逐层进行编码得到特征图二进制码流；合并超先验信息二进制码流和特征图二进制码流，得到压缩图像二进制码率。本发明专利技术自适应调整特征图量化的量化步长，形成针对人类视觉和不同机器视觉任务的传输特征码流，可以更高效地利用特征图中的信息，减小传输码率的同时，保证机器视觉任务的性能，同时均衡面向人类视觉的率失真性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种面向机器和人类视觉的图像编码、解码方法及压缩方法。

技术介绍

1、近年来，基于深度学习的端到端的图像压缩编码技术得到了快速的发展，然而许多图像编码传输场景并不是为了人类视觉服务的，而是由机器对解码图像执行计算机视觉任务。因此，端到端的图像压缩模型主要目标不仅仅是保持视觉质量，而是在给定比特率下保持机器任务的任务精度。2019年l.duan在《ieee transactions on image processing》期刊上发表的“video coding for machines:a paradigm of collaborativecompression and intelligent analytics”提出了面向机器视觉的基于深度学习的端到端图像压缩编码方案。y.hu在2020年的《ieee international conference on multimediaand expo》上发表的“towards coding for human and machine vision:a scalableimage coding approach”提出了通过可伸缩编码的方式，实现同时面向人类视觉和机器视觉的图像压缩编码框架，为图像压缩编码提供了更广泛的应用场景。2022年，h.choi在《ieee transactions on image processing》期刊上发表的“scalable image coding forhumans and machines”中，提出了基于固定特征通道

2、然而，由于特征通道分组是固定的，对于不同的计算机视觉任务，规定的特征通道组不是最优的特征通道组，这导致了传输的码流具有冗余，且机器任务的性能并非最优。

技术实现思路

1、针对现有技术中的缺陷，本专利技术的目的是提供一种面向机器和人类视觉的图像编码、解码方法及压缩方法。

2、本专利技术的第一方面，提供一种面向机器和人类视觉的图像编码方法，包括：

3、对于待压缩的图像，采用编码卷积神经网络生成所述图像的多通道特征图，作为第一特征图；按照量化步长1量化所述第一特征图，得到面向人类视觉编码的特征图，作为第二特征图；

4、对于所述第一特征图，通过超先验编码卷积神经网络提取超先验信息，并获取超先验信息二进制码流，随后通过超先验解码卷积神经网络对所述超先验信息二进制码流解码生成重构超先验信息；

5、利用所述重构超先验信息估计面向机器视觉编码的量化步长，并调整为奇数，根据所述量化步长将所述第一特征图量化为面向n个机器视觉任务的量化特征图，其中n为正整数；

6、利用所述重构超先验信息依次采用熵模型预测第n个机器视觉任务至第1个机器视觉任务的所述量化特征图的分布、所述第二特征图的分布；根据预测分布进行概率估计，根据所述估计概率进行算术编码，获得逐层特征图二进制码流，合并获得特征图二进制码流；

7、合并所述超先验信息二进制码流和所述特征图二进制码流，得到压缩图像二进制码流。

8、优选的，所述对于所述第一特征图，通过超先验编码卷积神经网络提取超先验信息，并获取超先验信息二进制码流，随后通过超先验解码卷积神经网络对所述超先验信息二进制码流解码生成重构超先验信息，包括：

9、通过超先验编码卷积神经网络从所述第一特征图中获得超先验特征图；

10、对所述超先验特征图进行量化，得到量化的超先验特征图；

11、对量化的超先验特征图进行特征相互独立的分布估计，并利用所述分布估计对量化的超先验特征图进行算术编码，获得超先验信息二进制码流；

12、采用算术解码，从所述超先验信息二进制码流中恢复超先验信息；

13、通过超先验解码卷积神经网络从恢复的超先验信息获得重构超先验信息；

14、其中，所述超先验解码卷积神经网络是对应超先验编码卷积神经网络的反卷积神经网络。

15、优选的，所述利用所述重构超先验信息估计面向机器视觉编码的量化步长，并调整为奇数，根据所述量化步长将所述第一特征图量化为面向n个机器视觉任务的量化特征图，其中n为正整数，包括：

16、根据机器视觉任务所需要的信息量关系，规定n个机器视觉任务的索引i＝1,…,n，索引越小机器视觉任务所需要的信息量越大；所述机器视觉任务包括图像分类、目标检测、语义分割和实例分割；

17、利用所述重构超先验信息得到n个机器视觉任务之间的量化步长关系；

18、根据不同机器视觉任务之间的量化步长对应关系，得到不同任务的面向机器视觉编码的量化步长；

19、利用所述面向机器视觉编码的量化步长对所述第一特征图进行量化，得到n个机器视觉任务对应的量化特征图。

20、优选的，所述利用所述重构超先验信息得到n个机器视觉任务之间的量化步长关系，包括：

21、对于i＝1,…,n，使用量化卷积神经网络，估计所述第一特征图在第i个机器视觉任务和第i+1个机器视觉任务之间的量化步长关系qi，具体为：

22、将所述重构超先验信息输入核大小为3×3的卷积层conv13×3进行变换，使用leakyrelu作为非线性映射层，得到潜层量化步长关系信息

23、

24、其中，leakyrelu函数为：

25、

26、其中，α为用于调控负值的梯度的正值参数；

27、对所述潜层量化步长关系信息进行上采样，依次通过使用softplus非线性映射层的反卷积层deconv13×3和使用leakyrelu非线性映射层的反卷积层deconv23×3，得到粗糙量化步长关系

28、

29、其中，softplus函数表达式为：

30、softplus(x)＝log(1+ex)

31、将所述粗糙量化步长关系输入核大小为3×3的卷积层conv23×3，使用softplus非线性映射层，并添加偏置1，保证量化步长的关系不小于1，得到连续量化步长关系

32、

33、调整所述连续量化步长关系使量化步长近似为奇数，得到第i个机器视觉任务和第i+1个机器视觉任务之间的量化步长关系qi，具体为：

34、

35、其中，返回不大于q的最大正整数。

36、优选的，所述根据不同机器视觉任务之间的量化步长对应关系，得到不同任务的面向机器视觉编码的量化步长，包括：

37、对于i＝1,…,n，估计所述第一特征图在第i个机器视觉任务下的量化步长qi：

38、

39、优选的，所述利用所述面向机器视觉编码的量化步长对所述第一特征图进行量化，得到n个机器视觉任务对应的量本文档来自技高网...

【技术保护点】

1.一种面向机器和人类视觉的图像编码方法，其特征在于，包括：

2.根据权利要求1所述的面向机器和人类视觉的图像编码方法，其特征在于，所述对于所述第一特征图，通过超先验编码卷积神经网络提取超先验信息，并获取超先验信息二进制码流，随后通过超先验解码卷积神经网络对所述超先验信息二进制码流解码生成重构超先验信息，包括：

3.根据权利要求1所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用所述重构超先验信息估计面向机器视觉编码的量化步长，并调整为奇数，根据所述量化步长将所述第一特征图量化为面向N个机器视觉任务的量化特征图，其中N为正整数，包括：

4.根据权利要求3所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用所述重构超先验信息得到N个机器视觉任务之间的量化步长关系，包括：

5.根据权利要求4所述的面向机器和人类视觉的图像编码方法，其特征在于，所述根据不同机器视觉任务之间的量化步长对应关系，得到不同任务的面向机器视觉编码的量化步长，包括：

6.根据权利要求5所述的面向机器和人类视觉的图像编码方法，其特征在于，

7.根据权利要求1所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用重构超先验信息依次采用熵模型预测第N个机器视觉任务至第1个机器视觉任务的所述量化特征图的分布、所述第二特征图的分布，根据所预测分布进行概率估计，根据估计概率进行算术编码，获得逐层特征图二进制码流，合并获得特征图二进制码流，包括：

8.一种面向机器和人类视觉的图像解码方法，用于对应解码权利要求1-7任一项的面向机器和人类视觉的图像编码方法，其特征在于，包括：

9.一种面向机器和人类视觉的图像压缩方法，其特征在于，包括：

10.根据权利要求9所述的面向机器和人类视觉的图像压缩方法，其特征在于，编码卷积神经网络、解码卷积神经网络、超先验编码卷积神经网络、超先验解码卷积神经网络、熵模型的参数通过率失真优化获得：

11.根据权利要求10所述的面向机器和人类视觉的图像压缩方法，其特征在于，N个机器视觉任务的量化卷积神经网络的参数通过码率与任务精度的优化获得：

12.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-8任一项所述的一种面向机器和人类视觉的图像编码方法，或，权利要求9所述的一种面向机器和人类视觉的图像解码方法，或，权利要求10-11任一项所述的一种面向机器和人类视觉的图像压缩方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-8任一项所述的一种面向机器和人类视觉的图像编码方法，或，权利要求9所述的一种面向机器和人类视觉的图像解码方法，或，权利要求10-11任一项所述的一种面向机器和人类视觉的图像压缩方法。

...

【技术特征摘要】

1.一种面向机器和人类视觉的图像编码方法，其特征在于，包括：

3.根据权利要求1所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用所述重构超先验信息估计面向机器视觉编码的量化步长，并调整为奇数，根据所述量化步长将所述第一特征图量化为面向n个机器视觉任务的量化特征图，其中n为正整数，包括：

4.根据权利要求3所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用所述重构超先验信息得到n个机器视觉任务之间的量化步长关系，包括：

6.根据权利要求5所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用所述面向机器视觉编码的量化步长对所述第一特征图进行量化，得到n个机器视觉任务对应的量化特征图，具体为：

7.根据权利要求1所述的面向机器和人类视觉的图像编码方法，其特征在于，所述利用重构超先验信息依次采用熵模型预测第n个机器视觉任务至第1个机器视觉任务的所述量化特征图的分布、所述第二特征图的分布，根据所预...

【专利技术属性】
技术研发人员：熊红凯，李劭辉，马硕宇，戴文睿，李成林，邹君妮，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人