一种面向多机器视觉任务的高效编码方法、装置及介质制造方法及图纸

技术编号：41146442 阅读：5 留言：0更新日期：2024-04-30 18:14

本发明专利技术公开了一种面向多机器视觉任务的高效编码方法、装置及介质，涉及图像处理技术领域，包括步骤：根据当前机器视觉任务，通过语义提取网络进行目标先验信息的获取；通过在中间层插入内部适配器的编码器，结合目标先验信息对当前图像进行码率重分配下的图像编码；通过在中间层插入内部适配器的解码器，对图像编码后的图像进行重建以获取解码图像；基于解码图像，通过预训练的机器视觉网络进行任务推断。本发明专利技术在原有编解码器的基础上增加内部适配器，并结合外部先验信息，从而使得机器视觉任务类型发生改变时，无需改变原始的编解码器参数，只需对适配器与机器视觉网络的头部进行适应性训练即可，大大提高了编码的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种面向多机器视觉任务的高效编码方法、装置及介质。

技术介绍

1、机器视觉模型需要大量的训练数据，特别是最近流行的大型模型如clip、sam、blip等。这样大量的数据的传输和存储对机器视觉应用的进一步发展提出了重大挑战。特别是在边缘设备上，算力以及网络带宽存在一定限制。因此，压缩数据以减少存储和传输成本已成为一个迫切的任务。传统的标准化有损编码方法，如jpeg、hevc和vvc，已经被广泛用于日常数据压缩。近年来，快速发展的基于学习的编解码器也在速率失真性能方面表现出了强大的能力。但随着深度学习应用相关研究工作的逐步深入和成熟，图像或者视频信息在越来越多的场合会被用作机器智能分析任务(如自动驾驶、元宇宙、远程医疗等)的输入，现有的压缩主要致力于对视觉保真度进行优化，忽视了机器和人类对图像的不同感知。因此，这些方法产生的压缩图像常常在下游机器视觉任务中产生次优结果。因此如果能够设计一种面向多智能任务的高效编码框架，提高对于智能任务的率失真性能，将极大地降低所需传输带宽、存储空间，以及算力需求，推动智能多媒体技术的发展。

技术实现思路

1、传统的图像编码标准主要针对人类的视觉优化，而忽略了大多数现代图像实际上是由机器进行分析的，在实际情况下与人类感知存在很大差异，为此，本专利技术提出了一种面向多机器视觉任务的高效编码方法，包括步骤：

2、s1：根据当前机器视觉任务，通过语义提取网络进行目标先验信息的获取；

3、s2：通过在中间层

4、s3：通过在中间层插入内部适配器的解码器，对图像编码后的图像进行重建以获取解码图像；

5、s4：基于解码图像，通过预训练的机器视觉网络进行任务推断。

6、进一步，所述s1步骤中机器视觉任务包括图像分类、语义分割和目标检测。

7、进一步地，所述s1步骤中，目标先验信息包括目标检测框、边缘信息、灰度图、深度信息。

8、进一步地，所述内部适配器由两个深度卷积层和一个零卷积层组成，所述零卷积层为初始权重为零的卷积层。

9、进一步地，所述内部适配器通过改变特征分布实现不同机器视觉任务之间的迁移学习。

10、进一步地，所述s1步骤中的目标先验信息通过所述s2步骤中的内部适配器迁移到编码器中。

11、进一步地，所述s3步骤中的解码图像通过s3步骤中的内部适配器迁移到所述s4步骤中的机器视觉网络中。

12、进一步地，当所述机器视觉任务更换时，通过对适配器以及机器视觉网络的head部分进行重新训练以适配更换后的机器视觉任务。

13、还包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述一种面向多机器视觉任务的高效编码方法的步骤。

14、还包括一种处理数据的装置，其特征在于，包括：

15、存储器，其上存储有计算机程序；

16、处理器，用于执行所述存储器中的计算机程序，以实现所述一种面向多机器视觉任务的高效编码方法的步骤。

17、与现有技术相比，本专利技术至少含有以下有益效果：

18、(1)本专利技术所述的一种面向多机器视觉任务的高效编码方法、装置及介质，通过在原有编解码器的基础上增加内部适配器，并结合外部先验信息，从而使得机器视觉任务类型发生改变时，无需改变原始的编解码器参数，只需对适配器与机器视觉网络的头部进行适应性训练即可，大大提高了编码的效率；

19、(2)通过深度卷积层的引入，使得适配器整体更加轻量级，从而只需要对较少的参数进行微调，而零卷积层的加入则进一步提高了调整过程中的稳定性。

本文档来自技高网...

【技术保护点】

1.一种面向多机器视觉任务的高效编码方法，其特征在于，包括步骤：

2.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述S1步骤中机器视觉任务包括图像分类、语义分割和目标检测。

3.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述S1步骤中，目标先验信息包括目标检测框、边缘信息、灰度图、深度信息。

4.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述内部适配器由两个深度卷积层和一个零卷积层组成，所述零卷积层为初始权重为零的卷积层。

5.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述内部适配器通过改变特征分布实现不同机器视觉任务之间的迁移学习。

6.如权利要求5所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述S1步骤中的目标先验信息通过所述S2步骤中的内部适配器迁移到编码器中。

7.如权利要求5所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述S3步骤中的解码图像通过S3步骤中的内部适配器迁移到

8.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，当所述机器视觉任务更换时，通过对适配器以及机器视觉网络的head部分进行重新训练以适配更换后的机器视觉任务。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项所述编码方法的步骤。

10.一种处理数据的装置，其特征在于，包括：

...

【技术特征摘要】

1.一种面向多机器视觉任务的高效编码方法，其特征在于，包括步骤：

2.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述s1步骤中机器视觉任务包括图像分类、语义分割和目标检测。

3.如权利要求1所述的一种面向多机器视觉任务的高效编码方法，其特征在于，所述s1步骤中，目标先验信息包括目标检测框、边缘信息、灰度图、深度信息。

6....

【专利技术属性】
技术研发人员：金鑫，刘津铭，曾文军，
申请(专利权)人：宁波东方理工大学暂名，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人