System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度学习的自适应图像编码方法技术_技高网

一种基于深度学习的自适应图像编码方法技术

技术编号:43441495 阅读:9 留言:0更新日期:2024-11-27 12:47
本发明专利技术公开了一种基于深度学习的自适应图像编码方法,涉及图像处理技术领域,解决了目前图像压缩编码过程中缺乏对特征目标的检测分类,解码后有可能破坏特征目标的完整性,以及压缩率较低的技术问题;包括:基于图像数据集训练得到目标检测模型GoogLeNet;将二次处理后的图像特征输入到训练完成的目标检测模型GoogLeNet中,得到最终的目标分类结果以及目标包围框位置;根据目标分类结果以及目标包围框位置将待编码图像进行块划分,以便并行处理,同时保证图像目标完整性;然后分别对每个图像块进行预测,对基于图像块得到的预测残差及预测模式进行熵编码,最终得到每个图像块的码流,进而达到提高压缩率的目的。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体是一种基于深度学习的自适应图像编码方法


技术介绍

1、近几年来,数码相机应用越来越广泛,涉及医学、科研、消费、国防、商业等领域。由于相机传感器的发展,其分辨率越来越高,随之对存储空间及传输带宽的要求也逐渐提高。因此,对于视频图像的压缩编码越来越重要;

2、图像的压缩编码,就是对要处理的图像信息源用一定的规则进行变换和组合,减少图像信息间的冗余及相关性,最终用尽可能少的符号来表示尽可能多的图像信息;目前图像压缩编码是将单个图片进行块划分,对每个块进行编码,最终得到每个块的码流;但是进行块划分时,缺乏对图片中特征目标的检测分类,有可能导致特征目标被分成多个块,解码后有可能破坏图片特征目标的完整性;为此,本专利技术提出一种基于深度学习的自适应图像编码方法。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了一种基于深度学习的自适应图像编码方法。

2、为实现上述目的,本专利技术的第一方面提供了一种基于深度学习的自适应图像编码方法,包括如下步骤:

3、步骤一:基于图像数据集训练得到目标检测模型googlenet;所述图像数据集包含60000张图像,图像中分别包括飞机、船、人、汽车、动物、风景物;

4、步骤二:对待编码图像进行二次处理;所述二次处理包括但不限于灰化、边缘增强、滤波和去除噪点;

5、步骤三:将二次处理后的图像特征输入到训练完成的目标检测模型googlenet中,得到最终的目标分类结果以及目标包围框位置;

6、步骤四:根据目标分类结果以及目标包围框位置将待编码图像进行块划分;其中目标数量与块数量保持一致,每个块中包含一个目标;

7、步骤五:分别对每个图像块进行预测,对基于图像块得到的预测残差及预测模式进行熵编码,最终得到每个图像块的码流;具体步骤如下:

8、s51:针对某个图像块,令hi,j表示图像块第i行,第j列的像素灰度值;

9、s52:对每个图像块逐一采用不同预测方式进行预测,得到对应的预测值;将预测值与对应原像素灰度值求差值,然后对残差进行向下取整;

10、通过比较各种预测方式得到的残差绝对值加和的大小,选取使得该加和最小的最优预测方式为当前图像块的预测方式;

11、s53:对步骤s52得到的正整数像素残差以及最优预测方式进行熵编码,最终得到每个块的码流。

12、进一步地,基于图像数据集训练得到目标检测模型googlenet,具体为:

13、s11:抽取图像数据集中随机50000幅作为训练集,10000幅作为测试集;

14、s12:使用骨干网络对数据集中图像进行特征提取,对于每个输入图像,基于骨干网络不同阶段输出的不同长宽、不同通道数的特征图,得到一个3d特征空间;

15、s13:基于初始查询配置和解码器,建立目标检测模型googlenet;

16、其中,初始查询配置是指:为输入特征图初始化编码生成n个初始查询量,查询量包括初始语义向量f0,以及对应查询采样点的初始位置向量(x,y,z,r);

17、s14:对配置的网络模型采用训练集和测试集进行训练,使用focal loss,l1loss和giou loss组合作为损失函数,使用adamw优化器,通过反向传播算法来更新网络参数,得到损失最小的目标检测模型googlenet。

18、进一步地,对图像块进行预测的预测方式包括以下三种:

19、第一种:

20、对hi,j,j≤1的像素不进行预测;

21、对hi,j,j≥2的像素进行预测,令hi,j预测值=0.8×hi,j-2;

22、第二种:

23、对hi,j,i≤1,j=2,3的像素进行预测,令hi,j预测值=0.8×hi,j-2;

24、对hi,j,i≤1,j≥4的像素进行预测,令hi,j预测值=(hi,j-2+hi,j-4)/3;

25、对hi,j,i≥2,j≥2的像素进行预测,令hi,j预测值=(hi-2,j+hi,j-2)/3;

26、第三种:

27、对hi,j,i=0,j=0的像素不进行预测;

28、对hi,j,i=0,j≥1的像素进行预测,令hi,j预测值=hi,j--1;

29、对hi,j,i≥1,j=0的像素进行预测,令hi,j预测值=hi-1,j;

30、对hi,j,i≥1,j≥1的像素进行预测,令hi,j预测值=hi-1,j×0.3+hi-1,j-1×0.3+hi,j-1×0.4。

31、进一步地,二次处理的过程中使用傅里叶、沃尔什两种算法同时处理的策略。

32、进一步地,(x,y,z)是采样点在3d特征空间中的坐标,r是特征图的高宽比的以2为底的对数,初始语义向量f0从标准正态分布n(0,1)中随机采样得到,初始位置向量(x,y,z,r)设置为能够覆盖整张特征图。

33、进一步地,解码器的输入是编码生成的初始查询量,输出是经过解码器优化之后的相同格式的查询量。

34、进一步地,选用哈夫曼编码对像素残差进行熵编码,采用指数哥伦布编码对最优预测方式进行熵编码。

35、与现有技术相比,本专利技术的有益效果是:

36、本专利技术通过基于深度学习技术训练得到目标检测模型googlenet,对图像进行目标检测,根据目标分类结果以及目标包围框位置将图像进行块划分,以便并行处理,同时保证图像目标完整性;然后对每个图像块采用最优的预测方式得到当前像素预测值,进而得到像素残差值,减少像素间相关性,降低冗余;最后选用哈夫曼编码对预测残差进行熵编码,得到不同块的编码码流,进而达到提高压缩率的目的。

本文档来自技高网...

【技术保护点】

1.一种基于深度学习的自适应图像编码方法,其特征在于,包括:

2.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,基于图像数据集训练得到目标检测模型GoogLeNet,具体包括:

3.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,对图像块进行预测的预测方式包括以下三种:

4.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,二次处理过程中使用傅里叶、沃尔什两种算法同时处理的策略。

5.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,(x,y,z)是采样点在3D特征空间中的坐标,r是特征图的高宽比的以2为底的对数,初始语义向量F0从标准正态分布N(0,1)中随机采样得到,初始位置向量(x,y,z,r)设置为能够覆盖整张特征图。

6.根据权利要求2所述的一种基于深度学习的自适应图像编码方法,其特征在于,解码器的输入是编码生成的初始查询量,输出是经过解码器优化之后的相同格式的查询量。

7.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,选用哈夫曼编码对像素残差进行熵编码,采用指数哥伦布编码对最优预测方式进行熵编码。

...

【技术特征摘要】

1.一种基于深度学习的自适应图像编码方法,其特征在于,包括:

2.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,基于图像数据集训练得到目标检测模型googlenet,具体包括:

3.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,对图像块进行预测的预测方式包括以下三种:

4.根据权利要求1所述的一种基于深度学习的自适应图像编码方法,其特征在于,二次处理过程中使用傅里叶、沃尔什两种算法同时处理的策略。

5.根据权利要求1所述的一种基于深度学习的自适应图像编...

【专利技术属性】
技术研发人员:王大勇汤才宝邱禹辰
申请(专利权)人:安徽睿极智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1