基于Attention机制的训练图片压缩网络的构建方法及系统技术方案

技术编号:23987074 阅读:49 留言:0更新日期:2020-04-29 14:04
本发明专利技术公开了一种基于Attention机制的训练图片压缩网络的构建方法及系统,属于图像压缩、Attention机制及卷积神经网络领域,本发明专利技术要解决的技术问题为如何基于Attention机制去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压时,生成一个视觉效果上比较好的图片,采用的技术方案为:该方法具体如下:将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;利用改进的Vgg网络生产关于一个图片的Attention map;在训练压缩和解压网络过程中获取损失函数,公式如下:Loss=R+λD;其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;R表示熵编码参数。该系统包括重构图片获取模块、Attention map生成模块及损失函数获取模块。

Construction method and system of training image compression network based on attention mechanism

【技术实现步骤摘要】
基于Attention机制的训练图片压缩网络的构建方法及系统
本专利技术涉及图像压缩、Attention机制及卷积神经网络领域,具体地说是一种基于Attention机制的训练图片压缩网络的构建方法及系统。
技术介绍
基于深度学习DNN的图片压缩方法目前已经成为最近研究的主流方向。基于深度学习的图片压缩方法已经成为目前的主流方法的JPEG和BGP的有力竞争者。除了自然的图片上,深度学习方法实现了强有力的压缩率,它们还能都轻松的适应到具体的某个领域,例如立体图像或者医学影像,并且还可以通过图像的压缩表示直接进行索引。深度学习方法也主要在PSNR和MS-SSIM上进行比较。传统的深度学习压缩网络在训练的时候,对于图像中的每一个点都是平等看待,但是实际情况下,我们一般对前景会使用较小的压缩比,对背景使用较大的压缩比,为了实现这种效果,如何基于Attention机制去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压时,生成一个视觉效果上比较好的图片是目前急需解决的技术问题。
技术实现思路
本专利技术的技术任务是提供一种基于Attention机制的训练图片压缩网络的构建方法及系统,来解决如何基于Attention机制去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压时,生成一个视觉效果上比较好的图片的问题。本专利技术的技术任务是按以下方式实现的,一种基于Attention机制的训练图片压缩网络的构建方法,该方法具体如下:将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;利用改进的Vgg网络生产关于一个图片的Attentionmap;在训练压缩和解压网络过程中获取损失函数,公式如下:Loss=R+λD;其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示AttentionMap矩阵;R表示熵编码参数。作为优选,所述获取重构图片,同时获取熵编码R具体如下:通过编码器对训练图片进行编码,得到编码后的特征图;通过量化器对特征图进行量化,得到量化后的特征图;同时通过熵编码器对量化后特征图进行熵编码,得到熵编码参数;通过解码器对量化后的特征图进行解码,得到重构图片。更优地,所述编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;所述解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。作为优选,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层;再接一个全连接层。更优地,所述Vgg网络使用mageNet数据集进行训练。作为优选,所述AttentionMap矩阵获取过程如下:对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;globalpooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;将50176*1的矩阵进行转置变成224*224*1的Attentionmap矩阵。一种基于Attention机制的训练图片压缩网络的构建系统,该系统包括,重构图片获取模块,用于将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;Attentionmap生成模块,用于利用改进的Vgg网络生产关于一个图片的Attentionmap;损失函数获取模块,用于在训练压缩和解压网络过程中获取损失函数,公式如下:Loss=R+λD;其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示AttentionMap矩阵;R表示熵编码参数;作为优选,所述重构图片获取模块包括,编码器,用于对训练图片进行编码,得到编码后的特征图;编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;量化器,用于对特征图进行量化,得到量化后的特征图;熵编码器,用于对量化后特征图进行熵编码,得到熵编码参数;解码器,用于对量化后的特征图进行解码,得到重构图片;解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。作为优选,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层;再接一个全连接层;其中,Vgg网络使用mageNet数据集进行训练。作为优选,所述AttentionMap矩阵获取过程如下:对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;globalpooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;将50176*1的矩阵进行转置变成224*224*1的Attentionmap矩阵。本专利技术的基于Attention机制的训练图片压缩网络的构建方法及系统具有以下优点:(一)传统方法的深度学习图片压缩方法,损失函数为R+λD,该损失函数对于图片中前景和背景都是利用相同的λ值,本专利技术中引入图片的AttentionMap进行λ的构造,使前景拥有更大的λ值,背景拥有更小的λ,这样不同像素点会对应不同的Attention值,这样使得在同样压缩比的情况下,解压后的图像视觉效果更好;(二)本专利技术和其他的传统的方法JPEG、BPG和CNN相比,在更小的压缩比下,还训练图片的效果差不多;(三)本专利技术使用一个AttentionMap去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压的时候,生成一个视觉效果上比较好的图片;(四)本专利技术主要提出使用Attention进行图片本文档来自技高网...

【技术保护点】
1.一种基于Attention机制的训练图片压缩网络的构建方法,其特征在于,该方法具体如下:/n将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;/n利用改进的Vgg网络生产关于一个图片的Attention map;/n在训练压缩和解压网络过程中获取损失函数,公式如下:/nLoss=R+λD;/n其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;R表示熵编码参数。/n

【技术特征摘要】
1.一种基于Attention机制的训练图片压缩网络的构建方法,其特征在于,该方法具体如下:
将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;
利用改进的Vgg网络生产关于一个图片的Attentionmap;
在训练压缩和解压网络过程中获取损失函数,公式如下:
Loss=R+λD;
其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示AttentionMap矩阵;R表示熵编码参数。


2.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述获取重构图片,同时获取熵编码R具体如下:
通过编码器对训练图片进行编码,得到编码后的特征图;
通过量化器对特征图进行量化,得到量化后的特征图;
同时通过熵编码器对量化后特征图进行熵编码,得到熵编码参数;
通过解码器对量化后的特征图进行解码,得到重构图片。


3.根据权利要求2所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
所述解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。


4.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层;再接一个全连接层。


5.根据权利要求4所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述Vgg网络使用mageNet数据集进行训练。


6.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述AttentionMap矩阵获取过程如下:
对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
globalpooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
将50...

【专利技术属性】
技术研发人员:冯落落李锐金长新
申请(专利权)人:山东浪潮人工智能研究院有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1