一种漫画图像着色方法、系统、装置和存储介质制造方法及图纸

技术编号:36777363 阅读:13 留言:0更新日期:2023-03-08 22:04
本发明专利技术公开了一种漫画图像着色方法、系统、装置和存储介质,其中方法包括:获取尺寸大小为H

【技术实现步骤摘要】
一种漫画图像着色方法、系统、装置和存储介质


[0001]本专利技术涉及图像处理
,尤其涉及一种漫画图像着色方法、系统、装置和存储介质。

技术介绍

[0002]彩色漫画相比于黑白漫画提供了更多的信息,更贴近于现实世界,能更好地取悦读者。在漫画创作的过程中,上色是其中非常重要的一个步骤,但对于创作者来说,上色非常耗费时间和精力,因此可利用计算机和图像处理技术实现自动的漫画图像着色,大大提高创作者的创作效率。并且目前有大量的漫画都是黑白的形式,若能通过自动着色技术上色,则可以大大提高读者的阅读体验。
[0003]图像着色是一项挑战性的任务,现有的方法可大致分为三种方向,一是基于用户输入,二是基于参考图像,三是自动着色。基于用户着色的方法需要用户提供一定的色彩提示信息,例如在黑白图像上进行部分涂鸦。基于参考图像的方法需要找到与待着色图像相似的彩色图像,再将颜色迁移过去。自动着色则只需要提供黑白的图像,即可获得一张或多张彩色图像。
[0004]漫画的自动着色可看作图像处理技术中的图像生成任务,通过一定的条件输入信息预测未知的色彩信息。同时这是一个不适定问题,对于同一幅图像,会有多种合乎常理的着色结果。图像生成可通过机器学习技术自动编码器(Auto

Encode,AE)或自变分编码器(VariationalAuto Encoder,VAE)实现,在对抗生成网络(Generative Adversarial Networks,GAN)问世之后,成为了此类任务的主流解决方案。漫画的着色模型可借鉴黑白自然图片着色GAN模型的思想,通过编码器

解码器的结构,编码器进行卷积下采样过程,解码器进行反卷积上采样过程,再利用判别器提供的GAN Loss和L1 Loss训练模型。基于自注意力模型的Transformer 模型提出时是为了解决自然语言处理任务,但是该模型在其他任务中也获得了优势,因此同样也可以适用于图像生成。但是Transformer模型应用图像处理任务存在一个缺陷是需要大量的计算资源,需要降低图像分辨率及色深进行处理,并且加入一个提升网络模型重建分辨率及色深。漫画图像与自然图像存在差异,漫画图像没有自然图像那样丰富的细节,自然图像没有漫画图像明显的轮廓描边以及变化多样的色彩,在低分辨率下进行着色的Transformer 模型更适合纹理比较少的漫画图像。

技术实现思路

[0005]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种漫画图像着色方法、系统、装置和存储介质。
[0006]本专利技术所采用的技术方案是:
[0007]一种漫画图像着色方法,包括以下步骤:
[0008]获取尺寸大小为H
×
W的漫画图像,对所述漫画图像进行下采样,获得第一分辨率图像;其中,所述第一分辨率图像为灰度图像;
[0009]将所述第一分辨率图像输入基于自注意力机制的Transformer网络,进行特征提取,并对第一分辨率图像中每个像素的颜色分布进行预测,获得带有色深的粗着色图像;
[0010]将所述粗着色图像和所述漫画图像,输入基于对抗生成的提升网络,进行分辨率与色深的重建,获得第二分辨率图像;
[0011]对所述第二分辨率图像进行上采样,获得尺寸大小为H
×
W的细着色图像;
[0012]其中,所述第二分辨率图像的分辨率大于所述第一分辨率图像的分辨率,所述第二分辨率图像的色深位数大于所述粗着色图像的色深位数。
[0013]进一步地,所述基于自注意力机制的Transformer网络对输入的灰度图像进行以下处理:
[0014]将灰度图像x
g
输入Transformer网络的编码器进行处理;其中,所述编码器由嵌入层、行自注意力模块和列自注意力模块组成;
[0015]将所述编码器的输出,依次通过线性层和Softmax层,获得
[0016]将所述编码器的输出输入Transformer网络的解码器进行处理;其中,所述解码器包括由嵌入层、条件行自注意力模块和条件列自注意力模块组成;
[0017]将所述编码器的输出,依次通过线性层和Softmax层,获得p
c
(x|x
g
),通过在分布上随机采样或计算期望值,以获取着色后的图像。
[0018]进一步地,所述Transformer网络在训练时,通过损失函数计算模型权重梯度,进行梯度下降,多次迭代计算得出优化的模型权重;
[0019]其中,训练过程中的损失函数L的表达式如下:
[0020][0021][0022][0023]式中,M与N表示下采样后的矩阵行与列尺寸,x
ij
表示i行j列像素的色彩值,x
g
表示输入灰度图像矩阵,x
<i
表示小于i行的所有像素点,x
i,<j
表示第i行小于j列的像素点,λ表示一个训练模型的超参数。
[0024]进一步地,所述基于对抗生成的提升网络通过以下方式获得:
[0025]提升网络的生成器部分为U

net结构,包括数量对应的卷积层和上采样层,其中,将卷积层输出的特征图短链接到同层次的上采用层中;
[0026]提升网络的判别器采用PatchGAN判别器,该判别器的输出为矩阵,矩阵上每一个点代表对应小块Patch的真假值;
[0027]对抗生成网络需要将生成器G与判别器D进行交替训练:在训练生成器G阶段,G生成的假值输入判别器D中计算GAN Loss,再计算L1 Loss,更新网络权重;在训练判别器D阶段,生成器G生成假值,原输入条件作为真值,分别输入判别器D中计算Loss,更新网络权重。
[0028]进一步地,所述对抗生成网络在训练过程中的目标函数G
*
的表达式如下:
[0029]L
L1
(G)=E
x,y
[||y

G(x)||1][0030][0031]式中,L
L1
(G)表示生成器G的L1 Loss函数,E
x,y
表示均值,||y

G(x)||1表示目标y与生成结果G(x)差值的绝对值,L
cGAN
(G,D)表示由判别器提供的GAN Loss,λ表示一个可调整的超参数。
[0032]进一步地,所述获取尺寸大小为H
×
W的漫画图像,包括:
[0033]若所述漫画图像为彩色图像,对所述漫画图像进行灰度化处理。
[0034]进一步地,所述漫画图像着色方法,还包括评价步骤:
[0035]采用预设的综合客观指标对获得的细着色图像的着色效果进行评价;其中,所述客观指标至少包括PSNR指标、SSIM指标、LPIPS指标或者FID指标中的一种指标。
[0036]本专利技术所采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种漫画图像着色方法,其特征在于,包括以下步骤:获取尺寸大小为H
×
W的漫画图像,对所述漫画图像进行下采样,获得第一分辨率图像;其中,所述第一分辨率图像为灰度图像;将所述第一分辨率图像输入基于自注意力机制的Transformer网络,进行特征提取,并对第一分辨率图像中每个像素的颜色分布进行预测,获得带有色深的粗着色图像;将所述粗着色图像和所述漫画图像,输入基于对抗生成的提升网络,进行分辨率与色深的重建,获得第二分辨率图像;对所述第二分辨率图像进行上采样,获得尺寸大小为H
×
W的细着色图像;其中,所述第二分辨率图像的分辨率大于所述第一分辨率图像的分辨率,所述第二分辨率图像的色深位数大于所述粗着色图像的色深位数。2.根据权利要求1所述的一种漫画图像着色方法,其特征在于,所述基于自注意力机制的Transformer网络对输入的灰度图像进行以下处理:将灰度图像x
g
输入Transformer网络的编码器进行处理;其中,所述编码器由嵌入层、行自注意力模块和列自注意力模块组成;将所述编码器的输出,依次通过线性层和Softmax层,获得将所述编码器的输出输入Transformer网络的解码器进行处理;其中,所述解码器包括由嵌入层、条件行自注意力模块和条件列自注意力模块组成;将所述编码器的输出,依次通过线性层和Softmax层,获得p
c
(x|x
g
),通过在分布上随机采样或计算期望值,以获取着色后的图像。3.根据权利要求2所述的一种漫画图像着色方法,其特征在于,所述Transformer网络在训练时,通过损失函数计算模型权重梯度,进行梯度下降,多次迭代计算得出优化的模型权重;其中,训练过程中的损失函数L的表达式如下:训练过程中的损失函数L的表达式如下:训练过程中的损失函数L的表达式如下:式中,M与N表示下采样后的矩阵行与列尺寸,x
ij
表示i行j列像素的色彩值,x
g
表示输入灰度图像矩阵,x
<i
表示小于i行的所有像素点,x
i,<j
表示第i行小于j列的像素点,λ表示一个训练模型的超参数。4.根据权利要求1所述的一种漫画图像着色方法,其特征在于,所述基于对抗生成的提升网络通过以下方式获得:提升网络的生成器部分为U

net结构,包括数量对应的卷积层和上采样层,其中,将卷积层输出的特征图短链接到同层次的上采用层中;提升网络的判别器采用PatchGAN判别器,该判别器的输出为矩阵,矩阵上每一个点代表对应小块Patch的真假值;对抗生成网络需要将生成器G与判别器D进行交替训练:在训练生成器...

【专利技术属性】
技术研发人员:林逸彬孙季丰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1