一种端到端的风格一致的文字图像生成方法技术

技术编号:30527232 阅读:25 留言:0更新日期:2021-10-27 23:13
本发明专利技术公开了一种端到端的风格一致的文字图像生成方法,所述方法包括如下步骤:步骤一、对源风格图像中的文字进行擦除,补充背景纹理,得到无文字的背景图像;步骤二、将目标文本渲染为图像并嵌入背景重建模块输出的无文字的背景图像中,在相同背景下将源图像的文本风格迁移到目标文本中。本发明专利技术采用端到端的方法,将文本风格迁移、文字擦除等工作整合为一个网络,减少中间步骤可能带来的效果和性能的损失。本发明专利技术通过使用GAN算法,能够生成更加真实、风格更一致、语义更连贯的结果。语义更连贯的结果。语义更连贯的结果。

【技术实现步骤摘要】
一种端到端的风格一致的文字图像生成方法


[0001]本专利技术涉及一种文字图像生成方法,具体涉及一种在复杂背景环境下能够保持文字风格的端到端图像生成方法,主要面向图片翻译场景,把目标文字按照源风格进行图像绘制,保留背景纹理以及原始文本的风格(字体、颜色、形状等),实现翻译后文字的高保真替换。

技术介绍

[0002]风格一致的文字图像生成旨在实现文字高保真替换,有许多实际应用,如图像翻译、文本检测和识别任务、电影海报文字编辑等。对于图像翻译任务,可以改善翻译结果,提升用户体验;对于文本检测和文本识别任务,可以快速针对特定场景扩充数据;对于设计师来说,可以快速针对不同国家设计统一文字风格的海报。
[0003]对于自然场景中的真实图片,其中的文字语言不同、形状大多不规则、大小不等、字体多变、颜色不一,背景纹理也十分复杂,单纯的替换文字很简单,核心挑战在于新图像要保持原始文字风格和背景纹理。开发快速自动替换场景中文本的算法,从而无需花费数小时的手动图像编辑时间。
[0004]风格一致的文字图像生成需要GAN、文本风格迁移、文字擦除等技术的支撑。
[0005]生成对抗网络(GAN)已经在噪声生成图像、图像到图像的转换、风格迁移、姿势迁移、快速换脸等多个领域取得了很大的进步和关注。GAN由一个生成网络和一个判别网络组成。两个模型通过对抗过程同时训练。生成网络学习创造逼真的样本,判别网络则学习如何辨别真实样本与生成的“假样本”。训练过程中,生成网络能力增强,生成的“假样本”趋近于真实,判别网络能力也逐渐变强,尽力拆穿伪造的样本。当判别网络无法区别真实样本与生成“假样本”时,说明生成网络产生的样本符合真实数据的分布。
[0006]文本风格迁移旨在从源图像捕捉完整的文本风格并将其迁移到目标文本中。现有一些方法侧重于字符级风格迁移。人们已经可以将标准字体图像变为书法图像,可以使用少量的风格化英文字符产生全部26个风格字母,甚至可以通过仅观察几个字符样本就可以在不同语言之间传递字体风格。
[0007]文字擦除主要针对图像中的文本区域进行修补,填充合理的背景纹理,并且要保证非文本区域的真实性。由于自然场景中的图像背景较为复杂、光照不均匀、文本形状畸变严重、文本区域未知等问题,因而具有很大的挑战性。
[0008]一种新的基于文本的增强现实系统,包括一个替换文本内容的实时图像增强算法(Koo H I,Kim B S,BaikYK,et al.Fast and simple text replacement algorithm for text

based augmented reality[C]//2016Visual Communications and Image Processing(VCIP).IEEE,2016:1

4)。该方法存在以下问题:
[0009](1)无法处理背景较为复杂的场景,在重建背景过程中容易产生伪影。
[0010](2)难以模拟文本复杂的形变,如透视形变、弯曲文本等情况,在反向校正后可能难以保证与全局图像的语义连贯。
[0011](3)无法完整捕捉原始文本的风格,如字体、形状、阴影等效果。

技术实现思路

[0012]针对现有技术存在的上述问题,本专利技术提供了一种端到端的风格一致的文字图像生成方法。
[0013]本专利技术的目的是通过以下技术方案实现的:
[0014]一种端到端的风格一致的文字图像生成方法,包括如下步骤:
[0015]步骤一、对源风格图像中的文字进行擦除,补充背景纹理,得到无文字的背景图像,具体步骤如下:
[0016](1)将源风格文本图像通过3个下采样卷积层和4个残差块进行编码;
[0017](2)使用解码器通过3个上采样卷积层生成原始大小的输出图像;
[0018]步骤二、将目标文本渲染为图像并嵌入背景重建模块输出的无文字的背景图像中,在相同背景下将源图像的文本风格迁移到目标文本中,具体步骤如下:
[0019](1)将背景图像与目标文本图像沿深度轴连接,经过3个下采样卷积层和4个残差块进行编码;
[0020](2)对源风格文本图像进行编码;
[0021](3)将(1)和(2)中两个编码特征图送入自注意力网络SA;
[0022](4)将自注意力网络SA输出的特征图输入3个上采样反卷积解码器网络,获得风格文本图像。
[0023]一种实现上述文字图像生成方法的文字图像生成系统,包括背景重建模块和风格文本嵌入模块,其中:
[0024]所述背景重建模块用于对源风格图像中的文字进行擦除,补充背景纹理,得到无文字的背景图像;
[0025]所述风格文本嵌入模块用于将目标文本渲染为图像并嵌入背景重建模块输出的无文字的背景图像中,在相同背景下将源图像的文本风格迁移到目标文本中;
[0026]所述背景重建模块采用GAN架构,生成网络采用编码器

解码器模式,在编码器

解码器架构中引入skip

connection,判别网络采用PatchGAN;
[0027]所述风格文本嵌入模块采用GAN架构,生成网络采用编码器

解码器模式,判别网络采用PatchGAN,并且为了能够更好的迁移文本风格,在生成网络中引入自注意力网络。
[0028]相比于现有技术,本专利技术具有如下优点:
[0029]1、本专利技术中,背景重建模块主要目标是对图像中的文本进行擦除,补充背景纹理,得到无文字的背景图像。这一部分采用GAN架构,生成网络采用编码器

解码器模式,判别网络采用PatchGAN可以有效捕捉局部纹理的差别,通过生成网络与判别网络之间的博弈,能够得到更逼真的文本擦除后的图像,解决现有技术中背景重建可能产生的伪影、不真实等问题。
[0030]2、本专利技术中,风格文本嵌入模块主要针对前景文本,将目标文本渲染为图像并嵌入重建好的背景中,在相同背景下将源图像的文本风格迁移到目标文本中。首先将内容图像与背景重建结果进行连接,使用下采样卷积层和残差块对其进行编码,同样也对源风格图像进行编码,然后将这两个特征图沿深度轴连接并馈送到自注意力网络,该网络会自动
学习特征图之间的对应关系,最后将输出的特征图输入上采样反卷积解码器网络获得风格化文本图像,可以解决现有技术中无法捕捉原始文本风格的问题。
[0031]3、本专利技术实现的是中英之间的图像文本风格保真替换,但改变训练数据即可支持其他语言之间的风格保真替换。
[0032]4、本专利技术采用端到端的方法,将文本风格迁移、文字擦除等工作整合为一个网络,减少中间步骤可能带来的效果和性能的损失。
[0033]5、本专利技术通过使用GAN算法,能够生成更加真实、风格更一致、语义更连贯的结果。
附图说明
[0034]图1为端到端架构的生成网络结构图;
[0035]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端的风格一致的文字图像生成方法,其特征在于所述方法包括如下步骤:步骤一、对源风格图像中的文字进行擦除,补充背景纹理,得到无文字的背景图像;步骤二、将目标文本渲染为图像并嵌入背景重建模块输出的无文字的背景图像中,在相同背景下将源图像的文本风格迁移到目标文本中。2.根据权利要求1所述的端到端的风格一致的文字图像生成方法,其特征在于所述步骤一的具体步骤如下:(1)将源风格文本图像通过3个下采样卷积层和4个残差块进行编码;(2)使用解码器通过3个上采样卷积层生成原始大小的输出图像。3.根据权利要求1所述的端到端的风格一致的文字图像生成方法,其特征在于所述步骤二的具体步骤如下:(1)将背景图像与目标文本图像沿深度轴连接,经过3个下采样卷积层和4个残差块进行编码;(2)对源风格文本图像进行编码;(3)将(1)和(2)中两个编码特征图送入自注意力网络SA;(4)将自注意力网络SA输出的特征图输入3个上采样反卷积解码器网络,获得风格文本图像。4.一种实现权利要求1

【专利技术属性】
技术研发人员:苏统华杨富祥王忠杰徐晓飞
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1