一种端到端的风格一致的文字图像生成方法技术

技术编号：30527232 阅读：36 留言：0更新日期：2021-10-27 23:13

本发明专利技术公开了一种端到端的风格一致的文字图像生成方法，所述方法包括如下步骤：步骤一、对源风格图像中的文字进行擦除，补充背景纹理，得到无文字的背景图像；步骤二、将目标文本渲染为图像并嵌入背景重建模块输出的无文字的背景图像中，在相同背景下将源图像的文本风格迁移到目标文本中。本发明专利技术采用端到端的方法，将文本风格迁移、文字擦除等工作整合为一个网络，减少中间步骤可能带来的效果和性能的损失。本发明专利技术通过使用GAN算法，能够生成更加真实、风格更一致、语义更连贯的结果。语义更连贯的结果。语义更连贯的结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的风格一致的文字图像生成方法

[0001]本专利技术涉及一种文字图像生成方法，具体涉及一种在复杂背景环境下能够保持文字风格的端到端图像生成方法，主要面向图片翻译场景，把目标文字按照源风格进行图像绘制，保留背景纹理以及原始文本的风格(字体、颜色、形状等)，实现翻译后文字的高保真替换。

技术介绍

[0002]风格一致的文字图像生成旨在实现文字高保真替换，有许多实际应用，如图像翻译、文本检测和识别任务、电影海报文字编辑等。对于图像翻译任务，可以改善翻译结果，提升用户体验；对于文本检测和文本识别任务，可以快速针对特定场景扩充数据；对于设计师来说，可以快速针对不同国家设计统一文字风格的海报。
[0003]对于自然场景中的真实图片，其中的文字语言不同、形状大多不规则、大小不等、字体多变、颜色不一，背景纹理也十分复杂，单纯的替换文字很简单，核心挑战在于新图像要保持原始文字风格和背景纹理。开发快速自动替换场景中文本的算法，从而无需花费数小时的手动图像编辑时间。
[0004]风格一致的文字图像生成需要GAN、文本风格迁移、文字擦除等技术的支撑。
[0005]生成对抗网络(GAN)已经在噪声生成图像、图像到图像的转换、风格迁移、姿势迁移、快速换脸等多个领域取得了很大的进步和关注。GAN由一个生成网络和一个判别网络组成。两个模型通过对抗过程同时训练。生成网络学习创造逼真的样本，判别网络则学习如何辨别真实样本与生成的“假样本”。训练过程中，生成网络能力增强，生成的“假样本”趋近于真实，判别网络能力也逐渐变强...

【技术保护点】

【技术特征摘要】
1.一种端到端的风格一致的文字图像生成方法，其特征在于所述方法包括如下步骤：步骤一、对源风格图像中的文字进行擦除，补充背景纹理，得到无文字的背景图像；步骤二、将目标文本渲染为图像并嵌入背景重建模块输出的无文字的背景图像中，在相同背景下将源图像的文本风格迁移到目标文本中。2.根据权利要求1所述的端到端的风格一致的文字图像生成方法，其特征在于所述步骤一的具体步骤如下：(1)将源风格文本图像通过3个下采样卷积层和4个残差块进行编码；(2)使用解码器通过3个上采样卷积层生成原始大小的输出图像。3.根据权利要求1所述的端到端的风格一致的文字图像生成方法，其特征在于所述步骤二的具体步骤如下：(1)将背景图像与目标文本图像沿深度轴连接，经过3个下采样卷积层和4个残差块进行编码；(2)对源风格文本图像进行编码；(3)将(1)和(2)中两个编码特征图送入自注意力网络SA；(4)将自注意力网络SA输出的特征图输入3个上采样反卷积解码器网络，获得风格文本图像。4.一种实现权利要求1
‑

【专利技术属性】
技术研发人员：苏统华，杨富祥，王忠杰，徐晓飞，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人