当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于文字属性引导的文本图像编辑方法及系统技术方案

技术编号:34447211 阅读:22 留言:0更新日期:2022-08-06 16:43
本发明专利技术公开了一种基于文字属性引导的文本图像编辑方法及系统,其方法包括:通过文本图像合成方法合成训练所需的成对文本图像数据;训练前景变换网络,将待编辑文本图像与新文本内容作为输入,生成新文本内容的前景;训练背景修复网络,将待编辑的原始图像作为输入,得到纯背景图像结果;训练前背景融合网络,得到最终的编辑结果;编辑结果图会和标签图一起输入字体字符分类网络,通过交叉熵损失与感知损失对编辑网络模型参数正则化;在各子网络分别训练优化过后,将整个编辑网络进行端到端的训练微调优化。本发明专利技术提出使用合成成对文本图像数据集,解决文本图像编辑任务数据难以获取的问题,降低了文本图像编辑任务数据获取的难度。难度。难度。

【技术实现步骤摘要】
一种基于文字属性引导的文本图像编辑方法及系统


[0001]本专利技术主要涉及图像处理
,具体涉及一种基于文字属性引导的文本图像编辑方法及系统。

技术介绍

[0002]文字在人类的历史发展中一直都占据了一个相当重要的地位,成为了人们个体沟通与文化传承的载体。随着近几年计算机视觉与深度学习的飞速发展,文字图像也被越来越多的研究人员关注,其中最主要的方向包括场景文本检测与识别,文本的字体生成,文本擦除与编辑等任务。日常生活中,有很多文字图像的场景,海报、广告、游戏、视频的插图都往往以文字为主,多媒体工作者们对于这些文字图像的自动化编辑有着非常巨大的需求,可以在不使用一些专业化软件的低门槛下设计得到属于自己的海报等内容。
[0003]场景文本图像编辑任务在学术界和工业界也受到了更多关注,应用领域涉及文本图像生成、海报广告编辑、增强现实翻译等。该任务主要面临两方面的挑战:前景文字的风格迁移和背景文字的擦除修复。其中前景文字的风格包含有很多种属性,包括字体、颜色、几何变形、模糊、阴影、边界线等。要想让新的文字前景与被替换前的风格一致是非常有挑战性的。在迁移文字风格的同时,算法还需要保证背景纹理信息的保留以及空白区域的修复与周围的内容保持连贯性,尤其是在一些复杂的场景之下,例如街道上的标志牌、行驶中的车辆车牌等。
[0004]目前的文本图像编辑技术主要是一些字体样式迁移方法以及针对简单的场景文本进行编辑,无法做到完全迁移原有的文字样式。这些方法主要基于对抗生成网络(GAN)。而且大部分已有的技术都需要识别出图像中的字符内容以便生成对应的字符集合。而场景文本图像的复杂场景可能会导致识别出现错误,从而也会影响后续的编辑生成操作。
[0005]现有技术中使用基于transformer网络的文本图像编辑,其将待编辑的文本内容图像与参考的风格图像同时划分为多个小的文本图像块,然后通过transformer编码器转化为相应的文本图像块和风格图像块特征,同时在文本图像块上添加对应的图像块位置信息。然后将文本内容与风格参照图像两者的特征输入进transformer解码器之中,得到内容与风格聚合的特征,最终输出文本图像。这种技术可以在准确定位到待编辑文本框位置之后,将参考风格图像上的字体样式风格迁移到新的文本内容上,并生成在目标的背景图像上。但是该方法非常依赖于模型生成图像之前对于文本框精细位置的定位。除此之外,该方法对于输入的参考风格图像的要求上比较严苛,其与待编辑文本图像的背景在几何位置与纹理信息上需要几乎一致。然而对于一些场景只能采集到单张样本而没有参考图像,该方法无法适用。
[0006]现有技术中采用基于MASK和自动编码器的文本图像编辑方法,这种方案针对文本特殊效果(阴影、边界线等)设计了一个MASK生成模块,预测一个三通道特征图,分别表示文本主体、边界线与阴影。而预测的MASK图还会辅助将原图的前景文本部分与纯背景纹理部分分割开来。然后这张预测的MASK图和新的文本内容输入通过MASK变形模块生成新文本对
应的MASK。而风格迁移模块则将原有图像前景文本部分的颜色纹理信息迁移到新MASK对应位置上,得到新的文本前景图像。最后的融合模块则会将新的文本前景图像与分离出的纯背景融合生成为最终的编辑结果。这种方法在训练阶段将整个任务分为了六个子网络,需要在训练阶段分别进行训练,训练过程相对较为繁琐。由于该方法主要针对具有特殊文本效果的文本图像,如果将一般的无文本效果的场景文本图像输入网络进行推理时,得到的编辑结果在字形上生成不够自然,与周围的其他字符有较为显著的割裂感。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种基于文字属性引导的文本图像编辑方法及系统,提出使用合成成对文本图像数据集,解决文本图像编辑任务数据难以获取的问题,降低了文本图像编辑任务数据获取的难度。
[0008]本专利技术提供了一种基于文字属性引导的文本图像编辑方法,所述方法包括:
[0009]通过文本图像合成方法合成训练所需的成对文本图像数据,并将数据集划分为训练集与测试集;
[0010]训练前景变换网络,将待编辑文本图像与新文本内容作为输入,生成新文本内容的前景;
[0011]训练背景修复网络,将待编辑的原始图像作为输入,去除掉文本所在的区域,得到纯背景图像结果;
[0012]训练前背景融合网络,将前两个子网络的输出新文本前景与纯背景图像进行融合,得到最终的编辑结果;
[0013]编辑结果图会和标签图一起输入字体字符分类网络,通过交叉熵损失与感知损失对编辑网络模型参数正则化;
[0014]在各子网络分别训练优化过后,将整个编辑网络进行端到端的训练微调优化。
[0015]所述前景变换网络的输入为原始待编辑的文本图像,所述前景变换网络的输出为迁移了原图文字样式的新文本内容的前景图像,所述前景变换网络的子网络由两个编码器与两个加码器组成。
[0016]所述两个编码器分别通过三个下采样卷积块提取出原图的文本风格特征和新文本的语义内容特征;然后将两者在通道维度进行聚合,通过一个解码器进行图像生成与输出。
[0017]编码器是由步长为2的下采样卷积块组成,解码器则是镜像式的步长为2的上采样转置卷积块组成。
[0018]所述背景修复网络的输入为原始待编辑的文本图像,所述背景修复网络的输出为去除了文本内容的纯净背景图像;所述背景修复网络的子网络主体是一个带有跳跃连接的编码器解码器结构,再加上扩张卷积扩大网络的感受野。
[0019]所述前背景融合网络的输入为前两个子网络的结果,所述前背景融合网络的输出为最终的编辑图像,所述前背景融合网络由编码器与解码器组成,将前景变换的新文本图像与纯背景图像进行融合,得到编辑结果。
[0020]所述字体字符属性引导网络的输入为编辑图像与对应的标签图像,所述字体分类器与字符分类器均是由相应数据集预训练得到的,通过交叉熵损失与感知损失正则化编辑
网络的模型参数,使生成的图像在字体字形与内容语义上生成更加准确。
[0021]相应的,本专利技术还提供了一种文本图像编辑系统,所述系统包括:
[0022]数据集处理模块,用于通过文本图像合成方法合成训练所需的成对文本图像数据,并将数据集划分为训练集与测试集;
[0023]前景变换网络模块,用于训练前景变换网络,将待编辑文本图像与新文本内容作为输入,生成新文本内容的前景;
[0024]背景修复网络模块,用于训练背景修复网络,将待编辑的原始图像作为输入,去除掉文本所在的区域,得到纯背景图像结果;
[0025]前背景融合网络模块,用于训练前背景融合网络,将前两个子网络的输出新文本前景与纯背景图像进行融合,得到最终的编辑结果;
[0026]字体字符分类网络模块,用于编辑结果图会和标签图一起输入字体字符分类网络,通过交叉熵损失与感知损失对编辑网络模型参数正则化;
[0027]训练微调化模块,用于在各子网络分别训练优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文字属性引导的文本图像编辑方法,其特征在于,所述方法包括:通过文本图像合成方法合成训练所需的成对文本图像数据,并将数据集划分为训练集与测试集;训练前景变换网络,将待编辑文本图像与新文本内容作为输入,生成新文本内容的前景;训练背景修复网络,将待编辑的原始图像作为输入,去除掉文本所在的区域,得到纯背景图像结果;训练前背景融合网络,将前两个子网络的输出新文本前景与纯背景图像进行融合,得到最终的编辑结果;编辑结果图会和标签图一起输入字体字符分类网络,通过交叉熵损失与感知损失对编辑网络模型参数正则化;在各子网络分别训练优化过后,将整个编辑网络进行端到端的训练微调优化。2.如权利要求1所述的基于文字属性引导的文本图像编辑方法,其特征在于,所述前景变换网络的输入为原始待编辑的文本图像,所述前景变换网络的输出为迁移了原图文字样式的新文本内容的前景图像,所述前景变换网络的子网络由两个编码器与两个解码器组成。3.如权利要求2所述的基于文字属性引导的文本图像编辑方法,其特征在于,所述两个编码器分别通过三个下采样卷积块提取出原图的文本风格特征和新文本的语义内容特征;然后将两者在通道维度进行聚合,通过一个解码器进行图像生成与输出。4.如权利要求3所述的基于文字属性引导的文本图像编辑方法,其特征在于,编码器是由步长为2的下采样卷积块组成,解码器则是镜像式的步长为2的上采样转置卷积块组成。5.如权利要求4所述的基于文字属性引导的文本图像编辑方法,其特征在于,所述背景修复网络的输入为原始待编辑的文本图像,所述背景修复网络的输出为去除了文本内容的纯净背景图像;所述背景修复网络的子网络主体是一个带有跳跃连接的编码器解码器结构,再加上扩张卷积扩大网络的感受野。6.如权利要求5所述的基于文字属性引导的文本图像编辑方法,其特征在于,所述前背景融合网络的输入为前两个子网络的...

【专利技术属性】
技术研发人员:陈靖超徐树公
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1