一种基于多模态信息提示的文本图像对抗生成系统、方法、设备及介质技术方案

技术编号：42373974 阅读：4 留言：0更新日期：2024-08-16 14:57

本发明专利技术提出一种基于多模态信息提示的文本图像对抗生成方法，旨在于合成指定风格背景下具有不同文字类型与干扰属性的文本图像。引入丰富的干扰属性与文字类型信息，将其作为文本生成的属性提示，并结合随机的文字图像分别输入属性与文字编码器进行特征提取，同时背景图像基于风格编码器进行背景风格的特征提取，在解码器部分将背景风格特征，属性与文字特征进行多层次深度特征融合，生成对应背景且具备指定属性和对应文字内容与风格的文本图像；将此生成图像分别进行多任务对抗训练，进一步促进图像生成器生成文本图像的真实性，真伪判别器负责评估合成的目标图像是否真实，属性判别器负责评估合成的目标图像是否指定的属性特性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像数据处理，尤其涉及一种基于多模态信息提示的文本图像对抗生成方法及系统。

技术介绍

1、随着人工智能的发展，深度学习模型已成为研究的热门；深度学习模型广泛应用于语音识别和图像识别等领域中，尤其是在图像识别领域中，深度学习模型由多级提取抽象特征的学习处理层构成，利用深度神经网络和传播算法学习、处理和分析图像特征，以达到识别各种不同模式的目标和对象。

2、深度学习网络为了获得更好的泛化能力，需要大量高质量的多样化训练数据，在实际收集大量测试数据时，尤其是不同场景下的数据，往往存在较大的困难，一方面是数据存在不足，采集成本高，另一方面是数据质量较差，传统的数据处理方式包括旋转、翻转、裁剪以及集成到训练框架中进行处理等传统的处理方式仍然不能获得高质量的数据，其次，现有技术中的图像数据增广方法如添加高斯噪声、仿射变换等，得到的数据与真实场景下的数据存在一定的差异性。

3、公开号cn114863441a一种基于文字属性引导的文本图像编辑方法及系统，公开了一种基于文字属性引导的文本图像编辑方法及系统，其方法包括：通过文本图像合成方法合成训练所需的成对文本图像数据；训练前景变换网络，将待编辑文本图像与新文本内容作为输入，生成新文本内容的前景；训练背景修复网络，将待编辑的原始图像作为输入，得到纯背景图像结果；训练前背景融合网络，得到最终的编辑结果；编辑结果图会和标签图一起输入字体字符分类网络，通过交叉熵损失与感知损失对编辑网络模型参数正则化；在各子网络分别训练优化过后，将整个编辑网络进行端到端的训练微调优化

4、公开号cn114898380a手写文本图像生成方法、装置、设备和存储介质，提供一种手写文本图像生成方法、装置、设备和存储介质，包括：获取待生成手写文本图像的文本数据；获取所述待生成手写文本图像的风格数据；将所述文本数据和所述风格数据输入预置的手写文本图像模型，得到手写文本图像；其中，所述手写文本图像模型根据干扰标签、训练图像及其对应的文本标签训练得到。本专利技术的技术方案可以提高合成的手写文本图像的质量。包括：

5、获取待生成手写文本图像的文本数据；获取所述待生成手写文本图像的风格数据；将所述文本数据和所述风格数据输入预置的手写文本图像模型，得到手写文本图像；所述手写文本图像模型根据干扰标签、训练图像及其对应的文本标签训练得到。

6、上述基于文字属性引导的文本图像编辑方法及系统与手写文本图像生成方法，都是针对特定的前景对象进行全局性粗粒度的背景场景文本数据合成，并未进一步考虑更细粒度的干扰情况，文字类型以及文本空间信息，由此它们在特定的复杂的文本检测和文本识别应用场景下，类似背景复杂，文本存在较多干扰，文本密集度较高甚至重合度较高，且存在横向或竖向文字排列等情况下，生成数据的真实性欠缺。导致生成数据与真实场景数据分布差异大，真实性不够高。

技术实现思路

1、针对现有图像增广方法在数据增强和生成过程中均未充分考虑实际场景中普遍存在的不同类型的细粒度干扰因素、丰富的文字类型，以及各异的文本空间信息等情况，导致生成数据与真实场景数据分布差异大，真实性不够高，本专利技术结合实际场景中可能出现的不同背景风格，文字和空间属性以及干扰情况等因素，深度融合不同因素的特征表示，利用多任务对抗生成的训练方法，生成具有真实性和适用性更高的文本图像数据。

2、本专利技术基于风格与属性提示，综合考虑实际场景中可能出现的不同背景风格，文字和空间属性以及干扰情况等因素，深度融合不同因素的特征表示，进行属性和真伪判别器的对抗生成训练，最终生成的文本图像在实际复杂应用场景中更具有真实性。

3、旨在于合成指定风格背景下具有不同文字类型与干扰属性的文本图像。首先引入丰富的干扰属性与文字类型信息，将其作为文本生成的属性提示，并结合随机的文字图像分别输入属性与文字编码器进行特征提取；同时背景图像基于风格编码器进行背景风格的特征提取，在解码器部分将背景风格特征，属性与文字特征进行多层次深度特征融合，由此生成对应背景且具备指定属性和对应文字内容与风格的文本图像；最后将此生成图像分别输入真伪判别器和属性判别器进行多任务对抗训练，可以进一步促进图像生成器生成文本图像的真实性，其中，真伪判别器负责评估合成的目标图像是否真实；属性判别器负责评估合成的目标图像是否指定的属性特性。

4、具体为，基于本专利技术第一方面，提出一种基于多模态信息提示的文本图像对抗生成系统，包括：属性编码器、文字编码器、风格编码器、解码器、真伪判别器以及属性判别器，属性编码器指定输入的属性信息，文字及风格编码器对指定输入属性的文本、文字及背景风格图像进行特征提取；解码器对提取的各种特征进行多层次深度特征融合，并对特征进行反卷积操作生成文本图像，输出合成图像；真伪判别器对生成的合成图像与目标图像进行判别，属性判别器评估合成图像是否具有指定的属性特性。

5、进一步优选，属性编码器为由多个卷积级联组成的一维卷积神经网络结构，输入为文本序列格式的指定属性信息；文字与风格编码器是由多个卷积组成的二维卷积神经网络结构，输入均为图像形式，输出真伪判别结果；属性判别器是多分类网络，输入单张生成图像，输出多分类属性结果。

6、进一步优选，所述输出合成图像包括：属性编码器和文字编码器对属性特征与文字相关特征进行特征向量的拼接同时融合文字、空间与干扰特征作为解码器的输入，在解码器的不同卷积层分别拼接背景风格特征向量，深度嵌入风格进一步融合背景风格特征，解码器输出合成图像。

7、进一步优选，属性编码器输入的文本序列格式为“{文本颜色类型}的文本在图像中的空间位置为{空间位置类型}，文本行方向为{方向类型}，在{下划线位置类型}添加下划线”。

8、进一步优选，采集获取的风格背景图像、文字图像、属性信息、文本合成图像构建四元组训练集，文字图像输入到文字编码器进行文字相关表征，背景图像输入到风格编码器进行背景风格特征的提取，属性信息按照规定的文本格式作为属性编码器的输入提取得到属性提示相关特征，基于训练集对属性，文字以及风格编码器进行训练，分别可以获得对应的特征编码器。

9、进一步优选，对文本图像生成器、真伪判别器、属性判别器构建不同损失函数，构建生成对抗损失lgan本文档来自技高网...

【技术保护点】

1.一种基于多模态信息提示的文本图像对抗生成系统，其特征在于，包括：属性编码器、文字编码器、风格编码器、解码器、真伪判别器以及属性判别器，属性编码器指定输入的属性信息，文字及风格编码器对指定输入属性的文本、文字及背景风格图像进行特征提取；解码器对提取的各种特征进行多层次深度特征融合，并对特征进行反卷积操作生成文本图像，输出合成图像；真伪判别器对生成的合成图像与目标图像进行判别，属性判别器评估合成图像是否具有指定的属性特性。

2.根据权利要求1所述的系统，其特征在于，属性编码器为由多个卷积级联组成的一维卷积神经网络结构，输入为文本序列格式的指定属性信息；文字与风格编码器是由多个卷积组成的二维卷积神经网络结构，输入均为图像形式，输出真伪判别结果；属性判别器是多分类网络，输入单张生成图像，输出多分类属性结果。

3.根据权利要求1所述的系统，其特征在于，所述输出合成图像包括：属性编码器和文字编码器对属性特征与文字相关特征进行特征向量的拼接同时融合文字、空间与干扰特征作为解码器的输入，在解码器的不同卷积层分别拼接背景风格特征向量，深度嵌入风格进一步融合背景风格特征，解码器输出合成图像。

4.根据权利要求2所述的系统，其特征在于，属性编码器输入的文本序列格式为“{文本颜色类型}的文本在图像中的空间位置为{空间位置类型}，文本行方向为{方向类型}，在{下划线位置类型}添加下划线”。

5.根据权利要求1所述的系统，其特征在于，采集获取的风格背景图像、文字图像、属性信息、文本合成图像构建四元组训练集，文字图像输入到文字编码器进行文字相关表征，背景图像输入到风格编码器进行背景风格特征的提取，属性信息按照规定格式提取得到属性提示相关特征，基于训练集对属性，文字以及风格编码器进行训练，分别获得对应的特征编码器。

6.根据权利要求1-5其中之一所述的系统，其特征在于，对文本图像生成器、真伪判别器、属性判别器构建不同损失函数，构建生成对抗损失Lgan对文本图像生成器建立目标优化，其中，通过约束生成器G正确学习目标图像的文字、属性及风格特征，最小化生成损失函数G()，最大化判别损失函数D()；使用交叉熵损失构建属性判别损失Lattr约束预测出的目标图像满足指定属性特性；构建图像风格、内容损失Ltotal约束预测出的目标图像保留背景风格的同时保留输入的文字内容。

7.根据权利要求6所述的系统，其特征在于，构建的生成对抗损失函数为：

8.基于多模态信息提示的文本图像对抗生成方法，其特征在于，获取不同风格背景图像，不同样式与内容的文字图像，对应背景相关样式内容下具有不同干扰类型和空间变换的文本合成图像，按照预设的场景标签标注目标图像的属性信息作为增广属性的标签，构成训练集；指定输入的属性信息，对指定输入属性的文本、文字及背景风格图像进行特征提取；对提取的各种特征进行多层次深度特征融合，并对特征进行反卷积操作生成合成图像；真伪判别器对生成的合成图像与目标图像进行判别，以评估合成图像的真实性，属性判别器评估合成图像是否具有指定的属性特性。

9.根据权利要求8所述的方法，其特征在于，获取的风格背景图像、文字图像、属性信息、文本合成图像构建四元组训练集，文字图像输入到文字编码器进行文字相关表征，背景图像输入到风格编码器进行背景风格特征的提取，属性信息按照规定的文本格式作为属性编码器的输入提取得到属性特征，基于训练集对属性，文字以及风格编码器进行训练，分别获得对应的特征编码器。

10.根据权利要求8或9所述的方法，其特征在于，构建生成对抗损失Lgan建立目标优化，通过约束生成器G正确学习目标图像的文字、属性及风格特征，最小化生成损失函数G()，最大化判别损失函数D()；使用交叉熵损失构建属性判别损失Lattr约束预测出的目标图像满足指定属性特性；构建图像风格、内容损失Ltotal约束预测出的目标图像保留背景风格的同时保留输入的文字内容，其中，构建的生成对抗损失函数为：

11.一种电子设备，包括：处理器；以及存储程序的存储器，其特征在于，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求8-10其中任一项所述的基于多模态信息提示的文本图像对抗生成方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，

...

【技术特征摘要】

6.根据权利要求1-5其中之一所述的系统，其特征在于，对文本图像生成器、真伪判别器、属性判别器构建不同损失函数，构建生成对抗损失lgan对文本图像生成器建立目标优化，其中，通过约束生成器g正确学习目标图像的文字、属性及风格特征，最小化生成损失函数g()，最大化判别损失函数d()...

【专利技术属性】
技术研发人员：石芳，覃勋辉，申发海，刘科，
申请(专利权)人：重庆西部笔迹大数据研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人