当前位置: 首页 > 专利查询>西北大学专利>正文

基于生成对抗网络的书法图片生成方法技术

技术编号:28842187 阅读:31 留言:0更新日期:2021-06-11 23:41
本发明专利技术公开了一种基于生成对抗网络的书法图片生成方法:步骤1,裁剪整幅书法图像得到裁剪图片;步骤2,得到所有的裁剪图片及标注文件组成的数据集;步骤3,对数据集中的每张裁剪图片进行预处理;步骤4,使用步骤3得到的预处理后得到的数据集中的标准化后的裁剪图片、字的二值化图片和标注文件中的字的位置和大小信息计算损失函数,训练生成对抗网络,得到训练好的书法图片生成模型;步骤5,获得待生成书法图像的字的编码和附加信息;步骤6,得到生成的书法图片。实验结果表明,本发明专利技术的方法能够生成效果良好的书法图片,解决了现有技术中的书法图像修复工作中由于破损程度过大而无法修复的情况。

【技术实现步骤摘要】
基于生成对抗网络的书法图片生成方法
本专利技术属于计算机图像处理
,涉及基于生成对抗网络的书法图片生成方法。
技术介绍
计算机视觉与图像处理发展到现阶段已经有了令人惊叹的研究成果,一些根据输入条件生成特定图像的问题也是研究人员经常关注的问题。在以往的工作中图像的生成通常使用变分自编码器,即提取图像的中的信息并将这些信息嵌入到一个将对较简单分布(通常是正太分布)的向量中,再将这个向量还原回图像,并计算还原后的图像与原始图像的差异值,更新网络中的参数减小这个差异以达到可以直接使用一个符合特定分布(正太分布)的向量直接生成图像。后来提出的基于GAN的图像生成方法有着更好的效果,我们较熟悉的模型有pix2pix可以使用成对的图片数据集训练模型,进行两种图片的转化,之后提出来的CycleGAN可以使用不同的数据集训练模型来完成两个域的图片进行相互转化。再之后的一些研究工作还包括从一局文字描述中生成符合文字描述的图片如StackGAN,StackGAN++等工作。但是,上述这些研究的局限性在于,文本和生成的图像只能包含一个对象,无法从包含位置关系的复杂文本中生成具有多个对象且对象之间符合文本所描述的位置关系的图像。因此,对于现今书法图像修复工作中因为破损程度过大而无法修复的情况,目前还未有有效的书法图片生成方法。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于,提供一种基于生成对抗网络的书法图片生成方法,用于解决现有技术中的书法图像修复工作中由于破损程度过大而无法修复的情况。为了解决上述技术问题,本专利技术采用如下技术方案予以实现:一种基于生成对抗网络的书法图片生成方法,具体包括以下步骤:步骤1,采集整幅书法图像,并采用覆盖该书法图像高度的正方形窗口对其进行裁剪,得到多张裁剪图片;步骤2,对每张裁剪图片上的每个字构建一个外切矩形,获得每个字在裁剪图片上的相对位置和大小信息,并对每个字赋予唯一的编码及附加信息;将字的位置和大小信息、附加信息均与字的编码一一对应,得到每张裁剪图片的标注文件;所有的裁剪图片及标注文件组成数据集;步骤3,对步骤2得到的数据集中的每张裁剪图片进行预处理;具体包括如下操作:对步骤2得到的数据集中的每张裁剪图片统一尺寸和标准化,得到标准化后的裁剪图片,同时,对裁剪图片中每个字裁剪得到字的图片、将字的图片转为单通道图片并统一尺寸、二值化,得到的字的二值化图片;标准化后的裁剪图片、字的二值化图片和步骤2得到的数据集中的标注文件组成预处理后的数据集;步骤4,将步骤2得到的每个字的编码及附加信息进行词嵌入操作,得到该字的编码对应的向量和附加信息对应的向量,将这两个向量拼接后作为生成对抗网络的输入数据,使用步骤3得到的预处理后得到的数据集中的标准化后的裁剪图片、字的二值化图片和标注文件中的字的位置和大小信息计算损失函数,训练生成对抗网络,得到训练好的书法图片生成模型;步骤5,获得待生成书法图像的字的编码和附加信息;步骤6,将步骤5得到的待生成书法图像的字的编码和附加信息进行词嵌入操作,得到该字的编码对应的向量和附加信息对应的向量,将这两个向量作为输入数据,输入步骤4得到的训练好的书法图片生成模型,得到生成的书法图片。进一步的,所述步骤4中,所述生成对抗网络包括生成器和判别器;所述生成器用于将输入的字的编码对应的向量和附加信息对应的向量生成书法图像,生成器包括书法字生成网络、书法字布局预测网络和高清化生成网络,其中,所述书法字生成网络用来将步骤2得到的每个字的编码对应的向量生成所对应的书法字的图片;书法字布局预测网络用来根据步骤4所述的两个向量,预测每个字在裁剪图片中相对位置和大小;高清化生成网络用于结合所述书法字生成网络生成的书法字的图片和所述书法字布局预测网络得到的字的相对位置和大小,生成一副与步骤2得到的裁剪图片对应的书法图像。所述判别器包括对图片的判别器和对字的判别器,其中,所述对图片的判别器用于对生成器输出的书法图像进行真伪判别;对字的判别器用于对生成器输出的书法图像中每个字判别是否真实和准确。进一步的,所述步骤4中,所述生成对抗网络包括生成器和判别器;所述生成器包括书法字生成网络、书法字布局预测网络和高清化生成网络,其中,书法字生成网络中设置有依次连接的多个上采样卷积块、一个卷积层和一个sigmod激活函数层;书法字布局预测网络设置为依次连接的双向LSTM模型和多个全连接块;高清化生成网络则设置为依次连接的多个高清化模块、卷积层、激活函数层和卷积层。判别器包括对图片的判别器和对字的判别器。其中,对图片的判别器设置为依次相连的多个卷积块和一个卷积层;对字的判别器设置为依次相连的多个卷积块、平均池化层和全连接层。进一步的,所述上采样卷积块设置为依次连接的上采样层、BatchNorm层、卷积层以及激活函数层。进一步的,所述全连接块设置为依次相连的全连接层、BatchNorm层和激活函数层。进一步的,所述高清化模块包括依次连接的卷积层、BatchNorm层、激活函数层、卷积层、BatchNorm层、激活函数层。进一步的,所述卷积块包括依次连接的卷积层、BatchNorm层、激活函数层。进一步的,步骤4中的损失函数L:其中,λ1,λ2,λ3,λ4,λ5,λ6均为损失函数的权重且均大于0;Lmask表示书法字生成网络生成的每个字生成的图片与步骤3得到的字的二值化图片的差异值;Lbox表示书法字布局预测网络得到的每个字在裁剪图片中相对位置和步骤2的标注文件中的所记录的字的位置之间的坐标差异值;Lpix表示高清化生成网络生成的书法图像和步骤3中所述的标准化后的裁剪图片之间的差异值;表示利用对图片的判别器,计算生成器输出的书法图像和步骤3得到的标准化后的裁剪图片之间分布的相似度;表示利用对字的判别器,计算生成器得到的生成图片中的字和标准化后的裁剪图片中的字之间分布的相似度;表示利用对字的判别器,计算生成器得到的生成图片中的每个字分类的误差损失值。本专利技术与现有技术相比,具有如下技术效果:1、本专利技术的方法中,通过所述步骤4中所述生成对抗网络的生成器结构中设计的书法字布局预测网络为每个字预测出它在对应的裁剪图片中的相对位置坐标,为书法图片的生成提供了位置信息;再结合生成器中的书法字生成网络为每个字生成的字的图片,最终使用生成器中使用的高清化生成网络清晰地生成包含多个字的书法图片,保证了书法图片清晰生成。2、本专利技术提供了一种能够修复有较大破损书法图片方法,和现有方法中的根据破损图片的全局信息来修复图片的局部信息的方法相比,可以使用对文本进行处理得到的步骤5所述的待生成书法图像的字的编码和附加信息然后根据步骤6所述输入训练好模型生成书法图片,这样的方式能够直接从文本中得到待生成图片的所有信息从而实现完整的修复。附图说明图1为书法字布局预测网络的网络结构;图2为书法字生成网络示意图;图3为字的图片和字本文档来自技高网...

【技术保护点】
1.一种基于生成对抗网络的书法图片生成方法,其特征在于,具体包括以下步骤:/n步骤1,采集整幅书法图像,并采用覆盖该书法图像高度的正方形窗口对其进行裁剪,得到多张裁剪图片;/n步骤2,对每张裁剪图片上的每个字构建一个外切矩形,获得每个字在裁剪图片上的相对位置和大小信息,并对每个字赋予唯一的编码及附加信息;将字的位置和大小信息、附加信息均与字的编码一一对应,得到每张裁剪图片的标注文件;所有的裁剪图片及标注文件组成数据集;/n步骤3,对步骤2得到的数据集中的每张裁剪图片进行预处理;具体包括如下操作:对步骤2得到的数据集中的每张裁剪图片统一尺寸和标准化,得到标准化后的裁剪图片,同时,对裁剪图片中每个字裁剪得到字的图片、将字的图片转为单通道图片并统一尺寸、二值化,得到的字的二值化图片;标准化后的裁剪图片、字的二值化图片和步骤2得到的数据集中的标注文件组成预处理后的数据集;/n步骤4,将步骤2得到的每个字的编码及附加信息进行词嵌入操作,得到该字的编码对应的向量和附加信息对应的向量,将这两个向量拼接后作为生成对抗网络的输入数据,使用步骤3得到的预处理后得到的数据集中的标准化后的裁剪图片、字的二值化图片和标注文件中的字的位置和大小信息计算损失函数,训练生成对抗网络,得到训练好的书法图片生成模型;/n步骤5,获得待生成书法图像的字的编码和附加信息;/n步骤6,将步骤5得到的待生成书法图像的字的编码和附加信息进行词嵌入操作,得到该字的编码对应的向量和附加信息对应的向量,将这两个向量作为输入数据,输入步骤4得到的训练好的书法图片生成模型,得到生成的书法图片。/n...

【技术特征摘要】
1.一种基于生成对抗网络的书法图片生成方法,其特征在于,具体包括以下步骤:
步骤1,采集整幅书法图像,并采用覆盖该书法图像高度的正方形窗口对其进行裁剪,得到多张裁剪图片;
步骤2,对每张裁剪图片上的每个字构建一个外切矩形,获得每个字在裁剪图片上的相对位置和大小信息,并对每个字赋予唯一的编码及附加信息;将字的位置和大小信息、附加信息均与字的编码一一对应,得到每张裁剪图片的标注文件;所有的裁剪图片及标注文件组成数据集;
步骤3,对步骤2得到的数据集中的每张裁剪图片进行预处理;具体包括如下操作:对步骤2得到的数据集中的每张裁剪图片统一尺寸和标准化,得到标准化后的裁剪图片,同时,对裁剪图片中每个字裁剪得到字的图片、将字的图片转为单通道图片并统一尺寸、二值化,得到的字的二值化图片;标准化后的裁剪图片、字的二值化图片和步骤2得到的数据集中的标注文件组成预处理后的数据集;
步骤4,将步骤2得到的每个字的编码及附加信息进行词嵌入操作,得到该字的编码对应的向量和附加信息对应的向量,将这两个向量拼接后作为生成对抗网络的输入数据,使用步骤3得到的预处理后得到的数据集中的标准化后的裁剪图片、字的二值化图片和标注文件中的字的位置和大小信息计算损失函数,训练生成对抗网络,得到训练好的书法图片生成模型;
步骤5,获得待生成书法图像的字的编码和附加信息;
步骤6,将步骤5得到的待生成书法图像的字的编码和附加信息进行词嵌入操作,得到该字的编码对应的向量和附加信息对应的向量,将这两个向量作为输入数据,输入步骤4得到的训练好的书法图片生成模型,得到生成的书法图片。


2.如权利要求1所述的基于生成对抗网络的书法图片生成方法,其特征在于,所述步骤4中,所述生成对抗网络包括生成器和判别器;
所述生成器用于将输入的字的编码对应的向量和附加信息对应的向量生成书法图像,生成器包括书法字生成网络、书法字布局预测网络和高清化生成网络,其中,所述书法字生成网络用来将步骤2得到的每个字的编码对应的向量生成所对应的书法字的图片;书法字布局预测网络用来根据步骤4所述的两个向量,预测每个字在裁剪图片中相对位置和大小;高清化生成网络用于结合所述书法字生成网络生成的书法字的图片和所述书法字布局预测网络得到的字的相对位置和大小,生成一副与步骤2得到的裁剪图片对应的书法图像。
所述判别器包括对图片的判别器和对字的判别器,其中,所述对图片的判别器用于对生成器输出的书法图像进行真伪判别;对字的判别器用于对生成器输出的书...

【专利技术属性】
技术研发人员:赵珂肖云张钰婷王选宏肖刚许鹏飞刘宝英王欣陈晓江
申请(专利权)人:西北大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1