一种基于骨架提取及对抗学习的汉字图像修复算法制造技术

技术编号：34120545 阅读：79 留言：0更新日期：2022-07-14 12:55

本发明专利技术涉及一种基于骨架提取及对抗学习的汉字图像修复方法，包括：使用基于线条细化的骨架提取网络对汉字图像数据集进行处理，生成对应的文字骨架图像数据集，并使用随机遮罩图像进行处理，然后将成对的汉字图像及其文字骨架图像进行训练集和测试集的划分；构建汉字图像骨架提取及修复网络模型，分批次地使用创建的文字骨架图像数据集对网络模型进行训练，使得该网络具备从缺损汉字图像中提取完整文字骨架图像的能力；构建基于文字骨架的汉字图像修复网络模型，使用之前提取到的完整文字骨架图像作为先验知识指导汉字图像的修复过程；使用训练过程中所保存的模型，对之前创建的测试集中的图像进行测试。采用本发明专利技术所述方法，可以实现不需要提前知道遮罩信息的汉字图像修复任务，并且相较于其他修复算法，可以得到笔画更加清晰的汉字图像修复结果。笔画更加清晰的汉字图像修复结果。笔画更加清晰的汉字图像修复结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于骨架提取及对抗学习的汉字图像修复算法

[0001]本专利技术涉及到的技术包括计算机视觉、计算机图像处理和深度学习等，其中本专利技术侧重于基于架提取及对抗学习的汉字图像修复算法研究。

技术介绍

[0002]随着信息化时代的发展，各种多媒体设备的使用得到广泛的普及，大量的信息会以图像的形式存储在计算机中，图像也是生活中各个领域中最常见的信息形式之一，与人们的日常生活息息相关。社交媒体中的传播的图像信息中可能包含许多后来添加到这些图像中的对象，包括签名、水印、表情符号等等。这些对象的添加可以改变图像的语义，因此如何从图像中去除这些对象是计算机视觉研究的一个最新方向。同时图像信息的真实性非常重要，不留痕迹的图像编辑能力给公众信息安全带来隐患.因此，从给定图像恢复到原始图像的方法很大程度上取决于给定图像的生成机制，所以从图像中去除目标或图像修复技术是当今研究的重点之一，也是信息安全领域的一个热门话题[1]。
[0003]广义上的图像修复技术[2][3]是指通过用估计值填充缺损区域或目标区域来修复图像或者移除图像中的物体，以达到恢复不完整图像中受损部分的像素特征。图像修复技术在许多计算机视觉任务中起着关键作用[4][5]。现有的图像修复技术可分为两类：基于复制移动的方法(Copy
‑
Move Methods)和基于机器学习的图像填充(Image Inpainting)的方法。基于复制移动的方法通过从同一幅或另一幅图像的某个区域提取一个部分，然后将其复制到想要移除的对象或缺损区域来修复图像。由于其...

【技术保护点】

【技术特征摘要】
1.一种基于骨架提取及对抗学习的汉字图像修复算法，具体包括下列五个步骤：步骤1：使用随机生成的成对线条图像来训练一个基于线条细化的骨架提取网络，并用于制作汉字图像及其文字骨架图像数据集，该步骤可分为以下三小步。(i)制作随机线条图像对，使用直线、圆形和矩形来生成随机线条，用于模拟汉字中的横平竖直以及撇捺等曲线结构。作为输入的线条图像分辨率为128
×
128像素，线条宽度1到20像素，目标线条图像中线条均为2像素。生成用于训练骨架提取网络的线条对数据集共5000张。(ii)执行骨架提取网络的训练操作，使用上一个小步生成数据来训练一个对抗学习网络。网络中生成器G采用长卷积的模式，共32层，包含11个卷积块，前10个卷积块都遵循Conv
‑
BatchNorm
‑
ReLU架构，第一层边缘填充大小为4，卷积核大小9
×
9，步长为1，这一层是为了扩大卷积的感受野，以保留图像的全局特征和并增强网络的适用性。后面9个卷积块不减小图像尺寸也不改变通道数，特征图尺寸保持不变，通道数维持在64，每个卷积层缘填充大小为1，卷积核大小3
×
3，步长为1。最后一层使用Sigmoid激活函数将结果映射回(0，1)的范围内。为了生成更加清晰的骨架图像，采用二值分类判别器D来判别图像的真假，判别器使用Conv
‑
BatchNorm
‑
LeakyReLu架构。(iii)使用训练后的骨架提取网络处理汉字图像来制作文字骨架图像数据集。步骤2：使用对抗学习的思想，使用上一个步骤中生成的汉字图像及其文字骨架图像数据集，训练一个汉字图像骨架提取及修复网络SRGAN，该网络的输入是缺损的汉字图像，经过该网络模型的处理后，生成一个完整的文字骨架图像。该网络整体为生成对抗学习网络，生成器G
r
的编码器部分称作E，由4个卷积块φ组成，表示为其中每个卷积块φ都具有相同的结构含两个部分卷积块其中每个卷积块φ都具有相同的结构含两个部分卷积块每个部分卷积块都遵循Conv
‑
BatchNorm
‑
ELU结构。只增加图像的通道数而不减小图像尺寸，使用大小为3
×
3的卷积核，边缘填充尺寸为1的卷积层，表示为C_3_1_1，使用卷积核大小为2
×
2，步长为2的卷积层，表示为C_2_0_2来减小特征图尺寸，进一步提取特征。编码器部分的4个卷积块可表示为φ1＝(C_3_1_1，C_2_0_2)。在编码器部分均使用ELU激活函数来代替ReLU激活函数。在生成器G
r
的解码器部分与编码器部分相对称，由4个反卷积块组成，每一块分别连接编码器部分相同尺寸特征图后再进行上采样，使用的是ReLU激活函数，并在最后一层使用Sigmoid激活函数将图像分布映射回(0，1)，得到最终输出的完整文字骨架图像。在损失函数设计部分，该网络的输入表示为x＝{x1，x2，...x
n
}，生成网络的目标图像为x
gt
。设训练批次大小为n，生成器最终输出表示为x
pred
＝G(x)。因为生成器G
r
分两个部分，分别执行对缺损文字图像的骨架提取和骨架修复任务，因此需要对两个部分别设置损失函数，来约束网络相对部分的功能。网络前半部分的输出是一个中间结果表示为其目标图像表示为使用L2范数来强调提到的骨架图像和目标图像之间对应像素之间的差异，如公如下：生成器G
r
的目的从缺损文字图像中提取并修复出完整的文字骨架图像，这里也使用L...

【专利技术属性】
技术研发人员：潘刚，潘香羽，王家豪，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人