当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于骨架提取及对抗学习的汉字图像修复算法制造技术

技术编号:34120545 阅读:69 留言:0更新日期:2022-07-14 12:55
本发明专利技术涉及一种基于骨架提取及对抗学习的汉字图像修复方法,包括:使用基于线条细化的骨架提取网络对汉字图像数据集进行处理,生成对应的文字骨架图像数据集,并使用随机遮罩图像进行处理,然后将成对的汉字图像及其文字骨架图像进行训练集和测试集的划分;构建汉字图像骨架提取及修复网络模型,分批次地使用创建的文字骨架图像数据集对网络模型进行训练,使得该网络具备从缺损汉字图像中提取完整文字骨架图像的能力;构建基于文字骨架的汉字图像修复网络模型,使用之前提取到的完整文字骨架图像作为先验知识指导汉字图像的修复过程;使用训练过程中所保存的模型,对之前创建的测试集中的图像进行测试。采用本发明专利技术所述方法,可以实现不需要提前知道遮罩信息的汉字图像修复任务,并且相较于其他修复算法,可以得到笔画更加清晰的汉字图像修复结果。笔画更加清晰的汉字图像修复结果。笔画更加清晰的汉字图像修复结果。

【技术实现步骤摘要】
一种基于骨架提取及对抗学习的汉字图像修复算法


[0001]本专利技术涉及到的技术包括计算机视觉、计算机图像处理和深度学习等,其中本专利技术侧重于基于架提取及对抗学习的汉字图像修复算法研究。

技术介绍

[0002]随着信息化时代的发展,各种多媒体设备的使用得到广泛的普及,大量的信息会以图像的形式存储在计算机中,图像也是生活中各个领域中最常见的信息形式之一,与人们的日常生活息息相关。社交媒体中的传播的图像信息中可能包含许多后来添加到这些图像中的对象,包括签名、水印、表情符号等等。这些对象的添加可以改变图像的语义,因此如何从图像中去除这些对象是计算机视觉研究的一个最新方向。同时图像信息的真实性非常重要,不留痕迹的图像编辑能力给公众信息安全带来隐患.因此,从给定图像恢复到原始图像的方法很大程度上取决于给定图像的生成机制,所以从图像中去除目标或图像修复技术是当今研究的重点之一,也是信息安全领域的一个热门话题[1]。
[0003]广义上的图像修复技术[2][3]是指通过用估计值填充缺损区域或目标区域来修复图像或者移除图像中的物体,以达到恢复不完整图像中受损部分的像素特征。图像修复技术在许多计算机视觉任务中起着关键作用[4][5]。现有的图像修复技术可分为两类:基于复制移动的方法(Copy

Move Methods)和基于机器学习的图像填充(Image Inpainting)的方法。基于复制移动的方法通过从同一幅或另一幅图像的某个区域提取一个部分,然后将其复制到想要移除的对象或缺损区域来修复图像。由于其简单性,该技术被广泛用于对象去除任务,但不适用于人脸图像或自然场景等复杂情况。为了消除划痕、噪声等问题来修复受损的旧图像。可以通过机器学习的方式用估计值填充目标区域米修复图像,这种方法也可用于消除任何类型的失真。
[0004]随着深度学习的发展,基于机器学习的图像修复工作已经可以得到不错的效果,但是大部分的研究都是针对自然风景图像进行的,这些方法在文字图像的修复任务中往往会产生随机模糊的线条。目前专门针对字符图像的研究比较少,大多数研究集中在英语这一类字符数量较小的文字中,例如大小写字符共52个的英文等语言可引入分类思想,但是中文汉字数量庞大,无法复用这类方法,专门针对汉字这样字符数量庞大的文字图像修复研究寥寥无几。同时传统修复算法多引入缺损区域的遮罩信息作为先验知识,这些条件都限制了上述方法在汉字图像修复中的应用。而在文物保护等领域,数字化建设极为重要,其中针对汉字书法、古籍、碑文等信息的数字化采集通常会通过扫描、摄影等方式获取计算机图像信息,其中的中文汉字字符图像信息,不但承载着内容信息,同时也有极高的文化价值和研究价值。除了文物数字化,中文汉字图像也大量存在于手写输入、文件扫描以及日常照片中。这些物品中的文字图像信息由于老化损坏、不当存贮等原因,会出现缺损的情况。对这汉字图像中些缺损信息进行填充的过程被称为汉字图像修复。修复这些中文信息可以更加清晰的表现文本内容,且更有利于文字识别任务。因此,针对汉字图像修复的研究工作在文物保护以及实际应用中都具有巨大的意义。

技术实现思路

[0005]为了解决现有技术中的问题,本专利技术提供一种基于骨架提取及对抗学习的汉字图像修复算法,解决现有开源数据集不足、现有修复算法在汉字图像修复上不适用等问题。
[0006]为了达到上述专利技术目的,本专利技术采用的技术方案如下:
[0007]一种基于骨架提取及对抗学习的汉字图像修复方法,利用文字骨架图像作为一种先验知识,并结合文字风格迁移的思想,将汉字图像中的笔画风格和文字骨架图像中的结构化信息进行融合,最终实现缺损汉字图像修复的修复任务,具体包括下列步骤:
[0008](1)使用随机生成的成对线条图像(粗细不一的线条图像及粗细均匀线条图像),来训练一个基于线条细化的骨架提取网络,用于制作汉字图像及其文字骨架图像数据集,并使用随机遮罩图像对数据集进行处理,制作并划分用于汉字修复任务的数据集。
[0009](2)使用对抗学习的思想,使用上一个步骤中生成的汉字图像及其文字骨架图像数据集,训练一个汉字图像骨架提取及修复网络,该网络的输入是缺损的汉字图像,经过该网络模型的处理后,生成一个完整的文字骨架图像。该文字骨架图像剔除了汉字的笔画风格特征,只保留结构化的汉字笔画信息,可以作为一种先验知识指导后续修复任务。
[0010](3)使用缺损的汉字图像及上一个步骤中生成的完整文字骨架图像,训练一个基于对抗学习的汉字图像修复网络,该网络通过两个编码器分别对文字骨架图像和缺损汉字图像进行特征提取,再使用一个解码器对两种特征进行融合,最终实现汉字图像的修复任务。
[0011]本专利技术的有益效果为:采用本专利技术所述方法,能够实现不需要提前知道遮罩区域信息的汉字图像修复任务。针对中文这一类字符数量庞大的文字系统,该算法的修复结果可以得到笔画更加流畅的修复结果。
附图说明
[0012]图1为本专利技术提出的基于线条细化的骨架提取网络Skeleton

Net的结构图。
[0013]图2为本专利技术提出的汉字图像骨架提取及修复网络SRGAN的结构图。
[0014]图3为本专利技术提出的基于文字骨架的汉字图像修复网络SCGAN的结构图。
[0015]图4为本专利技术提出的数据集中的汉字图像及其文字骨架图像展示(汉字图像及其文字骨架图像展示。第一行为完整汉字图像,第二行为对应的文字骨架图像)。
[0016]图5为本专利技术起提出方法的汉字图像修复结果展示图(汉字图像修复结果展示图。第一行为完整汉字图像,第二行为缺损的汉字图像,第三行为经过SRGAN的文字骨架提取及修复结果,第四行为SCGAN的最终汉字图像修复结果)。
具体实施方式
[0017]下面结合附图,对本专利技术的技术方案作进一步的描述。
[0018]本专利技术受到基于先验知识的图像修复技术和文字风格迁移技术的启发,使用文字骨架图像作为先验知识来指导文字图像的修复。文字骨架图像可以在剔除文字笔画风格的同时保留文字图像的结构信息,对文字图像的修复过程具有指导作用。鉴于以上内容,本专利技术提出一种基于骨架提取及对抗学习的中文图像修复算法,该算法由基于对抗学习的文字骨架提取及修复网络SRGAN和基于文字骨架图像的汉字图像修复网络SCGAN组成。SRGAN使
用骨架提取的思想去除文字笔画风格,对输入的缺损文字图像进行骨架提取和修复,并得到完整的文字骨架图像。SCGAN借鉴风格迁移相关算法研究,将来自输入缺损文字图像的风格信息和来自SRGAN的文字骨架图像中的结构信息进行混合,最终得到完整的文字图像修复结果。同时本专利技术提出了一个基于线条细化的文字骨架提取算法 Skeleton

Net,并用于制作中文汉字图像及其骨架数据集,解决了数据集匮乏的问题。
[0019]本专利技术的具体实施过程如下:
[0020]1、训练基于线条细化的骨架提取网络SkeIeton

Net
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于骨架提取及对抗学习的汉字图像修复算法,具体包括下列五个步骤:步骤1:使用随机生成的成对线条图像来训练一个基于线条细化的骨架提取网络,并用于制作汉字图像及其文字骨架图像数据集,该步骤可分为以下三小步。(i)制作随机线条图像对,使用直线、圆形和矩形来生成随机线条,用于模拟汉字中的横平竖直以及撇捺等曲线结构。作为输入的线条图像分辨率为128
×
128像素,线条宽度1到20像素,目标线条图像中线条均为2像素。生成用于训练骨架提取网络的线条对数据集共5000张。(ii)执行骨架提取网络的训练操作,使用上一个小步生成数据来训练一个对抗学习网络。网络中生成器G采用长卷积的模式,共32层,包含11个卷积块,前10个卷积块都遵循Conv

BatchNorm

ReLU架构,第一层边缘填充大小为4,卷积核大小9
×
9,步长为1,这一层是为了扩大卷积的感受野,以保留图像的全局特征和并增强网络的适用性。后面9个卷积块不减小图像尺寸也不改变通道数,特征图尺寸保持不变,通道数维持在64,每个卷积层缘填充大小为1,卷积核大小3
×
3,步长为1。最后一层使用Sigmoid激活函数将结果映射回(0,1)的范围内。为了生成更加清晰的骨架图像,采用二值分类判别器D来判别图像的真假,判别器使用Conv

BatchNorm

LeakyReLu架构。(iii)使用训练后的骨架提取网络处理汉字图像来制作文字骨架图像数据集。步骤2:使用对抗学习的思想,使用上一个步骤中生成的汉字图像及其文字骨架图像数据集,训练一个汉字图像骨架提取及修复网络SRGAN,该网络的输入是缺损的汉字图像,经过该网络模型的处理后,生成一个完整的文字骨架图像。该网络整体为生成对抗学习网络,生成器G
r
的编码器部分称作E,由4个卷积块φ组成,表示为其中每个卷积块φ都具有相同的结构含两个部分卷积块其中每个卷积块φ都具有相同的结构含两个部分卷积块每个部分卷积块都遵循Conv

BatchNorm

ELU结构。只增加图像的通道数而不减小图像尺寸,使用大小为3
×
3的卷积核,边缘填充尺寸为1的卷积层,表示为C_3_1_1,使用卷积核大小为2
×
2,步长为2的卷积层,表示为C_2_0_2来减小特征图尺寸,进一步提取特征。编码器部分的4个卷积块可表示为φ1=(C_3_1_1,C_2_0_2)。在编码器部分均使用ELU激活函数来代替ReLU激活函数。在生成器G
r
的解码器部分与编码器部分相对称,由4个反卷积块组成,每一块分别连接编码器部分相同尺寸特征图后再进行上采样,使用的是ReLU激活函数,并在最后一层使用Sigmoid激活函数将图像分布映射回(0,1),得到最终输出的完整文字骨架图像。在损失函数设计部分,该网络的输入表示为x={x1,x2,...x
n
},生成网络的目标图像为x
gt
。设训练批次大小为n,生成器最终输出表示为x
pred
=G(x)。因为生成器G
r
分两个部分,分别执行对缺损文字图像的骨架提取和骨架修复任务,因此需要对两个部分别设置损失函数,来约束网络相对部分的功能。网络前半部分的输出是一个中间结果表示为其目标图像表示为使用L2范数来强调提到的骨架图像和目标图像之间对应像素之间的差异,如公如下:生成器G
r
的目的从缺损文字图像中提取并修复出完整的文字骨架图像,这里也使用L...

【专利技术属性】
技术研发人员:潘刚潘香羽王家豪
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1