本发明专利技术公开一种基于深度学习的表格结构重建方法,其包括如下步骤:获取训练图像,所述训练图像显示有表格;对训练图像进行预处理;提取预处理后图像的特征图;利用特征图进行学习和参数更新,获得表格线分类和定位模型;获取用于表格重建的待重建图像,所述待重建图像显示有待重建表格;根据表格线分类和定位模型得到待重建表格的结构信息;对待重建图像进行文字识别和图像目标检测,得到表格内容信息;将待重建表格的结构信息和表格内容信息匹配,重建表格。本发明专利技术使用较少的数据即可完成网络的训练使其学习到稳定准确的特征信息,从而大大提高了在低数据样本的情况下表格线信息提取的准确度,同时该算法具有良好的泛化能力和较好的鲁棒性。较好的鲁棒性。较好的鲁棒性。
【技术实现步骤摘要】
基于深度学习的表格结构重建方法
[0001]本专利技术涉及图像处理和模式识别领域,具体来说,是一种基于图像处理和深度学习方法的表格结构重建方法。
技术介绍
[0002]表格作为一种常见的文档格式,频繁地出现在人们的生活中,如简历,报名表,财务报表等。表格样式多变,有自己的版式特点,然而,很多时候人们需要使用表格时往往需要自己重新建立新的表格样式,非常耗时。
[0003]目前还没成熟的自动化方案可以帮助或辅助用户快速完成表格拷贝或编辑。早期的表格还原或表格识别方法大多是基于线回归或霍夫变换为主要方法的传统图像处理方案,难以应对多种表格样式和场景。
[0004]可见,目前的表格重建方案存在着明显的泛化能力差,适用环境单一的问题。
技术实现思路
[0005]本专利技术旨在提供一种基于深度学习的表格结构重建方法,该方法在表格重建过程中全程无需用户交互,能够适用多种表格样式和场景应用表,并支持跨平台。
[0006]为实现上述技术目的,本专利技术采用的技术方案如下:
[0007]一种基于深度学习的表格结构重建方法,包括
[0008]获取训练图像,所述训练图像显示有表格;
[0009]对训练图像进行预处理;
[0010]提取预处理后图像的特征图;
[0011]利用特征图进行学习和参数更新,获得表格线分类和定位模型;
[0012]获取用于表格重建的待重建图像,所述待重建图像显示有待重建表格;
[0013]根据待重建图像得到待重建表格的结构信息;
[0014]对待重建图像进行文字识别和图像目标检测,得到表格内容信息;
[0015]将待重建表格的结构信息和表格内容信息匹配,重建表格。
[0016]较佳地,所述对训练目标图像进行预处理,包括:
[0017]对训练图像进行数据增广,生成增广训练数据;
[0018]将增广训练数据与真实表格数据混合,然后进行归一化处理;
[0019]获取每张训练图像的标签,所述标签包括每个像素点相对于表格结构的相对位置关系。
[0020]较佳地,所述提取预处理后图像的特征图,包括:
[0021]将预处理后的图像数据和标签作为输入,送入基于深度学习的分割网络进行训练提取出特征图;
[0022]所述分割网络采用改进后的Unet分割网络,其选择加权交叉熵损失函数来进行训练。
[0023]较佳地,所述根据待重建图像得到待重建表格的结构信息,包括:
[0024]将待重建图像送入所述分割网络,得到表格线分类的像素概率矩阵;
[0025]根据所得像素概率矩阵生成表格线二值图;
[0026]根据表格线二值图提取单元格交叉点;
[0027]根据单元格交叉点对单元格的行列进行组合,得到待重建表格的结构信息。
[0028]较佳地,所述根据所得像素概率矩阵生成表格线二值图,包括对像素概率矩阵进行映射,具体包括:
[0029]设定概率阈值,如果表格横竖线的像素概率大于概率阈值,则对应的像素点映射为255,反之则映射为0,从而对表格线进行分割。
[0030]本专利技术基于深度学习的表格结构重建算法主旨是为了将表格图像或不可编辑的表格区域通过深度学习和图像处理的思想转成可编辑形式的表格,使得用户无需重新绘制表格即可快速拷贝或修改某个表格的结构或内容,为提取表格关键内容做了前期准备。
[0031]本专利技术相比现有技术,使用较少的数据,即可完成网络的训练使其学习到稳定准确的特征信息,从而大大提高了在低数据样本的情况下表格线信息提取的准确度。该算法具有良好的泛化能力,对于模糊、一定程度的透视畸变和倾斜表格仍然有很高的还原效果,具有较好的鲁棒性。本申请对大约1000张图像进行了测试,单元格重建的准确率在95%以上。
附图说明
[0032]图1为一种基于深度学习的表格结构重建方法的流程图;
[0033]图2为训练图像预处理的流程图;
[0034]图3为获取待重建表格的结构信息的流程图。
具体实施方式
[0035]为了便于本领域技术人员的理解,下面结合实施例与附图对本专利技术作进一步的说明,实施方式提及的内容并非对本专利技术的限定。
[0036]如图1所示,一种基于深度学习的表格结构重建方法,包括训练过程和推理过程。
[0037]训练过程:
[0038]训练包括采集样本来建立相应的重建模型,具体包括如下步骤:
[0039]S1:采集用于训练的训练图像,训练图像来自网络真实表格图像或PDF或word表格截图,可以通过摄像头拍摄,也可以通过电脑截图,但是要求训练图像中应含有表格。
[0040]S2:对采集的训练图像进行预处理,便于进行样本训练,具体预处理过程如下:
[0041]S21:对训练图像进行数据增广,生成增广训练数据。
[0042]数据增广是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。通过数据增广提升数据集中的相关数据,能防止网络学习到不相关的特征,更多的学到更数据有关的性能,显著的提升整体的性能。在实际应用中,并非所有的增广方式都适用当前的训练数据,需要根据当前训练的数据集特征来确定应该使用哪几种数据增广方式。
[0043]本实施例中采用了翻转、噪声添加、颜色抖动、模糊等方式的数据增广。
[0044]S22:将S21中经过数据增广后的增广训练数据与真实表格数据混合形成训练图像集,然后再将其进行归一化处理。
[0045]S23:获取每张训练图像的标签,标签包括每个像素点相对于表格结构的相对位置关系。
[0046]S3:提取预处理后图像的特征图,具体包括:
[0047]S31:将预处理后的图像数据和步骤S23的标签作为输入,送入基于深度学习的分割网络进行训练提取出特征图。
[0048]分割网络比较常见的是Unet模型,该模型中通过编码器(encoder)对图像数据进行特征提取,在提取的特征图中进行上采样以及特征融合,输出分类的概率和像素坐标。
[0049]本申请做Unet分割网络进行了改进,通过使用加权交叉熵损失函数(Cross Entropy Error Function)来替换原有的损失函数。
[0050]S4:利用特征图进行学习和参数更新,获得表格线分类和定位模型。
[0051]推理过程:
[0052]推理过程根据重建模型来识别待重建图像中的表格,具体包括如下步骤:
[0053]S5:采集用于表格重建的待重建图像,待重建图像可以通过摄像头拍摄,也可以通过电脑截图,所述待重建图像显示有待重建表格;
[0054]S6:根据待重建图像得到待重建表格的结构信息,具体包括:
[0055]S61:将待重建图像送入S31中所用到的分割网络,得到表格线分类的像素概率矩阵;
[0056]S62:根据所得像素概本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于深度学习的表格结构重建方法,其特征在于,包括获取训练图像,所述训练图像显示有表格;对训练图像进行预处理;提取预处理后图像的特征图;利用特征图进行学习和参数更新,获得表格线分类和定位模型;获取用于表格重建的待重建图像,所述待重建图像显示有待重建表格;根据表格线分类和定位模型得到待重建表格的结构信息;对待重建图像进行文字识别和图像目标检测,得到表格内容信息;将待重建表格的结构信息和表格内容信息匹配,重建表格。2.根据权利要求1所述的基于深度学习的表格结构重建方法,其特征在于,所述对训练目标图像进行预处理,包括:对训练图像进行数据增广,生成增广训练数据;将增广训练数据与真实表格数据混合,然后进行归一化处理;获取每张训练图像的标签,所述标签包括每个像素点相对于表格结构的相对位置关系。3.根据权利要求2所述的基于深度学习的表格结构重建方法,其特征在于,所述提取预处理后图...
【专利技术属性】
技术研发人员:蔡雨欣,
申请(专利权)人:长治市瞬莱通讯器材有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。