一种基于深度学习模型的纸质表格转word文档的方法技术

技术编号:31018156 阅读:13 留言:0更新日期:2021-11-30 03:02
本发明专利技术公开了一种基于深度学习模型的纸质表格转word文档的方法,属于图像处理、人工智能技术领域,本方案根据表格提取的结果对表格图像中的文本信息进行提取,并填入word表格相应位置,本申请能够将各类纸质文档中的表格以很高的还原度转换为可编辑的word电子文档,能够帮助中大型企业解决纸质文件大量堆积、文件检索耗时耗力的问题,实现纸质文件的电子化管理,在技术层面下,相比现有方法,采用了特殊的数据增强手段,不但能够降低人工标注成本,在表格线提取方面具有更好的鲁棒性和精度,并且能够实现表格线隐藏和表格线为双线的表格提取。提取。提取。

【技术实现步骤摘要】
一种基于深度学习模型的纸质表格转word文档的方法


[0001]本专利技术涉及图像处理、人工智能
,更具体地说,涉及一种基于深度学习模型的纸质表格转word文档的方法。

技术介绍

[0002]随着信息时代的倒来,纸质文档由于占用空间庞大、需要检索时费时费力,很多企业都在试图寻找将纸质文档电子化的方法,尤其是针对纸质文档中的表格数据,因为表格中的数据通常是经过凝练的、具有重要意义的关键数据。
[0003]现有的纸质表格文档电子化方式主要有两种:
[0004]其一是对纸质文档进行拍照,然后根据纸质文档的实际内容,人为的为其建立电子文档,并保存入库,这种电子化方法的弊端有两点:其一是人工分析表格内容并建立文档仍然需要大量的、重复性人工工作;其二是电子化文档保存为图像文件,无法根据文档内容实现结构化信息的提取,亦不能基于文档内容进行智能检索,仅能基于人工建立文档时的文档名称检索。
[0005]其二是对纸质文档进行拍照后,基于各种图像处理、机器学习或深度学习方法,提取图像中表格,再基于OCR识别技术将其中的文字信息填写入表格,这类电子化方式能有效解决第一种电子化方式的弊端,但难点在于从图像中提取表格,而OCR技术在辅助的高清图像获取设备下基本能够满足工业需求。

技术实现思路

[0006]1.要解决的技术问题
[0007]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于深度学习模型的纸质表格转word文档的方法,本方案涉及一种基于深度学习模型的纸质表格转word文档的方法,其中包括表格提取模型训练数据的准备、表格提取模型的训练、利用表格提取模型对图像表格进行表格提取,并自动生成为word表格和基于OCR识别技术,根据表格提取的结果对表格图像中的文本信息进行提取,并填入word表格相应位置,本申请能够将各类纸质文档中的表格以很高的还原度转换为可编辑的word电子文档,能够帮助中大型企业解决纸质文件大量堆积、文件检索耗时耗力的问题,实现纸质文件的电子化管理,在技术层面下,相比现有方法,本申请采用特殊的数据增强手段,不但能够降低人工标注成本,在表格线提取方面具有更好的鲁棒性和精度,并且能够实现表格线隐藏和表格线为双线的表格提取。
[0008]2.技术方案
[0009]为解决上述问题,本专利技术采用如下的技术方案。
[0010]一种基于深度学习模型的纸质表格转word文档的方法,包括以下步骤:
[0011]S1、首先通过计算控制装置对表格提取模型训练数据进行准备;
[0012]S2、再进行对表格提取模型的训练;
[0013]S3、利用表格提取模型对图像表格进行表格提取,并自动生成为word表格;
[0014]S4、基于OCR识别技术,根据表格提取的结果对表格图像中的文本信息进行提取,并填入word表格相应位置。
[0015]本专利技术将纸质表格文档转换为word表格的总体流程,首先基于表格检测模型,定位图像中的表格区域位置,并提取出涵盖完整表格的子图像;然后利用表格线提取模型,提取子图像中的表格线,并生成表格线预测热图PT;然后建立一个M
×
N的表格,并与子图像中单元格坐标位置建立约束,求解仿射变换矩阵F,并基于求解后的仿射变换矩阵,采用合并单元格的方式生成未录入数据的word表格文档;最后,通过OCR识别技术,基于每个子单元格在图像中的位置,提取其中的文本信息,并录入至word文档中。
[0016]进一步的,所述S1中的表格提取模型训练数据的准备方法如下:
[0017]S11、采集尽可能多种类型的表格图像数据,其中包括隐藏了表格边框和表格边框线为双线的表格图像;
[0018]S12、对每张表格图像进行图像标注,其标注方式为以直线段为单位,为表格图像中涉及的每一条直线段进行标注,得到GT(Ground Truth)热图作为表格线提取的标签文件,其中GT热图为一种仅包含表格直线段的二值化或灰度图像;
[0019]S13、对原始的表格图像进行随机的旋转、缩放、JPEG压缩、椒盐噪声、高斯噪声等图像攻击手段进行图像转换,得到进行数据增强后的训练样本数据集,同时对GT热图像素也进行相应的坐标变换,得到数据集增强后的GT热图;
[0020]S14、根据每张表图像的GT热图,取热图中表格线所处位置的横纵坐标的最大、最小值Xmin,Xmax,Ymin,Ymax,保存(Xmin

σ,Ymin

σ),(Xmin

σ,Ymax+σ),(Xmax+σ,Ymin+σ),(Xmax+σ,Ymax+σ)四个点的坐标,作为每张图像中整个表格区域的矩形框位置标签,其中σ为大于零的某预设好的阈值。
[0021]为了实现上述流程,需要训练两个模型,分别为表格检测模型和表格线提取模型,而这两个模型的训练需要训练数据以及相应的标签做支撑,其中表格检测模型的输入为图像本身和表格所在区域的矩形框四个端点坐标,具体的输入形式如图2所示;表格线提取模型的输入为图像本身和仅包含表格中表格直线段的二值化热图图像。
[0022]进一步的,所述S2中的表格提取模型包括表格检测和表格线提取两个子模型,其训练方法为:
[0023]S21、以整张表格图像作为训练输入样本,以权利要求2中S14所述的整个表格区域的矩形框位置标签作为训练标签,搭建目标检测类深度学习模型,训练表格检测模型;
[0024]S22、基于表格检测模型,提取表格图像中表格区域的子图像,以所述子图像作为输入,以进行裁剪后的GT热图作为训练标签,搭建语义分个类深度学习模型,训练表格线提取模型。
[0025]为获取模型训练所需的训练数据与训练标签,需要事先采集大量表格图像样本数据,并对其进行标签标注,本实施例中采用企业内部的表格图像数据以及网络爬虫图像数据作为训练样本,其中图像选取的原则在于尽可能收集种类多样的表格图像,其中包括隐藏了表格边线框的表格和边框为双线的表格,在数据标注方面,本申请仅对一幅图像进行一次标注工作,即对每张表格图像中涉及的每一条直线段进行标注,得到GT(Ground Truth)热图作为表格线提取的标签文件,其中GT热图为一种仅包含表格直线段的二值化或灰度图像,在数据标注过程中需特别指出的是,对于隐藏了表格线和表格线为双线的图像,
在数据标注时仍以单线条标注为GT热图,这样的数据标注将会使模型训练时增加对无边框和双边框表格的表格线提取能力
[0026]进一步的,所述S22裁剪后的GT热图为基于所述表格检测模型得到的表格区域坐标,在原始GT热图上进行裁剪后的图像。
[0027]由于深度学习模型训练需要大量训练样本,同时对于自然环境的表格图像来说,通常带有各式各样的噪声干扰,因此本实施例中对数据进行了增强,即对原始的表格图像分别进行旋转、JPEG压缩、添加椒盐噪声、添加高斯噪声、涂抹、缩放、亮度改变等图像变换,其中如果图像变换为旋转、缩放时,也对标签数据进行相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:包括以下步骤:S1、首先通过计算控制装置对表格提取模型训练数据进行准备;S2、再进行对表格提取模型的训练;S3、利用表格提取模型对图像表格进行表格提取,并自动生成为word表格;S4、基于OCR识别技术,根据表格提取的结果对表格图像中的文本信息进行提取,并填入word表格相应位置。2.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S1中的表格提取模型训练数据的准备方法如下:S11、采集尽可能多种类型的表格图像数据,其中包括隐藏了表格边框和表格边框线为双线的表格图像;S12、对每张表格图像进行图像标注,其标注方式为以直线段为单位,为表格图像中涉及的每一条直线段进行标注,得到GT(GroundTruth)热图作为表格线提取的标签文件,其中GT热图为一种仅包含表格直线段的二值化或灰度图像;S13、对原始的表格图像进行随机的旋转、缩放、JPEG压缩、椒盐噪声、高斯噪声等图像攻击手段进行图像转换,得到进行数据增强后的训练样本数据集,同时对GT热图像素也进行相应的坐标变换,得到数据集增强后的GT热图;S14、根据每张表图像的GT热图,取热图中表格线所处位置的横纵坐标的最大、最小值Xmin,Xmax,Ymin,Ymax,保存(Xmin

σ,Ymin

σ),(Xmin

σ,Ymax+σ),(Xmax+σ,Ymin+σ),(Xmax+σ,Ymax+σ)四个点的坐标,作为每张图像中整个表格区域的矩形框位置标签,其中σ为大于零的某预设好的阈值。3.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S2中的表格提取模型包括表格检测和表格线提取两个子模型,其训练方法为:S21、以整张表格图像作为训练输入样本,以权利要求2中S14所述的整个表格区域的矩形框位置标签作为训练标签,搭建目标检测类深度学习模型,训练表格检测模型;S22、基于表格检测模型,提取表格图像中表格区域的子图像,以所述子图像作为输入,以进行裁剪后的GT热图作为训练标签,搭建语义分个类深度学习模型,训练表格线提取模型。4.根据权利要求3中所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S22裁剪后的GT热图为基于所述表格检测模型得到的表格区域坐标,在原始GT热图上进行裁剪后的图像。5.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S3中的利用表格提取模型对图像表格进行表格线提取,并自动生成为word表格的步骤为:S31、获取表格图像;S32、基于权利要求3中S21中得到的表格检测模型,以表格图像作为输入,检测表格图像中表格区域的位置,并对其进行剪切...

【专利技术属性】
技术研发人员:叶海亮
申请(专利权)人:南京英诺森软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1