一种基于深度学习模型的纸质表格转word文档的方法技术

技术编号：31018156 阅读：13 留言：0更新日期：2021-11-30 03:02

本发明专利技术公开了一种基于深度学习模型的纸质表格转word文档的方法，属于图像处理、人工智能技术领域，本方案根据表格提取的结果对表格图像中的文本信息进行提取，并填入word表格相应位置，本申请能够将各类纸质文档中的表格以很高的还原度转换为可编辑的word电子文档，能够帮助中大型企业解决纸质文件大量堆积、文件检索耗时耗力的问题，实现纸质文件的电子化管理，在技术层面下，相比现有方法，采用了特殊的数据增强手段，不但能够降低人工标注成本，在表格线提取方面具有更好的鲁棒性和精度，并且能够实现表格线隐藏和表格线为双线的表格提取。提取。提取。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习模型的纸质表格转word文档的方法

[0001]本专利技术涉及图像处理、人工智能
，更具体地说，涉及一种基于深度学习模型的纸质表格转word文档的方法。

技术介绍

[0002]随着信息时代的倒来，纸质文档由于占用空间庞大、需要检索时费时费力，很多企业都在试图寻找将纸质文档电子化的方法，尤其是针对纸质文档中的表格数据，因为表格中的数据通常是经过凝练的、具有重要意义的关键数据。
[0003]现有的纸质表格文档电子化方式主要有两种：
[0004]其一是对纸质文档进行拍照，然后根据纸质文档的实际内容，人为的为其建立电子文档，并保存入库，这种电子化方法的弊端有两点：其一是人工分析表格内容并建立文档仍然需要大量的、重复性人工工作；其二是电子化文档保存为图像文件，无法根据文档内容实现结构化信息的提取，亦不能基于文档内容进行智能检索，仅能基于人工建立文档时的文档名称检索。
[0005]其二是对纸质文档进行拍照后，基于各种图像处理、机器学习或深度学习方法，提取图像中表格，再基于OCR识别技术将其中的文字信息填写入表格，这类电子化方式能有效解决第一种电子化方式的弊端，但难点在于从图像中提取表格，而OCR技术在辅助的高清图像获取设备下基本能够满足工业需求。

技术实现思路

[0006]1.要解决的技术问题
[0007]针对现有技术中存在的问题，本专利技术的目的在于提供一种基于深度学习模型的纸质表格转word文档的方法，本方案涉及一种基于深度学习模型的纸质表格转word文档...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习模型的纸质表格转word文档的方法，其特征在于：包括以下步骤：S1、首先通过计算控制装置对表格提取模型训练数据进行准备；S2、再进行对表格提取模型的训练；S3、利用表格提取模型对图像表格进行表格提取，并自动生成为word表格；S4、基于OCR识别技术，根据表格提取的结果对表格图像中的文本信息进行提取，并填入word表格相应位置。2.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法，其特征在于：所述S1中的表格提取模型训练数据的准备方法如下：S11、采集尽可能多种类型的表格图像数据，其中包括隐藏了表格边框和表格边框线为双线的表格图像；S12、对每张表格图像进行图像标注，其标注方式为以直线段为单位，为表格图像中涉及的每一条直线段进行标注，得到GT(GroundTruth)热图作为表格线提取的标签文件，其中GT热图为一种仅包含表格直线段的二值化或灰度图像；S13、对原始的表格图像进行随机的旋转、缩放、JPEG压缩、椒盐噪声、高斯噪声等图像攻击手段进行图像转换，得到进行数据增强后的训练样本数据集，同时对GT热图像素也进行相应的坐标变换，得到数据集增强后的GT热图；S14、根据每张表图像的GT热图，取热图中表格线所处位置的横纵坐标的最大、最小值Xmin，Xmax，Ymin，Ymax，保存(Xmin
‑
σ，Ymin
‑
σ)，(Xmin
‑
σ，Ymax+σ)，(Xmax+σ，Ymin+σ)，(Xmax+σ，Ymax+σ)四个点的坐标，作为每张图像中整个表格区域的矩形框位置标签，其中σ为大于零的某预设好的阈值。3.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法，其特征在于：所述S2中的表格提取模型包括表格检测和表格线提取两个子模型，其训练方法为：S21、以整张表格图像作为训练输入样本，以权利要求2中S14所述的整个表格区域的矩形框位置标签作为训练标签，搭建目标检测类深度学习模型，训练表格检测模型；S22、基于表格检测模型，提取表格图像中表格区域的子图像，以所述子图像作为输入，以进行裁剪后的GT热图作为训练标签，搭建语义分个类深度学习模型，训练表格线提取模型。4.根据权利要求3中所述的一种基于深度学习模型的纸质表格转word文档的方法，其特征在于：所述S22裁剪后的GT热图为基于所述表格检测模型得到的表格区域坐标，在原始GT热图上进行裁剪后的图像。5.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法，其特征在于：所述S3中的利用表格提取模型对图像表格进行表格线提取，并自动生成为word表格的步骤为：S31、获取表格图像；S32、基于权利要求3中S21中得到的表格检测模型，以表格图像作为输入，检测表格图像中表格区域的位置，并对其进行剪切...

【专利技术属性】
技术研发人员：叶海亮，
申请(专利权)人：南京英诺森软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人