【技术实现步骤摘要】
一种基于深度学习模型的纸质表格转word文档的方法
[0001]本专利技术涉及图像处理、人工智能
,更具体地说,涉及一种基于深度学习模型的纸质表格转word文档的方法。
技术介绍
[0002]随着信息时代的倒来,纸质文档由于占用空间庞大、需要检索时费时费力,很多企业都在试图寻找将纸质文档电子化的方法,尤其是针对纸质文档中的表格数据,因为表格中的数据通常是经过凝练的、具有重要意义的关键数据。
[0003]现有的纸质表格文档电子化方式主要有两种:
[0004]其一是对纸质文档进行拍照,然后根据纸质文档的实际内容,人为的为其建立电子文档,并保存入库,这种电子化方法的弊端有两点:其一是人工分析表格内容并建立文档仍然需要大量的、重复性人工工作;其二是电子化文档保存为图像文件,无法根据文档内容实现结构化信息的提取,亦不能基于文档内容进行智能检索,仅能基于人工建立文档时的文档名称检索。
[0005]其二是对纸质文档进行拍照后,基于各种图像处理、机器学习或深度学习方法,提取图像中表格,再基于OCR识别技术将其中的文字信息填写入表格,这类电子化方式能有效解决第一种电子化方式的弊端,但难点在于从图像中提取表格,而OCR技术在辅助的高清图像获取设备下基本能够满足工业需求。
技术实现思路
[0006]1.要解决的技术问题
[0007]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于深度学习模型的纸质表格转word文档的方法,本方案涉及一种基于深度学习模型的纸质表格转word文档 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:包括以下步骤:S1、首先通过计算控制装置对表格提取模型训练数据进行准备;S2、再进行对表格提取模型的训练;S3、利用表格提取模型对图像表格进行表格提取,并自动生成为word表格;S4、基于OCR识别技术,根据表格提取的结果对表格图像中的文本信息进行提取,并填入word表格相应位置。2.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S1中的表格提取模型训练数据的准备方法如下:S11、采集尽可能多种类型的表格图像数据,其中包括隐藏了表格边框和表格边框线为双线的表格图像;S12、对每张表格图像进行图像标注,其标注方式为以直线段为单位,为表格图像中涉及的每一条直线段进行标注,得到GT(GroundTruth)热图作为表格线提取的标签文件,其中GT热图为一种仅包含表格直线段的二值化或灰度图像;S13、对原始的表格图像进行随机的旋转、缩放、JPEG压缩、椒盐噪声、高斯噪声等图像攻击手段进行图像转换,得到进行数据增强后的训练样本数据集,同时对GT热图像素也进行相应的坐标变换,得到数据集增强后的GT热图;S14、根据每张表图像的GT热图,取热图中表格线所处位置的横纵坐标的最大、最小值Xmin,Xmax,Ymin,Ymax,保存(Xmin
‑
σ,Ymin
‑
σ),(Xmin
‑
σ,Ymax+σ),(Xmax+σ,Ymin+σ),(Xmax+σ,Ymax+σ)四个点的坐标,作为每张图像中整个表格区域的矩形框位置标签,其中σ为大于零的某预设好的阈值。3.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S2中的表格提取模型包括表格检测和表格线提取两个子模型,其训练方法为:S21、以整张表格图像作为训练输入样本,以权利要求2中S14所述的整个表格区域的矩形框位置标签作为训练标签,搭建目标检测类深度学习模型,训练表格检测模型;S22、基于表格检测模型,提取表格图像中表格区域的子图像,以所述子图像作为输入,以进行裁剪后的GT热图作为训练标签,搭建语义分个类深度学习模型,训练表格线提取模型。4.根据权利要求3中所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S22裁剪后的GT热图为基于所述表格检测模型得到的表格区域坐标,在原始GT热图上进行裁剪后的图像。5.根据权利要求1所述的一种基于深度学习模型的纸质表格转word文档的方法,其特征在于:所述S3中的利用表格提取模型对图像表格进行表格线提取,并自动生成为word表格的步骤为:S31、获取表格图像;S32、基于权利要求3中S21中得到的表格检测模型,以表格图像作为输入,检测表格图像中表格区域的位置,并对其进行剪切...
【专利技术属性】
技术研发人员:叶海亮,
申请(专利权)人:南京英诺森软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。