System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于解析型PDF的非完整框线表格识别方法及系统技术方案_技高网

用于解析型PDF的非完整框线表格识别方法及系统技术方案

技术编号:42070188 阅读:4 留言:0更新日期:2024-07-19 16:52
本发明专利技术提供了一种用于解析型PDF的非完整框线表格识别方法及系统,包括对待识别的PDF文档进行直线和矩形提取,并将提取的矩形转化为若干直线;基于获得的若干直线,通过构建连通域获得表格区域及表格区域对应表格线集合;基于获得的表格区域,获得表格区域的四周框线;基于所述四周框线是否存在于表格线集合的判断结果,将不存在的四周框线添加入表格线集合中;基于获得的表格线集合,获取表格区域的表格线横线和竖线的交点坐标,基于获得的交点坐标,进行表格区域内单元格区域的识别;基于获得的表格区域及表格区域内部的单元格区域,实现表格的识别。

【技术实现步骤摘要】

本专利技术属于表格识别,尤其是涉及一种用于解析型pdf的非完整框线表格识别方法及系统。


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、专利技术人发现,在针对pdf进行表格识别时,通常采用pdfp l umber框架,但是,在利用pdfp l umber框架进行解析型pdf识别表格的时候,对于待识别表格的类别有很大的局限性,仅仅可以识别出完整框线表格,对于非完整框线表格(缺失左右框线等)无法识别出表格整体结构,导致表格识别缺失问题。


技术实现思路

1、为了解决上述问题,本专利技术提供了一种用于解析型pdf的非完整框线表格识别方法及系统,所述方案通过提取pdf文档中的直线和矩形,并将矩形全部转化为直线,基于获得的直线,利用图像处理技术构建连通域检测出非完整框线表格区域,然后通过区域内直线的分布情况确定是否缺失框线并将其补全,从而实现表格及单元格区域的完整识别,避免了传统方式无法对非完整框线表格进行表格整体结构识别,而导致表格识别缺失的问题。

2、根据本专利技术实施例的第一方面,提供了一种用于解析型pdf的非完整框线表格识别方法,包括:

3、对待识别的pdf文档进行直线和矩形提取,并将提取的矩形转化为若干直线;

4、基于获得的若干直线,通过构建连通域获得表格区域及表格区域对应表格线集合;

5、基于获得的表格区域,获得表格区域的四周框线;

6、基于所述四周框线是否存在于表格线集合的判断结果,将不存在的四周框线添加入表格线集合中;

7、基于获得的表格线集合,获取表格区域的表格线横线和竖线的交点坐标,基于获得的交点坐标,进行表格区域内单元格区域的识别;

8、基于获得的表格区域及表格区域内部的单元格区域,实现表格的识别。

9、进一步的,所述通过构建连通域获得表格区域,具体为:对于构建的连通域,将连通域中面积小于预设阈值、以及宽度或高度小于预设阈值的连通域进行去除,获得表格区域。

10、进一步的,所述基于所述四周框线是否存在于表格线集合的判断结果,将不存在的四周框线添加入表格线集合中,具体为:基于框线的端点坐标,遍历表格线集合中所有表格线端点坐标,判断表格线集合中是否存在表格线端点坐标与框线对应端点坐标差小于预设阈值的表格线,若不存在,则将当前框线添加入表格线集合中。

11、进一步的,在进行交点坐标获取前,需对表格线集合中的表格线进行横线和纵线的平滑处理。

12、进一步的,所述基于获得的表格线集合,获取表格区域的表格线横线和竖线的交点坐标,具体为:将表格线集合中的横线和竖线分别绘制在空白图像上,并将所述空白图像转化为二值图像;基于所述二值图像,采用与操作,获取只包含交点的图像,基于该图像进行交点坐标的提取。

13、进一步的,所述基于获得的交点坐标,进行表格区域内单元格区域的识别,具体为:对所有交点进行分类,其中,对单元格起始位置交点标注为0,右框线和下框线交点标注为1,其余交点标注为2;基于分类结果,查询单元格的终点坐标:基于获得标注为0、1、2的交点,结合单元格的终点坐标,实现单元格区域的识别。

14、进一步的,所述终点坐标的查询,具体为:遍历标注为0的交点坐标,随后向右遍历在同一横线上的其他交点,若不存在标注为0的交点,则寻找距离最近的标注为2的交点,若也不存在,则将下一个交点作为单元格右上交点;寻找到右上交点后,根据右上交点向下寻找同一竖线上的其他交点,找到与其右侧没有横线相连的目标交点,以所述目标交点作为单元格的终点,获得终点坐标。

15、根据本专利技术实施例的第二方面,提供了一种用于解析型pdf的非完整框线表格识别系统,包括:

16、直线提取单元,其用于对待识别的pdf文档进行直线和矩形提取,并将提取的矩形转化为若干直线;

17、表格区域获取单元,其用于基于获得的若干直线,通过构建连通域获得表格区域及表格区域对应表格线集合;

18、表格四周框线获取单元,其用于基于获得的表格区域,获得表格区域的四周框线;

19、框线补全单元,其用于基于所述四周框线是否存在于表格线集合的判断结果,将不存在的四周框线添加入表格线集合中;

20、表格识别单元,其用于基于获得的表格线集合,获取表格区域的表格线横线和竖线的交点坐标,基于获得的交点坐标,进行表格区域内单元格区域的识别;基于获得的表格区域及表格区域内部的单元格区域,实现表格的识别。

21、根据本专利技术实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种用于解析型pdf的非完整框线表格识别方法。

22、根据本专利技术实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种用于解析型pdf的非完整框线表格识别方法。

23、以上一个或多个技术方案存在以下有益效果:

24、(1)本专利技术提供了一种用于解析型pdf的非完整框线表格识别方法及系统,所述方案通过提取pdf文档中的直线和矩形,并将矩形全部转化为直线,基于获得的直线,利用图像处理技术构建连通域检测出非完整框线表格区域,然后通过区域内直线的分布情况确定是否缺失框线并将其补全,从而实现表格及单元格区域的完整识别,避免了传统方式无法对非完整框线表格进行表格整体结构识别,而导致表格识别缺失的问题。

25、(2)本实施例所述方案对于标准版式清晰的文档补全和识别具有较高的准确率,几乎不会出现误识别漏识别问题。

26、本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种用于解析型PDF的非完整框线表格识别方法,其特征在于,包括:

2.如权利要求1所述的一种用于解析型PDF的非完整框线表格识别方法,其特征在于,所述通过构建连通域获得表格区域,具体为:对于构建的连通域,将连通域中面积小于预设阈值、以及宽度或高度小于预设阈值的连通域进行去除,获得表格区域。

3.如权利要求1所述的一种用于解析型PDF的非完整框线表格识别方法,其特征在于,所述基于所述四周框线是否存在于表格线集合的判断结果,将不存在的四周框线添加入表格线集合中,具体为:基于框线的端点坐标,遍历表格线集合中所有表格线端点坐标,判断表格线集合中是否存在表格线端点坐标与框线对应端点坐标差小于预设阈值的表格线,若不存在,则将当前框线添加入表格线集合中。

4.如权利要求1所述的一种用于解析型PDF的非完整框线表格识别方法,其特征在于,在进行交点坐标获取前,需对表格线集合中的表格线进行横线和纵线的平滑处理。

5.如权利要求1所述的一种用于解析型PDF的非完整框线表格识别方法,其特征在于,所述基于获得的表格线集合,获取表格区域的表格线横线和竖线的交点坐标,具体为:将表格线集合中的横线和竖线分别绘制在空白图像上,并将所述空白图像转化为二值图像;基于所述二值图像,采用与操作,获取只包含交点的图像,基于该图像进行交点坐标的提取。

6.如权利要求1所述的一种用于解析型PDF的非完整框线表格识别方法,其特征在于,所述基于获得的交点坐标,进行表格区域内单元格区域的识别,具体为:对所有交点进行分类,其中,对单元格起始位置交点标注为0,右框线和下框线交点标注为1,其余交点标注为2;基于分类结果,查询单元格的终点坐标:基于获得标注为0、1、2的交点,结合单元格的终点坐标,实现单元格区域的识别。

7.如权利要求6所述的一种用于解析型PDF的非完整框线表格识别方法,其特征在于,所述终点坐标的查询,具体为:遍历标注为0的交点坐标,随后向右遍历在同一横线上的其他交点,若不存在标注为0的交点,则寻找距离最近的标注为2的交点,若也不存在,则将下一个交点作为单元格右上交点;寻找到右上交点后,根据右上交点向下寻找同一竖线上的其他交点,找到与其右侧没有横线相连的目标交点,以所述目标交点作为单元格的终点,获得终点坐标。

8.一种用于解析型PDF的非完整框线表格识别系统,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种用于解析型PDF的非完整框线表格识别方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种用于解析型PDF的非完整框线表格识别方法。

...

【技术特征摘要】

1.一种用于解析型pdf的非完整框线表格识别方法,其特征在于,包括:

2.如权利要求1所述的一种用于解析型pdf的非完整框线表格识别方法,其特征在于,所述通过构建连通域获得表格区域,具体为:对于构建的连通域,将连通域中面积小于预设阈值、以及宽度或高度小于预设阈值的连通域进行去除,获得表格区域。

3.如权利要求1所述的一种用于解析型pdf的非完整框线表格识别方法,其特征在于,所述基于所述四周框线是否存在于表格线集合的判断结果,将不存在的四周框线添加入表格线集合中,具体为:基于框线的端点坐标,遍历表格线集合中所有表格线端点坐标,判断表格线集合中是否存在表格线端点坐标与框线对应端点坐标差小于预设阈值的表格线,若不存在,则将当前框线添加入表格线集合中。

4.如权利要求1所述的一种用于解析型pdf的非完整框线表格识别方法,其特征在于,在进行交点坐标获取前,需对表格线集合中的表格线进行横线和纵线的平滑处理。

5.如权利要求1所述的一种用于解析型pdf的非完整框线表格识别方法,其特征在于,所述基于获得的表格线集合,获取表格区域的表格线横线和竖线的交点坐标,具体为:将表格线集合中的横线和竖线分别绘制在空白图像上,并将所述空白图像转化为二值图像;基于所述二值图像,采用与操作,获取只包含交点的图像,基于该图像进行交点坐标的提取。

6.如权利要求1所述的一种用于...

【专利技术属性】
技术研发人员:谢玉鑫宗云兵王权龙朱明坤
申请(专利权)人:金现代信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1