一种缺失外边框的表格数据提取方法、装置和存储介质制造方法及图纸

技术编号:22884259 阅读:28 留言:0更新日期:2019-12-21 07:24
本发明专利技术提供了一种缺失外边框的表格数据提取方法,包括:获取缺失外边框的表格;基于该表格中已有的表格线,确定该待补充外边框的纵向范围和横向访问,并基于该确定横向范围和纵向访问,补充该表格中缺失的外边框,得到具有完整外边框的表格,进而基于该具有完整外边框的表格提取其中的数据。采用本方案,既能合理的补齐缺失的外边框,又能利用上原有的线条信息,从而保证了提取的准确率。

A method, device and storage medium for extracting table data without outer border

【技术实现步骤摘要】
一种缺失外边框的表格数据提取方法、装置和存储介质
本专利技术涉及
,更具体的说,是涉及一种缺失外边框的表格数据提取方法、装置和存储介质。
技术介绍
PDF文档作为一种常用的文档,具体应用时,可能需要将PDF文档中涉及的表格数据应用于各个领域,如在金融领域,企业权威信息通过PDF格式发布,如上市招股书、季度报、年报、半年报等。通过缺失外边框的表格提取技术,可以更加完整地提取到企业的信息,快速地将机器不可读的PDF文件转换为格式化信息;从而为后续处理打下基础,如“key-value”识别、图谱建设、数据库建设、舆情分析、买卖建议等等。而该PDF表格提取的过程,将其提取为格式化的列表信息,以Json、csv或其他格式化形式存储,实现了讲该PDF文档中的表格数据,抽取为结构化信息,在该结构化的基础上,才能够应用于上述的领域中。如图1所示的为现有技术中对于外边框缺失表格添加外边框的示意图,仅仅缺失外边框的表格,由于其内边框仍然存在,所以可以通过内边框,获取到其最左、最右、最高、最低线的信息,从而加以补充,获取页面上的所有横线信息,聚合横线的左顶点,补充一条竖线,穿过最左边的所有顶点,其中(a)为添加外边框之前的表格,(b)为添加外边框之后的表格。但是,如图1所示现有技术中添加外边框的方案,在表格比较多的情况下,很容易些出现误连接的问题,将不同的表格作为同一个表格,并连接在一起,其中(a)为添加外边框之前的表格,(b)为添加外边框之后的表格,该添加的左侧的外边框,将两个表格作为一个表格误连接在一起。所以,亟需一种能够之前准确对于PDF文档中缺失外边框的表格数据提取方法。
技术实现思路
有鉴于此,本专利技术提供了一种缺失外边框的表格数据提取方法,以克服现有技术中不能准确对于PDF文档中缺失外边框的表格数据进行提取的问题。为实现上述目的,本专利技术提供如下技术方案:一种缺失外边框的表格数据提取方法,包括:获取缺失外边框的表格;基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;提取所述具有完整外边框的表格中数据。本专利技术实施例还提供了一种缺失外边框的表格数据提取装置,包括:获取模块,用于获取缺失外边框的表格;分析模块,用于基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;提取模块,用于提取所述具有完整外边框的表格中数据。经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种缺失外边框的表格数据提取方法,包括:获取缺失外边框的表格;基于该表格中已有的表格线,确定该待补充外边框的纵向范围和横向访问,并基于该确定横向范围和纵向访问,补充该表格中缺失的外边框,得到具有完整外边框的表格,进而基于该具有完整外边框的表格提取其中的数据。采用本方案,既能合理的补齐缺失的外边框,又能利用上原有的线条信息,从而保证了提取的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为现有技术中对于外边框缺失表格添加外边框的示意图;图2为本专利技术实施例提供的缺失外边框的表格数据提取方法的流程图;图3为本专利技术实施例提供的缺失外边框的表格数据提取方法中边缘单元格示意图;图4为本专利技术实施例提供的缺失外边框的表格数据提取方法的应用场景示意图;图5为本专利技术实施例提供的缺失外边框的表格数据提取装置的结构框图;图6为本专利技术实施例提供的缺失外边框的表格数据提取装置的硬件结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本方案中专利技术人对于表格进行分析、总结,得到了如下结论:合理的表格有两个特征:(1)表格之间互相没有关联,没有交点;(2)表格都是横平竖直的一个方块,基本不存在异形表格。图2为本专利技术实施例提供的缺失外边框的表格数据提取方法的流程图,所述方法可以包括:步骤S100:获取缺失外边框的表格;其中,通过对于PDF文档进行分析,确定其中的表格。其中,该表格缺失外边框,具体的,该缺失的外边框可以是上边框、下边框、左边框和右边框中的任一一个或者多个。具体实施中可以采用开源的三方库读取PDF文件,如pdfminer、tabula、pdfplumber等等,本方案是基于上述三方库读取的PDF文件进行的步骤。具体实施中,该三方库从PDF文档进行分析,读取每页PDF的线段信息,根据线段信息拼凑出表格的信息。具体实施中,执行本方案的设备从三方库输出的信息中获取表格。步骤S200:基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;其中,基于该表格中已有表格线,能够确定该表格所在的范围,而根据该表格线可以计算/确定出该待补充外边框的纵向范围和横向范围。其中,步骤S200基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围,包括:步骤S201:选择待补充的目标外边框;具体的,可以对于已有表格线中,任意表格线是否有交点来判断是否该表格中是否有待补充的边框。具体实施中,因为完整的表格是由一个封闭的外边框(表格线)和其内部的表格线组成,则当该表格中各个表格线均与其他表格线有交点,则该表格中无待补充的外边框。如该表格缺失右边框,则该表格中的表格线在该表格的右边框区域处无交点,可以参考图1(a)中的表格;如该表格缺失左边框,则该表格中的表格线,在该左边框区域处,无交点,可以参考图1(a)中的表格;如该表格缺失上边框,则该表格中的表格线,在该上边框区域处,无交点;如该表格缺失下边框,则该表格中的表格线,在该下边框区域处,无交点。则,根据该表格中的表格线是否出现无交点的情况,可以确定其出现无交点的区域是缺失边框的区域。步骤S202:分析所述目标外边框,得到所述目标外边框的类型;具体的,根据该缺失边框的区域,确定该目标外边框的类型,如是侧边框还是上/下边框等。步骤S203:基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标;其中,所述横坐本文档来自技高网
...

【技术保护点】
1.一种缺失外边框的表格数据提取方法,其特征在于,包括:/n获取缺失外边框的表格;/n基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;/n依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;/n提取所述具有完整外边框的表格中数据。/n

【技术特征摘要】
1.一种缺失外边框的表格数据提取方法,其特征在于,包括:
获取缺失外边框的表格;
基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;
依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
提取所述具有完整外边框的表格中数据。


2.根据权利要求1所述的方法,其特征在于,基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围,包括:
选择待补充的目标外边框;
分析所述目标外边框,得到所述目标外边框的类型;
基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标,所述横坐标表征了所述目标外边框在所述表格所在页面中横向取值范围,所述纵坐标表征了所述目标外边框在所述表格所在页面中纵向取值范围;
基于所述目标外边框的类型是上/下边框,分析所述表格中已有表格线,得到所述目标外边框的纵坐标和左右两端点的横坐标。


3.根据权利要求2所述的方法,其特征在于,所述基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标,包括:
分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条纵向表格线;
基于线段相交的信息,获取与所述至少一条纵向表格线相交的横向表格线;
在预设坐标系中,从与横向表格线相交的至少一条纵向表格线中,选择纵向坐标最大端点和最小端点的纵坐标作为所述目标外边框的纵坐标的取值范围;
基于所述侧边框是左边框,在预设坐标系中,从所述横向表格线中,选择横坐标最小的顶点的横坐标作为所述目标外边框的横坐标;
基于所述侧边框是右边框,在预设坐标系中,从所述横向表格线中,选择横坐标最大的顶点的横坐标作为横坐标。


4.根据权利要求2所述的方法,其特征在于,所述基于所述目标外边框的类型是上/下边框,分析所述表格中已有表格线,得到所述目标外边框的纵坐标和左右两端点的横坐标,包括:
分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条横向表格线;
基于线段相交的信息,获取与所述至少一条横向表格线相交的纵向表格线;
在预设坐标系中,从与纵向表格线相交的至少一条横向表格线...

【专利技术属性】
技术研发人员:朱龙军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1