非完整框线表格的提取方法、装置、设备及存储介质制造方法及图纸

技术编号:38810865 阅读:22 留言:0更新日期:2023-09-15 19:49
本发明专利技术公开了一种非完整框线表格的提取方法、装置、设备及存储介质,该方法包括:基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型;将非完整框线表格栅格化获得栅格单元,并对栅格单元进行击中测试,基于击中测试结果确定栅格单元的候选行列线;基于栅格单元中文本框的对齐方式,从候选行列线中确定栅格单元的不可见行列线,以根据不可见行列线提取非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。高的问题。高的问题。

【技术实现步骤摘要】
非完整框线表格的提取方法、装置、设备及存储介质


[0001]本专利技术涉及文档识别
,尤其涉及一种非完整框线表格的提取方法、装置、设备及存储介质。

技术介绍

[0002]PDF(便携式文件格式,Portable Document Format)是最广泛应用的文档格式之一,其核心优势在于跨平台性,能保留文件原有格式。随着文档识别技术的发展,几乎能从PDF文件中提取所有的文字、图像、公式、表格等信息。
[0003]当前PDF中的表格一般是指线条与文字、数字的结合,结构更加复杂。PDF文档中包含的表格一般可以分为两类:完整框线表格与非完整框线表格。其中,完整框线表格的识别较为简单,可以达到较高的准确率。对于非完整框线表格,由于没有框线约束,虽然肉眼可见表格的行列情况,但是机器自动识别还存在着准确率低的问题。

技术实现思路

[0004]本专利技术提供一种非完整框线表格的提取方法、装置、设备及存储介质,旨在解决PDF文件中非完整框线表格提取准确率低的问题。
[0005]为实现上述目的,本专利技术提供一种非完整框线表格的提取方法,所述方法应用于非完整框线表格的提取设备,所述方法包括:
[0006]基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
[0007]将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
[0008]基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
[0009]可选地,所述对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线,包括:
[0010]识别所述栅格单元中的文本框,根据所述文本框确定待提取的行列,并确定初始行列线;
[0011]对所述初始行列线进行击中测试,获得测试通过的合格行列线;
[0012]将当前行列基本位置与前一行列基本位置之间的合格行列线确定为候选行列线。
[0013]可选地,所述对所述初始行列线进行击中测试,获得测试通过的合格行列线包括:
[0014]沿所述初始行列线的方向,向文本框投影,记录被击中文本框数量;
[0015]将所述被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。
[0016]可选地,所述不可见行列线包括不可见列线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线包括:
[0017]确定所述文本框的列对齐方式,所述对齐方式包括左对齐、居中对齐、右对齐;
[0018]确定各个候选列线与所述文本框第一左边界的第一距离,确定各个候选列线与所述文本框第一右边界的第二距离;
[0019]基于基于所述列对齐方式、所述第一距离、所述第二距离从所述候选列线中确定所述栅格单元的不可见列线。
[0020]可选地,所述不可见行列线包括不可见上行线、不可见下行线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,包括:
[0021]确定所述文本框的行对齐方式,所述对齐方式包括靠上对齐、居中对齐;
[0022]对于靠上对齐,确定各条候选行线与上一条候选行线之间的间隔,并将各个间隔正向排序,将排序第一的间隔对应的候选行线确定为当前行线的上行线;
[0023]对于居中对齐,将上一行的下边界往下的第一条候选行线确定为当前行的上行线;
[0024]将当前行文本框下边界对应的候选行线确定为下行线。
[0025]可选地,所述基于PDF文件中表格的可见行列线数量确定表格的表格类型,包括:
[0026]确定PDF文件中表格的可见行列线;
[0027]将所述可见行列线的数量与数量阈值进行对比;
[0028]若所述可见行列线的数量小于数量阈值,则确定所述表格类型为非完整框线表格。
[0029]可选地,所述包括可见行线和可见列线,所述检测所述PDF文件中表格的可见行列线包括:
[0030]将所述PDF文件转换为图片,并确定表格的表头位置,基于所述表头位置确定感兴趣区域;
[0031]对所述感兴趣区域进行二值化处理获得二值化图像;
[0032]对所述二值化图像进行x轴方向映射获得第一连通域,基于所述第一连通域获得每一行的基本位置的文本框,以及可见行线;和
[0033]对所述二值化图像的像素沿y轴方向求和,获得每一条列线的沿y轴方向的像素总和,将像素总和与所述感兴趣区域像素值一致的线确定为可见列线
[0034]本专利技术实施例还提出一种非完整框线表格的提取装置,包括:
[0035]表格类型确定模块,用于基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
[0036]栅格化模块,用于将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
[0037]不可见行列线确定模块,用于基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
[0038]本专利技术实施例还提出一种非完整框线表格的提取设备,包括存储器、处理器以及存储在所述存储器上的非完整框线表格的提取程序,所述非完整框线表格的提取程序被所述处理器运行时实现如上任一项所述的方法的步骤:
[0039]本专利技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有非完整框线表格的提取程序,所述非完整框线表格的提取程序被处理器运行时实现如上
任一项所述的方法的步骤。
[0040]相比现有技术,本专利技术提出的一种非完整框线表格的提取方法、装置、设备及存储介质,基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。
附图说明
[0041]图1是本专利技术本专利技术各实施例涉及的非完整框线表格的提取设备的硬件结构示意图;
[0042]图2是本专利技术非完整框线表格的提取方法第一实施例的流程示意图;
[0043]图3是本专利技术非完整框线表格的提取方法一实施例涉及的栅格化示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非完整框线表格的提取方法,其特征在于,所述方法包括:基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。2.根据权利要求1所述的方法,其特征在于,所述对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线,包括:识别所述栅格单元中的文本框,根据所述文本框确定待提取的行列,并确定初始行列线;对所述初始行列线进行击中测试,获得测试通过的合格行列线;将当前行列基本位置与前一行列基本位置之间的合格行列线确定为候选行列线。3.根据权利要求2所述的方法,其特征在于,所述对所述初始行列线进行击中测试,获得测试通过的合格行列线包括:沿所述初始行列线的方向,向文本框投影,记录被击中文本框数量;将所述被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。4.根据权利要求1所述的方法,其特征在于,所述不可见行列线包括不可见列线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线包括:确定所述文本框的列对齐方式,所述对齐方式包括左对齐、居中对齐、右对齐;确定各个候选列线与所述文本框第一左边界的第一距离,确定各个候选列线与所述文本框第一右边界的第二距离;基于基于所述列对齐方式、所述第一距离、所述第二距离从所述候选列线中确定所述栅格单元的不可见列线。5.根据权利要求1所述的方法,其特征在于,所述不可见行列线包括不可见上行线、不可见下行线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,包括:确定所述文本框的行对齐方式,所述对齐方式包括靠上对齐、居中对齐;对于靠上对齐,确定各条候选行线与上一条候选行线之间的间隔,并将各个间隔正向排序,将排序第一的间隔对应的候选行线确定为当前行线的上行线;对于居...

【专利技术属性】
技术研发人员:孙刈凡杨青
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1