一种表格检测与识别方法和介质技术

技术编号:31010582 阅读:15 留言:0更新日期:2021-11-30 00:08
本发明专利技术提供了一种表格检测与识别方法及介质,包括表格信息提取步骤:对单张图像进行设定区域的识别检测,获取各个区域范围后,形成第一输出数据;所述设定区域包括表格区域、表名称区域和/或表标题区域、包括表列名区域和/或表内容区域;所述第一输出数据包括上述区域的任一种或任多种区域的位置参数;所述位置参数包括区域的顶点坐标。本发明专利技术通过将表内容结构化和表列名结构化分开实现,可以适应更复杂的表格格式,提高准确率;通过基于列化结果依次做行化的方法,可以适应角度倾斜表格,适用于更大的角度倾斜表格。适用于更大的角度倾斜表格。适用于更大的角度倾斜表格。

【技术实现步骤摘要】
一种表格检测与识别方法和介质


[0001]本专利技术涉及计算机
,具体地,涉及一种表格检测与识别方法和介质,更为具体的,涉及一种基于富文本格式的表格检测与识别方法、装置、设备和介质。

技术介绍

[0002]文档图像表格检测是一种从文档图像中检测出所有表格的任务。图像表格识别所指的是从每个检测到的表格里面检测和识别出所有单元格的文字内容。可选地可以利用所提取所有或者部分感兴趣的表格单元格内包含的信息,根据要求完成各种不同应用的任务。比如,根据购物清单表格里面的付款方、付款日期、收款方、付款金额等信息,按照一定的数据结构将信息保存起来,以备后续的检索、分析、统计和数据挖掘等任务。在大量的金融、商务、政务和医疗等相关业务的文档图像中都存在表格,并且需要提取关键的信息甚至重构表格。本专利所提出的技术具有非常广泛的应用前景和极大的商业价值。
[0003]文档图像表格检测的关键也是主要的技术难点是从文档中找到表格并且准确定位表格的边界;而文档图像表格识别的关键是确定表格的结构和提取出表格内文字字段信息,包括确定所需要的文字字段在表格中所处位置,并将定位好的文字字段识别出来。
[0004]目前文档图像中表格检测与识别的技术,主要是采用基于表格线的方法。基于表格线的表格检测方法,首先检测文档图像图片中的横线和竖线,作为表格边界框的候选表格线,然后利用检测到的文档图片中的直线及其空间关系,确定候选的表格区域。对于候选的表格,按照相应的表格区域从整体图片中截取出表格图片。理解表格结构并识别表格内文字字段信息,基于表格线的传统方法,将检测表格线,并根据检测到的表格线,分割出相应的单元格,然后对单元格中的文字进行识别。基于表格线的传统方法,对于表格检测和表格识别任务,都存在一个很大的问题:有些表格所有或者部分表格线并不存在,或者由于打印或者扫描等原因使得表格线残缺或者模糊不清,导致基于表格线的传统方法不能准确、有效地提取表格和表格单元。另外现有的线检测技术对倾斜图像的处理效果不好,准确率低。
[0005]近几年来信息处理技术,尤其是深度学习技术发展速度很快,在目标检测、自然语言处理文字检测和识别等应用的性能得到极大提高,帮助实现多种场景应用的落地。本专利将利用深度学习技术检测表格和表列名区域,并检测和识别表格内的文字,利用检测到的文字确定表格的结构并重构表格,实现高效准确的表格检测和识别,促进电子文档办公自动化和智能化的发展。

技术实现思路

[0006]针对现有技术中的缺陷,本专利技术的目的是提供一种表格检测与识别方法和介质。
[0007]根据本专利技术提供的一种表格检测与识别方法,包括:
[0008]表格信息提取步骤:对单张图像进行设定区域的识别检测,获取各个区域范围后,形成第一输出数据;
[0009]所述设定区域包括第一区域、第二区域以及第三区域这三者中的任一种或任多种组合;所述第一区域包括表格区域;所述第二区域包括表名称区域和/或表标题区域;所述第三区域包括表列名区域和/或表内容区域;
[0010]所述第一输出数据包括第一区域、第二区域以及第三区域中的任一种或任多种区域的位置参数;所述位置参数包括区域的顶点坐标或者能够通过变换得到顶点坐标的信息。
[0011]优选地,还包括表列名结构化步骤、文本字段列化处理步骤、文本字段行化处理步骤以及表格形成步骤;
[0012]表列名结构化步骤:针对表列名区域,获取列名字段的位置和内容,对表列名进行结构化识别,形成第二输出数据;
[0013]所述第二输出数据包括列信息,所述列信息包括列名字段的序号和列名称;
[0014]文本字段列化处理步骤:获取表格内容区域中每个文本字段的位置和内容,利用文本字段的x轴方向的坐标信息实现列化处理获取每个文本字段的列号信息,然后对每列的文本做行化,获取每列中文本字段之间的空间上的相对关系;
[0015]在文本字段列化处理步骤的结果的基础上,利用文本字段的y轴坐标信息实现行化处理,获取文本字段的行号信息;
[0016]表格形成步骤:将表内容区域的列内容与表列名区域的列名称建立连接关系,输出表格结构信息;
[0017]所述结构信息包括文本字段对应的行号、列号以及列名称。
[0018]优选地,若待识别表格为有线表格,还包括表格线检测优化步骤和/或单元格合并优化步骤;若待识别表格为无线表格,则还包括单元格合并优化步骤;
[0019]表格线检测优化步骤:根据表格线检测的结果对行列化的结果进行校正优化处理;
[0020]单元格合并优化步骤:基于深度学习的单元格合并方法对行列化的结果进行校正优化处理。
[0021]优选地,所述表列名结构化步骤能够通过表格类别识别获取表列名结构,从而结合第二输出数据优化识别的准确率。
[0022]优选地,所述文本字段列化处理步骤和/或文本字段行化处理步骤中,采用链式相交的方法进行列化和/或行化。
[0023]优选地,所述文本字段行化处理步骤中,对每列中的文本字段按起始的y轴坐标排序,所有文本字段都标记为未分行,对所有未分行的文本字段采用链式相交方法,依次得到新的一行表格并将包含在新的表格行里面的所有文本字段都标记为已分行,重复处理直至所有字段均被标记为已分行。
[0024]优选地,所述文本字段列化处理步骤中,根据文本识别内容进行数据类型进行分类后,分别进行列化处理;
[0025]所述数据类型包括数字、文字、符号、图形中的任一种或任多种组合。
[0026]优选地,所述表列名结构化步骤具体采用深度学习方法、规则方法以及线检测方法、表类型识别中的任一种或任多种组合。
[0027]优选地,所述第一区域、第二区域以及第三区域具体通过如下方法中的任一种或
任多种组合获取:
[0028]-所述第一区域通过基于线检测的方法获取;
[0029]-所述第二区域通过基于匹配搜索的方法获取;
[0030]-所述第三区域通过基于关键字段内容搜索的方法获取;
[0031]-所述第一区域、第二区域以及第三区域采用同一种深度学习模型获取;
[0032]-所述第一区域、第二区域以及第三区域采用不同的深度模型分别获取。
[0033]根据本专利技术提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的表格检测与识别方法的步骤。
[0034]与现有技术相比,本专利技术具有如下的有益效果:
[0035]1)本专利技术通过检测和利用表格中文字字段的方法来确定表格的结构,相比基于表格线的方法,可以提高理解表格结构的准确率和稳定性。
[0036]2)本专利技术通过基于列化结果依次做行化的方法,以及链式相交方法,可以适应角度倾斜表格,目前绝大部分方法对倾斜表格准确率低。
[0037]3)本专利技术通过基于文本类型分别列化的方法,可以适用于更大的角度倾斜表格。
[0038]4)本专利技术能同时适应无线表格、不完整线表格、有线表格而且本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格检测与识别方法,其特征在于,包括表格信息提取步骤:对单张图像进行设定区域的识别检测,获取各个区域范围后,形成第一输出数据;所述设定区域包括第一区域、第二区域以及第三区域这三者中的任一种或任多种组合;所述第一区域包括表格区域;所述第二区域包括表名称区域和/或表标题区域;所述第三区域包括表列名区域和/或表内容区域;所述第一输出数据包括第一区域、第二区域以及第三区域中的任一种或任多种区域的位置参数;所述位置参数包括区域的顶点坐标或者能够通过变换得到顶点坐标的信息。2.根据权利要求1所述的表格检测与识别方法,其特征在于,还包括表列名结构化步骤、文本字段列化处理步骤、文本字段行化处理步骤、表格形成步骤;表列名结构化步骤:针对表列名区域,获取列名字段的位置和内容,对表列名进行结构化识别,形成第二输出数据;所述第二输出数据包括列信息,所述列信息包括列名字段的列序号和列名称;文本字段列化处理步骤:获取表格内容区域中每个文本字段的位置和内容,利用文本字段的x轴方向的坐标信息实现列化处理获取每个文本字段的列号信息,然后对每列的文本做行化,获取每列中文本字段之间的空间上的相对关系;文本字段行化处理步骤:在文本字段列化处理步骤的结果的基础上,利用文本字段的y轴坐标信息实现行化处理,获取文本字段的行号信息;表格形成步骤:将表内容区域的列内容与表列名区域的列名称建立连接关系,输出表格结构信息;所述结构信息包括文本字段对应的行号、列号以及列名称。3.根据权利要求1所述的表格检测与识别方法,其特征在于,若待识别表格为有线表格,还包括表格线检测优化步骤和/或单元格合并优化步骤;若待识别表格为无线表格,则还包括单元格合并优化步骤;表格线检测优化步骤:根据表格线检测的结果对行列化的结果进行校正优化处理;单元格合并优化步骤:基于深度学习的单元格合并方法对行列...

【专利技术属性】
技术研发人员:韦建周异何建华陈凯
申请(专利权)人:厦门商集网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1