本发明专利技术公开了一种基于定量偏移的表格识别方法、装置及设备。包括:对需要识别的目标表格建立坐标,其中,坐标包括行候选坐标和列候选坐标;获取目标表格的行真实交叉点;获取目标表格的列真实交叉点;对目标表格的行真实交叉点进行过滤,识别合并行;对目标表格的列真实交叉点进行过滤,识别合并列。基于定量偏移识别,通过判断真实交叉点数量与横、纵候选坐标的个数之积是否相同进行识别,识别效率更高;体量更小,执行速度更快;通过识别合并行和合并列的操作实现表格数字化管理。合并列的操作实现表格数字化管理。合并列的操作实现表格数字化管理。
【技术实现步骤摘要】
一种基于定量偏移的表格识别方法、装置及设备
[0001]本专利技术涉及智能识别领域,尤其是涉及一种基于定量偏移的表格识别方法、装置及设备。
技术介绍
[0002]表格以直观简洁的信息记录方式应用于生产生活的各个领域,虽然计算机已经普及,现实生活仍存在大量的纸质表格文档,且其中的信息仍具有重要价值,而目前表格识别技术的研究对象主要是快递单、发票等格式固定的表格,然而对于实际应用中没有统一标准或模板的异构表格,其识别技术研究相对缓慢,缺少成型的使用系统。
[0003]现有技术一般采用基于矩阵模板对图像进行遍历来确定各个交叉点类型的方式。
[0004]传统算法在确定表格各个交叉点类型后还需定义规则进行模式匹配才能识别合并单元格,单元格越多检索所需时间越长,时间复杂度与单元格数量呈正比,无法实现对全线框表格的检测,不能实现任意表格的自动定位与电子化转换,在识别不存在合并单元格的简单表格或是单元格数量较多的表格时,基于交叉点特征的识别方法过于复杂。
技术实现思路
[0005]本专利技术的目的在于克服现有技术无法实现对对全线框表格的检测、不能实现任意表格的自动定位与电子化转换等问题,并为此提供了一种基于定量偏移的表格识别方法、装置及设备,可以对表格进行定量偏移后识别合并行和合并列。
[0006]第一方面,本公开实施例提供了一种基于定量偏移的表格识别方法,包括:
[0007]S1:对需要识别的目标表格建立坐标,其中,坐标包括行候选坐标和列候选坐标;
[0008]S2:获取目标表格的行真实交叉点;
[0009]S3:获取目标表格的列真实交叉点;
[0010]S4:对目标表格的行真实交叉点进行过滤,识别合并行;
[0011]S5:对目标表格的列真实交叉点进行过滤,识别合并列。
[0012]第二方面,本公开实施例还提供了一种基于定量偏移的表格识别装置,该装置包括:
[0013]坐标建立模块,用于对需要识别的目标表格建立坐标,其中,坐标包括行候选坐标和列候选坐标;
[0014]行真实交叉点获取模块,用于获取目标表格的行真实交叉点;
[0015]列真实交叉点获取模块,用于获取目标表格的列真实交叉点;
[0016]合并行识别模块,用于对目标表格的行真实交叉点进行过滤,识别合并行;
[0017]合并列识别模块,用于对目标表格的列真实交叉点进行过滤,识别合并列。
[0018]第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
[0019]至少一个处理器;以及
[0020]与至少一个处理器通信连接的存储器;其中,
[0021]当存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行如本公开任意实施例的一种基于定量偏移的表格识别方法。
[0022]第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开任意实施例的一种基于定量偏移的表格识别方法。
[0023]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
[0024]因此,本专利技术有如下有益效果:
[0025]1.基于定量偏移识别,通过判断真实交叉点数量与横、纵候选坐标的个数之积是否相同进行识别,识别效率更高;
[0026]2.体量更小,执行速度更快;
[0027]3.通过识别合并行和合并列的操作实现表格数字化管理。
附图说明
[0028]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是根据本专利技术实施例一提供的一种基于定量偏移的表格识别方法的流程图;
[0030]图2是根据本专利技术实施例一提供的一种行候选坐标和列候选坐标的示意图;
[0031]图3是根据本专利技术实施例一提供的一种真实交叉点和伪交叉点的示意图;
[0032]图4是根据本专利技术实施例一提供的一种合并行和合并列的过程的示意图;
[0033]图5是根据本专利技术实施例二提供的另一种基于定量偏移的表格识别方法的流程图;
[0034]图6是根据本专利技术实施例二提供的一种表格合并行识别过程的示意图;
[0035]图7是根据本专利技术实施例三提供的一种基于定量偏移的表格识别装置结构示意图;
[0036]图8是根据本专利技术实施例四提供的一种电子设备的结构示意图。
具体实施方式
[0037]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0038]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0039]实施例一
[0040]图1为本专利技术实施例一提供了一种基于定量偏移的表格识别方法的流程图,本实施例可适用于获取表格中行真实交叉点和列真实交叉点的情况。该方法可以由本公开实施例所提供的模块选择装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。本公开实施例的方法具体包括:
[0041]S1:对需要识别的目标表格建立坐标。
[0042]其中,坐标包括行候选坐标和列候选坐标;具体的,将表格交叉点在垂直方向上进行投影,属于同一行的表格交叉点拥有同一个y坐标值,这些y坐标称为行候选坐标;而将表格交叉点在水平方向上进行投影,属于同一列的表格交叉点拥有同一个x坐标值,这些x坐标称为列候选坐标。
[0043]图2是行候选坐标和列候选坐标的示意图,如图2所示,在垂直方向上对表格交叉点进行投影可以获得y1、y2、y3、y4,将其称为行候选坐标;在水平方向上对表格交叉点进行投影可以获得x1、x2、x3、x4,将其称为列候选坐标;在此需要假设表格图像的横线、纵线都是严格水平或垂直的,即表格线与x轴角度为0或90
°
...
【技术保护点】
【技术特征摘要】
1.一种基于定量偏移的表格识别方法,其特征在于,包括以下步骤:S1:对需要识别的目标表格建立坐标,其中,所述坐标包括行候选坐标和列候选坐标;S2:获取所述目标表格的行真实交叉点;S3:获取所述目标表格的列真实交叉点;S4:对所述目标表格的行真实交叉点进行过滤,识别合并行;S5:对所述目标表格的列真实交叉点进行过滤,识别合并列。2.根据权利要求1所述的一种基于定量偏移的表格识别方法,其特征在于,所述步骤S2具体包括:S21:提取所述目标表格的横线集合;S22:根据所述列候选坐标,构造竖线集合1;S23:在水平方向上将构造的竖线集合1向右做定量偏移得到新竖线集合1;S24:将所述横线集合与所述新竖线集合1相与,得到交叉点集合1;S25:将所述交叉点集合1向左定量反偏移,得到所述目标表格的行真实交叉点1。3.根据权利要求1所述的一种基于定量偏移的表格识别方法,其特征在于,所述步骤S3具体包括:S31:提取所述目标表格的竖线集合;S32:根据所述行候选坐标,构造横线集合1;S33:在垂直方向上将构造的横线集合1向下做定量偏移得到新横线集合1;S34:将所述竖线集合与所述新横线集合1相与,得到交叉点集合2;S35:将所述交叉点集合2向上定量反偏移,得到所述目标表格的列真实交叉点1。4.根据权利要求2所述的一种基于定量偏移的表格识别方法,其特征在于,所述步骤S4具体包括:S41:对表格的行真实交叉点1进行过滤,得到每一列的行真实交叉点2;S42:判断每个所述行真实交叉点2与所述列候选坐标长度是否相等,若相等,执行步骤S43,若不相等,执行步骤S44;S43:表示此列不存在合并行;S44:表明行真实交叉点2所在列存在合并行,计算相邻的行真实交叉点2在行候选坐标中的下标位置;S45:计算所述相邻的行真实交叉点2的下标差,如果所述下标差大于1则表明存在合并行。5.根据权利要求3所述的一种基于定量偏移的表格识别方法,其特征在于,所述步骤S4具体包括:S51:对表格的列真实交叉点1进行过滤,得到每一行的列真实交叉点2;S52:判断每个所述列真实交叉点2与所述行候选坐标高度是否相等,若相等,执行步骤S53,若不相等,执行步骤S54;S53:表示此行不存在合并列;S54:表明列真实交叉点2所在行存在合并列,计算相邻的列真实交叉点2在列候选坐...
【专利技术属性】
技术研发人员:孙树森,庄晨怡,
申请(专利权)人:浙江理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。