表格拓扑结构的矩阵表示方法及系统技术方案

技术编号:36163475 阅读:11 留言:0更新日期:2022-12-31 20:12
本发明专利技术涉及表格数字化技术领域,公开了表格拓扑结构的矩阵表示方法及系统,该矩阵表示方法,基于格子各边的状态构建状态编码表,再根据状态编码表判定所获取的待表示表格中各格子的编码,从而得到表格拓扑结构的矩阵表示;其中,格子各边的状态指格子各边是实线还是虚线;若所获取的表格为规范表格,则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格,则先将表格转化为规范表格,再判定所获取的待表示表格中各格子的编码。本发明专利技术解决了现有技术表示表格拓扑结构存在较大冗余、不便于比较表格拓扑结构的相似性等问题。等问题。等问题。

【技术实现步骤摘要】
表格拓扑结构的矩阵表示方法及系统


[0001]本专利技术涉及表格数字化
,具体是表格拓扑结构的矩阵表示方法及系统。

技术介绍

[0002]表格能够直观有条理的呈现信息,广泛应用于各类文档之中。
[0003]在信息提取、交互等各类应用场景,处理表格是其中的重要工作。通过表格的拓扑结构,触发相应的处理流程,能获得更好的性能。例如:在OCR应用中,通过表格提取算法获取其拓扑结构,可更好的驱动预设的OCR方案。通过优化表格拓扑结构的表示方法,能提升算法性能,降低数据传输、存储、处理的成本。微软的Word文档通过XML标签表示表格,网页通过HTML标签表示表格。这类将表格拓扑结构与表格内容混合的表示方法,应用广泛。但在只需表格拓扑结构时,这类表示方法存在结构冗余,且不便于比较表格拓扑结构的相似性。针对特定的需求,设计表格拓扑结构的相应表示方法,具有重要价值。

技术实现思路

[0004]为克服现有技术的不足,本专利技术提供了表格拓扑结构的矩阵表示方法及系统,解决现有技术表示表格拓扑结构存在较大冗余、不便于比较表格拓扑结构的相似性等问题。
[0005]本专利技术解决上述问题所采用的技术方案是:
[0006]表格拓扑结构的矩阵表示方法,基于格子各边的状态构建状态编码表,再根据状态编码表判定所获取的待表示表格中各格子的编码,从而得到表格拓扑结构的矩阵表示;其中,格子各边的状态指格子各边是实线还是虚线;若所获取的表格为规范表格,则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格,则先将表格转化为规范表格,再判定所获取的待表示表格中各格子的编码。
[0007]作为一种优选的技术方案,规范表格指表格满足以下条件:表格的每列均由M个等宽的格子组成,且表格的每行均由N个等高的格子组成;其中,M、N均为大于等于1的整数。
[0008]作为一种优选的技术方案,状态编码表的特征如下:格子有上下左右共4条边,每条边有实线和虚线两种状态,用1位二进制数表示,根据格子各边是实线还是虚线,组成表示格子16种状态的状态编码。
[0009]作为一种优选的技术方案,采用二进制数表示表格格子的状态编码。
[0010]作为一种优选的技术方案,包括以下步骤:
[0011]S1,状态编码表构建:基于格子各边的状态构建状态编码表;
[0012]S2,表格获取与处理:获取待表示的表格,然后根据状态编码表判定所获取的表格中各格子的编码;若所获取的表格为规范表格则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格则先转化为规范表格再判定所获取的待表示表格中各格子的编码;
[0013]S3,矩阵表示:根据各格子的编码,构建表示表格拓扑结构的矩阵。
[0014]作为一种优选的技术方案,步骤S2中,将非规范表格转化为规范表格的方法为:将
表格中已有的实线边作虚线辅助线延长,使表格成为规范表格。
[0015]作为一种优选的技术方案,所获取的待表示表格为利用表格提取技术从实验检测报告、增值税发票或申请表单文档中提取出的表格。
[0016]表格拓扑结构的矩阵表示系统,用于实现所述的表格拓扑结构的矩阵表示方法,包括依次相连的以下模块:
[0017]状态编码表构建模块:用以,基于格子各边的状态构建状态编码表;
[0018]表格获取与处理模块:用以,获取待表示的表格,然后根据状态编码表判定所获取的表格中各格子的编码;若所获取的表格为规范表格则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格则先转化为规范表格再判定所获取的待表示表格中各格子的编码;
[0019]矩阵表示模块:用以,根据各格子的编码,构建表示表格拓扑结构的矩阵。
[0020]本专利技术相比于现有技术,具有以下有益效果:
[0021](1)本专利技术用格子状态构建的矩阵表示表格的拓扑结构,便于存储、传输,同时可用矩阵运算进行表格的结构比较等操作;
[0022](2)本专利技术仅用4位二进制编码表示表格格子的状态,方案实施简单;
[0023](3)本专利技术通过表格规范化,将形态各异的表格转化为规范表格,拓展了表格拓扑结构表示的应用范围。
附图说明
[0024]图1为本专利技术所述的表格拓扑结构的矩阵表示方法的步骤示意图;
[0025]图2为格子16种状态的状态编码表的示意图;
[0026]图3为本专利技术实施例2中的矩阵元素值写到对应格子示意图之一(17
×
3的矩阵);
[0027]图4为本专利技术实施例2中获取到的不规范表格示意图;
[0028]图5为本专利技术实施例2中表格规范化后的表格示意图;
[0029]图6为本专利技术实施例2中的矩阵元素值写到对应格子示意图之二(6
×
5的矩阵)。
具体实施方式
[0030]下面结合实施例及附图,对本专利技术作进一步的详细说明,但本专利技术的实施方式不限于此。
[0031]实施例1
[0032]如图1至图6所示,表格拓扑结构的矩阵表示方法,基于格子各边(即格子上下左右边,共四边)的状态构建状态编码表,再根据状态编码表判定所获取的待表示表格中各格子的编码,从而得到表格拓扑结构的矩阵表示;其中,格子各边的状态指格子各边是实线还是虚线;若所获取的表格为规范表格,则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格,则先将表格转化为规范表格,再判定所获取的待表示表格中各格子的编码。
[0033]用格子状态构建的矩阵表示表格的拓扑结构,便于存储、传输,同时可用矩阵运算进行表格的结构比较等操作,解决了现有技术表示表格拓扑结构存在较大冗余、不便于比较表格拓扑结构的相似性等问题。
[0034]作为一种优选的技术方案,规范表格指表格满足以下条件:表格的每列均由M个等宽的格子组成,且表格的每行均由N个等高的格子组成;其中,M、N均为大于等于1的整数。
[0035]作为一种优选的技术方案,状态编码表的特征如下:格子有上下左右共4条边,每条边有实线和虚线两种状态,用1位二进制数表示,根据格子各边是实线还是虚线,组成表示格子16种状态的状态编码。
[0036]作为一种优选的技术方案,采用二进制数表示表格格子的状态编码。
[0037]表格格子的状态,仅用4位二进制编码表示,方案实施简单。
[0038]作为一种优选的技术方案,包括以下步骤:
[0039]S1,状态编码表构建:基于格子各边的状态构建状态编码表;
[0040]S2,表格获取与处理:获取待表示的表格,然后根据状态编码表判定所获取的表格中各格子的编码;若所获取的表格为规范表格则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格则先转化为规范表格再判定所获取的待表示表格中各格子的编码;
[0041]S3,矩阵表示:根据各格子的编码,构建表示表格拓扑结构的矩阵。
[0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.表格拓扑结构的矩阵表示方法,其特征在于,基于格子各边的状态构建状态编码表,再根据状态编码表判定所获取的待表示表格中各格子的编码,从而得到表格拓扑结构的矩阵表示;其中,格子各边的状态指格子各边是实线还是虚线;若所获取的表格为规范表格,则直接判定所获取的待表示表格中各格子的编码;若所获取的表格为非规范表格,则先将表格转化为规范表格,再判定所获取的待表示表格中各格子的编码。2.根据权利要求1所述的表格拓扑结构的矩阵表示方法,其特征在于,规范表格指表格满足以下条件:表格的每列均由M个等宽的格子组成,且表格的每行均由N个等高的格子组成;其中,M、N均为大于等于1的整数。3.根据权利要求2所述的表格拓扑结构的矩阵表示方法,其特征在于,状态编码表的特征如下:格子有上下左右共4条边,每条边有实线和虚线两种状态,用1位二进制数表示,根据格子各边是实线还是虚线,组成表示格子16种状态的状态编码。4.根据权利要求3所述的表格拓扑结构的矩阵表示方法,其特征在于,采用二进制数表示表格格子的状态编码。5.根据权利要求4所述的表格拓扑结构的矩阵表示方法,其特征在于,包括以下步骤:S1,状态编码表构建:基于格子各边的状态构建状态编码表;S2,表格获取与处理:获取待表示的表格,然后根据状态编码表判定所获...

【专利技术属性】
技术研发人员:钱基业吴照国钮益峰侯兴哲
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1