表格结构识别及模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:36523525 阅读:12 留言:0更新日期:2023-02-01 16:00
本公开提供了一种表格结构识别及模型训练方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及图像处理、深度学习等技术领域。表格结构识别方法包括:获取图像,所述图像中包含表格,所述表格包括至少两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;基于所述第一节点特征和连接关系,获取该文本块的第二节点特征;针对第一文本块和第二文本块,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系。本公开可以提高表格结构识别准确度。确度。确度。

【技术实现步骤摘要】
表格结构识别及模型训练方法、装置、设备和存储介质


[0001]本公开涉及人工智能
,具体涉及图像处理、深度学习等
,尤其涉及一种表格结构识别及模型训练方法、装置、设备和存储介质。

技术介绍

[0002]表格是一种常见的数据展示形式,用于表达结构化信息。然而,对于PDF或者图像中的表格,无法直接进行解析、编辑、二次修改。因此,表格识别任务应运而生。
[0003]表格识别任务可以分为表格检测、表格结构识别这两个子任务。表格检测任务,即检测表格主体区域,通常采用目标检测/实例分割模型获得检测结果。表格结构识别任务,主要是识别表格中的两两文本块之间的结构信息,进而可以基于结构信息重构表格的行、列和单元格。

技术实现思路

[0004]本公开提供了一种表格结构识别及模型训练方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种表格结构识别方法,包括:获取图像,所述图像中包含表格,所述表格包括至少两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;基于所述第一节点特征和连接关系,获取该文本块的第二节点特征;其中,所述连接关系是该文本块与另一文本块之间的连接关系;所述连接关系是基于该文本块与所述另一文本块之间的距离确定的;针对第一文本块和第二文本块,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系;其中,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块。
[0006]根据本公开的另一方面,提供了一种模型训练方法,包括:获取训练数据,所述训练数据包括:样本图像和标签信息;其中,所述样本图像中包含表格,所述表格包括至少两个文本块;其中,所述标签信息用于指示第一文本块和第二文本块之间的真实结构关系,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;采用图卷积模型,基于所述第一节点特征获取该文本块的第二节点特征;其中,所述图卷积模型的参数包括:该文本块与另一文本块之间的连接关系;以及,基于该文本块的第二节点特征、所述另一文本块的第二节点特征和所述连接关系,构建第一损失函数;针对所述第一文本块和所述第二文本块,采用分类器,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的预测结构关系;基于所述预测结构关系和所述真实结构关系,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建总损失函数;基于所述总损失函数,调整所述图卷积模型的参数和所述分类器的参数,直至满足预设条件,得到目标图卷积模型和目标分类器。
[0007]根据本公开的另一方面,提供了一种表格结构识别装置,包括:第一获取模块,用
于获取图像,所述图像中包含表格,所述表格包括至少两个文本块;第二获取模块,用于针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;基于所述第一节点特征和连接关系,获取该文本块的第二节点特征;其中,所述连接关系是该文本块与另一文本块之间的连接关系;所述连接关系是基于该文本块与所述另一文本块之间的距离确定的;确定模块,用于针对第一文本块和第二文本块,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系;其中,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块。
[0008]根据本公开的另一方面,提供了一种模型训练装置,包括:获取模块,用于获取训练数据,所述训练数据包括:样本图像和标签信息;其中,所述样本图像中包含表格,所述表格包括至少两个文本块;其中,所述标签信息用于指示第一文本块和第二文本块之间的真实结构关系,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块;第一构建模块,用于针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;采用图卷积模型,基于所述第一节点特征获取该文本块的第二节点特征;其中,所述图卷积模型的参数包括:该文本块与另一文本块之间的连接关系;以及,基于该文本块的第二节点特征、所述另一文本块的第二节点特征和所述连接关系,构建第一损失函数;预测模块,用于针对所述第一文本块和所述第二文本块,采用分类器,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的预测结构关系;第二构建模块,用于基于所述预测结构关系和所述真实结构关系,构建第二损失函数;第三构建模块,用于基于所述第一损失函数和所述第二损失函数,构建总损失函数;调整模块,用于基于所述总损失函数,调整所述图卷积模型的参数和所述分类器的参数,直至满足预设条件,得到目标图卷积模型和目标分类器。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0012]根据本公开的技术方案,可以提高表格结构识别准确度。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开第一实施例的示意图;
[0016]图2是根据本公开实施例适用的应用场景的示意图;
[0017]图3是根据本公开实施例提供的整体框架的示意图;
[0018]图4是根据本公开第二实施例的示意图;
[0019]图5是根据本公开实施例提供的基于K近邻算法确定的图邻接矩阵的示意图;
[0020]图6是根据本公开实施例提供的两两文本块之间的结构信息的示意图;
[0021]图7是根据本公开第三实施例的示意图;
[0022]图8是根据本公开第四实施例的示意图;
[0023]图9是根据本公开第五实施例的示意图;
[0024]图10是用来实现本公开实施例的表格结构识别方法或模型训练方法的电子设备的示意图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格结构识别方法,包括:获取图像,所述图像中包含表格,所述表格包括至少两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;基于所述第一节点特征和连接关系,获取该文本块的第二节点特征;其中,所述连接关系是该文本块与另一文本块之间的连接关系;所述连接关系是基于该文本块与所述另一文本块之间的距离确定的;针对第一文本块和第二文本块,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系;其中,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块。2.根据权利要求1所述的方法,其中,所述获取该文本块的第一节点特征,包括:获取该文本块的位置特征、该文本块的文本特征和该文本块的图像特征;基于该文本块的所述位置特征、所述文本特征和所述图像特征,获取该文本块的第一节点特征。3.根据权利要求2所述的方法,其中,所述获取该文本块的位置特征、该文本块的文本特征和该文本块的图像特征,包括:对所述图像进行光学字符识别OCR处理,以获取该文本块的位置信息和该文本块的文本信息;对该文本块的位置信息进行编码处理,以获取该文本块的位置特征;对该文本块的文本信息进行编码处理,以获取该文本块的文本特征;基于该文本块的位置信息,对所述图像进行编码处理,以获取该文本块的图像特征。4.根据权利要求1所述的方法,其中,所述基于所述第一节点特征和连接关系,获取该文本块的第二节点特征,包括:将所述第一节点特征输入到预先训练的图卷积模型中,所述图卷积模型的参数包括:所述连接关系;采用所述图卷积模型,对所述第一节点特征进行处理,以输出所述第二节点特征。5.根据权利要求4所述的方法,其中,所述连接关系采用矩阵表征,所述矩阵中的元素包括:第一元素和第二元素,且所述第一元素在训练过程中是可调整的,所述第二元素在训练过程中固定不变。6.根据权利要求5所述的方法,其中,所述第一元素是基于该文本块和该文本块的邻近文本块确定的,所述邻近文本块是在所述至少两个文本块中基于与该文本块的距离选择的预设个数的文本块。7.根据权利要求1所述的方法,其中,所述基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系,包括:对所述第一文本块的第二节点特征和所述第二文本块的第二节点特征进行拼接处理,以获取拼接特征;基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系。8.根据权利要求7所述的方法,其中,所述基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系包括:
采用预先训练的分类器,基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系。9.根据权利要求8所述的方法,其中,所述结构关系包括如下项中的至少一项:是否位于同一行、是否位于同一列、是否位于同一单元格;所述采用预先训练的分类器,基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系包括如下项中的至少一项:采用第一分类器,对输入的所述拼接特征进行处理,以输出同行概率,基于所述同行概率确定所述第一文本块与所述第二文本块是否位于同一行;采用第二分类器,对输入的所述拼接特征进行处理,以输出同列概率,基于所述同列概率确定所述第一文本块与所述第二文本块是否位于同一列;采用第三分类器,对输入的所述拼接特征进行处理,以输出同单元格概率,基于所述同单元格概率确定所述第一文本块与所述第二文本块是否位于同一单元格。10.根据权利要求1

9任一项所述的方法,其中,所述连接关系与所述距离成反向关系。11.一种模型训练方法,包括:获取训练数据,所述训练数据包括:样本图像和标签信息;其中,所述样本图像中包含表格,所述表格包括至少两个文本块;其中,所述标签信息用于指示第一文本块和第二文本块之间的真实结构关系,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;采用图卷积模型,基于所述第一节点特征获取该文本块的第二节点特征;其中,所述图卷积模型的参数包括:该文本块与另一文本块之间的连接关系;以及,基于该文本块的第二节点特征、所述另一文本块的第二节点特征和所述连接关系,构建第一损失函数;针对所述第一文本块和所述第二文本块,采用分类器,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的预测结构关系;基于所述预测结构关系和所述真实结构关系,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建总损失函数;基于所述总损失函数,调整所述图卷积模型的参数和所述分类器的参数,直至满足预设条件,得到目标图卷积模型和目标分类器。12.根据权利要求11所述的方法,其中,所述获取该文本块的第一节点特征,包括:获取该文本块的位置特征、该文本块的文本特征和该文本块的图像特征;...

【专利技术属性】
技术研发人员:何烩烩王乐义刘明浩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1