【技术实现步骤摘要】
表格结构识别及模型训练方法、装置、设备和存储介质
[0001]本公开涉及人工智能
,具体涉及图像处理、深度学习等
,尤其涉及一种表格结构识别及模型训练方法、装置、设备和存储介质。
技术介绍
[0002]表格是一种常见的数据展示形式,用于表达结构化信息。然而,对于PDF或者图像中的表格,无法直接进行解析、编辑、二次修改。因此,表格识别任务应运而生。
[0003]表格识别任务可以分为表格检测、表格结构识别这两个子任务。表格检测任务,即检测表格主体区域,通常采用目标检测/实例分割模型获得检测结果。表格结构识别任务,主要是识别表格中的两两文本块之间的结构信息,进而可以基于结构信息重构表格的行、列和单元格。
技术实现思路
[0004]本公开提供了一种表格结构识别及模型训练方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种表格结构识别方法,包括:获取图像,所述图像中包含表格,所述表格包括至少两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;基于所述第一节点特征和连接关系,获取该文本块的第二节点特征;其中,所述连接关系是该文本块与另一文本块之间的连接关系;所述连接关系是基于该文本块与所述另一文本块之间的距离确定的;针对第一文本块和第二文本块,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系;其中,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种表格结构识别方法,包括:获取图像,所述图像中包含表格,所述表格包括至少两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;基于所述第一节点特征和连接关系,获取该文本块的第二节点特征;其中,所述连接关系是该文本块与另一文本块之间的连接关系;所述连接关系是基于该文本块与所述另一文本块之间的距离确定的;针对第一文本块和第二文本块,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系;其中,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块。2.根据权利要求1所述的方法,其中,所述获取该文本块的第一节点特征,包括:获取该文本块的位置特征、该文本块的文本特征和该文本块的图像特征;基于该文本块的所述位置特征、所述文本特征和所述图像特征,获取该文本块的第一节点特征。3.根据权利要求2所述的方法,其中,所述获取该文本块的位置特征、该文本块的文本特征和该文本块的图像特征,包括:对所述图像进行光学字符识别OCR处理,以获取该文本块的位置信息和该文本块的文本信息;对该文本块的位置信息进行编码处理,以获取该文本块的位置特征;对该文本块的文本信息进行编码处理,以获取该文本块的文本特征;基于该文本块的位置信息,对所述图像进行编码处理,以获取该文本块的图像特征。4.根据权利要求1所述的方法,其中,所述基于所述第一节点特征和连接关系,获取该文本块的第二节点特征,包括:将所述第一节点特征输入到预先训练的图卷积模型中,所述图卷积模型的参数包括:所述连接关系;采用所述图卷积模型,对所述第一节点特征进行处理,以输出所述第二节点特征。5.根据权利要求4所述的方法,其中,所述连接关系采用矩阵表征,所述矩阵中的元素包括:第一元素和第二元素,且所述第一元素在训练过程中是可调整的,所述第二元素在训练过程中固定不变。6.根据权利要求5所述的方法,其中,所述第一元素是基于该文本块和该文本块的邻近文本块确定的,所述邻近文本块是在所述至少两个文本块中基于与该文本块的距离选择的预设个数的文本块。7.根据权利要求1所述的方法,其中,所述基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的结构关系,包括:对所述第一文本块的第二节点特征和所述第二文本块的第二节点特征进行拼接处理,以获取拼接特征;基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系。8.根据权利要求7所述的方法,其中,所述基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系包括:
采用预先训练的分类器,基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系。9.根据权利要求8所述的方法,其中,所述结构关系包括如下项中的至少一项:是否位于同一行、是否位于同一列、是否位于同一单元格;所述采用预先训练的分类器,基于所述拼接特征,确定所述第一文本块与所述第二文本块之间的结构关系包括如下项中的至少一项:采用第一分类器,对输入的所述拼接特征进行处理,以输出同行概率,基于所述同行概率确定所述第一文本块与所述第二文本块是否位于同一行;采用第二分类器,对输入的所述拼接特征进行处理,以输出同列概率,基于所述同列概率确定所述第一文本块与所述第二文本块是否位于同一列;采用第三分类器,对输入的所述拼接特征进行处理,以输出同单元格概率,基于所述同单元格概率确定所述第一文本块与所述第二文本块是否位于同一单元格。10.根据权利要求1
‑
9任一项所述的方法,其中,所述连接关系与所述距离成反向关系。11.一种模型训练方法,包括:获取训练数据,所述训练数据包括:样本图像和标签信息;其中,所述样本图像中包含表格,所述表格包括至少两个文本块;其中,所述标签信息用于指示第一文本块和第二文本块之间的真实结构关系,所述第一文本块和所述第二文本块是所述至少两个文本块中任意两个文本块;针对所述至少两个文本块中任一文本块:获取该文本块的第一节点特征;采用图卷积模型,基于所述第一节点特征获取该文本块的第二节点特征;其中,所述图卷积模型的参数包括:该文本块与另一文本块之间的连接关系;以及,基于该文本块的第二节点特征、所述另一文本块的第二节点特征和所述连接关系,构建第一损失函数;针对所述第一文本块和所述第二文本块,采用分类器,基于所述第一文本块的第二节点特征和所述第二文本块的第二节点特征,确定所述第一文本块与所述第二文本块之间的预测结构关系;基于所述预测结构关系和所述真实结构关系,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建总损失函数;基于所述总损失函数,调整所述图卷积模型的参数和所述分类器的参数,直至满足预设条件,得到目标图卷积模型和目标分类器。12.根据权利要求11所述的方法,其中,所述获取该文本块的第一节点特征,包括:获取该文本块的位置特征、该文本块的文本特征和该文本块的图像特征;...
【专利技术属性】
技术研发人员:何烩烩,王乐义,刘明浩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。