基于制造技术

技术编号:39785950 阅读:17 留言:0更新日期:2023-12-22 02:26
本发明专利技术提出了一种基于

【技术实现步骤摘要】
基于Transformer的逐行扫描的表格结构识别方法及系统


[0001]本专利技术涉及表格图像识别领域,具体涉及一种基于
Transformer
的逐行扫描的表格结构识别方法及系统


技术介绍

[0002]表格解析与理解是近年来的研究热点,其中表格结构识别是整个流程的重要组成部分,其任务是将计算机无法直接解析的表格,如图片等形式,转换为计算机可以直接编辑的格式

随着深度学习的发展,这个领域得到了飞速的进步

受到诸如图像描述

视觉问答等多模态领域的相关工作的启发,目前的表格结构识别逐步开始尝试使用基于编码器解码器结构的多模态生成式方法,编码器通过卷积神经网络与
Transformer
来提取丰富的视觉特征,解码器通过注意力机制来获取需要的特征,并按照预先定义好的文本序列的顺序预测出序列中的每个字符

[0003]目前基于多模态生成式方法的表格结构识别模型都是采用自回归形式生成表格序列,这一方案在解码的过程中,需要逐字符生成下一个所需文本,这一方案将会带来严重的误差累计

现有的方法通常是使用原始的
HTML
代码用于描述表格结构,并作为最终的输出形式,但是一维形式的
HTML
代码与二维形式的表格图片并不契合,在空间位置与逻辑关系上具有较大的不协调


技术实现思路

[0004]本专利技术的目的在于提供一种基于
Transformer
的逐行扫描的表格结构识别方法,设计一个全新的表格结构识别模型,结合表格本身独有的特性,按照符合表格逻辑的二维形式进行解码

同时通过使用半自回归形式生成表格序列,从而在一定程度上缓解较长的表格序列所带来的严重的误差累计问题

[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]一种基于
Transformer
的逐行扫描的表格结构识别方法,包括以下步骤:
[0007]1)
将表格图片输入编码器模块,编码器模块采用残差卷积网络从表格图片中提取视觉特征;并采用
Transformer
编码器从视觉特征中提取全局的语义信息,生成视觉语义特征;
[0008]2)
将视觉语义特征输入行解码器模块中,该行解码器模块采用
Transformer
层使用交叉注意力机制与视觉语义特征进行交互,预测表格的行信息;
[0009]3)
将视觉特征

行信息和视觉语义特征输入单元格解码器中,单元格解码器采用
Transformer
层将视觉特征

行信息以及以往预测的单元格信息进行融合作为输入,并与视觉语义特征进行交互,按照从上到下的行顺序逐行预测每一行中的单元格信息;
[0010]4)
将预测得到的行信息与单元格信息进行组合,生成单元格逻辑结构与对应的位置信息

[0011]进一步地,步骤
1)
中所述编码器模块将视觉特征分为多个同等大小的视觉块,然

Transformer
编码器通过自注意力机制对所有视觉块进行交互,提取全局的语义信息

[0012]进一步地,步骤
2)
中所述行解码器模块包括多层堆叠的
Transformer
层和两个独立的三层全连接层,每一
Transformer
层均由自注意力层

交叉注意力层和全连接层组成;
Transformer
层以行索引转换的嵌入向量为输入,使用交叉注意力机制与视觉语义特征进行交互,生成与该嵌入向量对应的高维特征向量序列;然后使用两个独立的三层全连接层基于该高维特征向量序列预测表格的行信息,该行信息包括每行的类别和位置

[0013]进一步地,步骤
2)
中所述行解码器模块预先进行训练,在进行训练时通过匈牙利匹配算法将预测内容与标注信息进行匹配,并使用行的类别

位置的预测损失进行反向传播训练模型参数

[0014]进一步地,步骤
3)
中所述行解码器模块包括多层堆叠的
Transformer
层和四个独立的三层全连接层,每一
Transformer
层均由自注意力层

交叉注意力层和全连接层组成,
Transformer
层使用交叉注意力机制与视觉语义特征进行交互,生成高维特征向量序列;然后使用四个独立的三层全连接层基于该高维特征向量序列预测表格的单元格信息,该单元格信息包括单元格的位置

行跨越数量

列跨越数量及单元格类别

[0015]进一步地,步骤
3)
中所述行解码器模块的输入包括历史嵌入向量

未来嵌入向量与当前嵌入向量,其中历史嵌入向量代表以往预测的行和单元格信息,未来嵌入向量代表目前未预测的行和单元格信息,当前嵌入向量代表目前所需预测的行和单元格信息;历史嵌入向量

未来嵌入向量与当前嵌入向量分别由类型编码

视觉线索及单元格索引三部分组成

[0016]进一步地,所述类型编码是可学习的嵌入向量,用于标记当前输入向量所属类型,该类型包括<历史嵌入向量,行>

<历史嵌入向量,单元格>

<当前嵌入向量,行>及<未来嵌入向量,行>四种

[0017]进一步地,所述视觉线索基于视觉特征,对于行的嵌入向量,所述视觉线索为使用对应行的上边界与下边界所包围的区域映射至所述视觉特征中,并使用
ROIAlign
进行特征编码为一个固定大小的视觉嵌入;对于单元格的嵌入向量,所述视觉线索为使用对应单元格的四条边所包围的区域映射至所述视觉特征中,并使用
ROIAlign
进行特征编码为同样大小的视觉嵌入

[0018]进一步地,所述单元格索引使用可学习的嵌入向量作为输入

[0019]进一步地,步骤
3)
中所述单元格解码器模块预先进行训练,在进行训练时通过匈牙利匹配算法将预测内容与标注信息进行匹配,并使用单元格位置

行跨越数量

列跨越数量及单元格类别的预测损失进行反向传播来训练模型参数

[0020]一种基于
Transformer
的逐行扫描的表格结构识别系统,包括:
[0021]编码器模块,包括残差卷积网络和
Transformer
编码器,其中残差卷积网络用于从输入的表格图片中提取视觉特征,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Transformer
的逐行扫描的表格结构识别方法,其特征在于,包括以下步骤:
1)
将表格图片输入编码器模块,编码器模块采用残差卷积网络从表格图片中提取视觉特征;并采用
Transformer
编码器从视觉特征中提取全局的语义信息,生成视觉语义特征;
2)
将视觉语义特征输入行解码器模块中,该行解码器模块采用
Transformer
层使用交叉注意力机制与视觉语义特征进行交互,预测表格的行信息;
3)
将视觉特征

行信息和视觉语义特征输入单元格解码器中,单元格解码器采用
Transformer
层将视觉特征

行信息以及以往预测的单元格信息进行融合作为输入,并与视觉语义特征进行交互,按照从上到下的行顺序逐行预测每一行中的单元格信息;
4)
将预测得到的行信息与单元格信息进行组合,生成单元格逻辑结构与对应的位置信息
。2.
如权利要求1所述的方法,其特征在于,步骤
1)
中所述编码器模块将视觉特征分为多个同等大小的视觉块,然后
Transformer
编码器通过自注意力机制对所有视觉块进行交互,提取全局的语义信息
。3.
如权利要求1所述的方法,其特征在于,步骤
2)
中所述行解码器模块包括多层堆叠的
Transformer
层和两个独立的三层全连接层,每一
Transformer
层均由自注意力层

交叉注意力层和全连接层组成;
Transformer
层以行索引转换的嵌入向量为输入,使用交叉注意力机制与视觉语义特征进行交互,生成与该嵌入向量对应的高维特征向量序列;然后使用两个独立的三层全连接层基于该高维特征向量序列预测表格的行信息,该行信息包括每行的类别和位置
。4.
如权利要求1或3所述的方法,其特征在于,步骤
2)
中所述行解码器模块预先进行训练,在进行训练时通过匈牙利匹配算法将预测内容与标注信息进行匹配,并使用行的类别

位置的预测损失进行反向传播训练模型参数
。5.
如权利要求1所述的方法,其特征在于,步骤
3)
中所述行解码器模块包括多层堆叠的
Transformer
层和四个独立的三层全连接层,每一
Transformer
层均由自注意力层

交叉注意力层和全连接层组成,
Transformer
层使用交叉注意力机制与视觉语义特征进行交互,生成高维特征向量序列;然后使用四个独立的三层全连接层基于该高维特征向量序列预测表格的单元格信息,该单元格信息包括单元格的位置

行跨越数量

【专利技术属性】
技术研发人员:周宇申化文王伟平
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1