【技术实现步骤摘要】
基于Transformer的逐行扫描的表格结构识别方法及系统
[0001]本专利技术涉及表格图像识别领域,具体涉及一种基于
Transformer
的逐行扫描的表格结构识别方法及系统
。
技术介绍
[0002]表格解析与理解是近年来的研究热点,其中表格结构识别是整个流程的重要组成部分,其任务是将计算机无法直接解析的表格,如图片等形式,转换为计算机可以直接编辑的格式
。
随着深度学习的发展,这个领域得到了飞速的进步
。
受到诸如图像描述
、
视觉问答等多模态领域的相关工作的启发,目前的表格结构识别逐步开始尝试使用基于编码器解码器结构的多模态生成式方法,编码器通过卷积神经网络与
Transformer
来提取丰富的视觉特征,解码器通过注意力机制来获取需要的特征,并按照预先定义好的文本序列的顺序预测出序列中的每个字符
。
[0003]目前基于多模态生成式方法的表格结构识别模型都是采用自回归形式生成表格序列,这一方案在解码的过程中,需要逐字符生成下一个所需文本,这一方案将会带来严重的误差累计
。
现有的方法通常是使用原始的
HTML
代码用于描述表格结构,并作为最终的输出形式,但是一维形式的
HTML
代码与二维形式的表格图片并不契合,在空间位置与逻辑关系上具有较大的不协调
。
技术实现思路
[0004]本专利技术的目的在于提供一种基于
Tra ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于
Transformer
的逐行扫描的表格结构识别方法,其特征在于,包括以下步骤:
1)
将表格图片输入编码器模块,编码器模块采用残差卷积网络从表格图片中提取视觉特征;并采用
Transformer
编码器从视觉特征中提取全局的语义信息,生成视觉语义特征;
2)
将视觉语义特征输入行解码器模块中,该行解码器模块采用
Transformer
层使用交叉注意力机制与视觉语义特征进行交互,预测表格的行信息;
3)
将视觉特征
、
行信息和视觉语义特征输入单元格解码器中,单元格解码器采用
Transformer
层将视觉特征
、
行信息以及以往预测的单元格信息进行融合作为输入,并与视觉语义特征进行交互,按照从上到下的行顺序逐行预测每一行中的单元格信息;
4)
将预测得到的行信息与单元格信息进行组合,生成单元格逻辑结构与对应的位置信息
。2.
如权利要求1所述的方法,其特征在于,步骤
1)
中所述编码器模块将视觉特征分为多个同等大小的视觉块,然后
Transformer
编码器通过自注意力机制对所有视觉块进行交互,提取全局的语义信息
。3.
如权利要求1所述的方法,其特征在于,步骤
2)
中所述行解码器模块包括多层堆叠的
Transformer
层和两个独立的三层全连接层,每一
Transformer
层均由自注意力层
、
交叉注意力层和全连接层组成;
Transformer
层以行索引转换的嵌入向量为输入,使用交叉注意力机制与视觉语义特征进行交互,生成与该嵌入向量对应的高维特征向量序列;然后使用两个独立的三层全连接层基于该高维特征向量序列预测表格的行信息,该行信息包括每行的类别和位置
。4.
如权利要求1或3所述的方法,其特征在于,步骤
2)
中所述行解码器模块预先进行训练,在进行训练时通过匈牙利匹配算法将预测内容与标注信息进行匹配,并使用行的类别
、
位置的预测损失进行反向传播训练模型参数
。5.
如权利要求1所述的方法,其特征在于,步骤
3)
中所述行解码器模块包括多层堆叠的
Transformer
层和四个独立的三层全连接层,每一
Transformer
层均由自注意力层
、
交叉注意力层和全连接层组成,
Transformer
层使用交叉注意力机制与视觉语义特征进行交互,生成高维特征向量序列;然后使用四个独立的三层全连接层基于该高维特征向量序列预测表格的单元格信息,该单元格信息包括单元格的位置
、
行跨越数量
、
技术研发人员:周宇,申化文,王伟平,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。