一种模型训练以及表格识别方法及装置制造方法及图纸

技术编号:33129844 阅读:16 留言:0更新日期:2022-04-17 00:44
本说明书公开了一种模型训练以及表格识别方法及装置,确定若干包含表格的图像,作为各训练样本,针对每个训练样本,根据该训练样本中表格的结构和位置,确定该训练样本的标注,将该训练样本输入识别模型的特征提取层,确定该训练样本对应的图像特征金字塔,针对图像特征金字塔中的每张特征图,确定该特征图对应的重构编码,并对该特征图对应的重构编码进行上采样,与尺寸大于该特征图的其他特征图进行融合,将各特征图对应的融合结果作为输入,输入识别模型的识别层,得到该训练样本的识别结果。本方法基于不同尺寸的特征图进行融合,确定训练样本的识别结果,获取到的图像特征更加全面,在识别采集到的图像时可获取到丰富的信息量,效率较高。效率较高。效率较高。

【技术实现步骤摘要】
一种模型训练以及表格识别方法及装置


[0001]本说明书涉及计算机
,尤其涉及一种模型训练以及表格识别方法及装置。

技术介绍

[0002]表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息,即,表格识别,成为了一个亟待解决的问题。
[0003]在现有技术中,一种常见的表格识别方法是基于二值化实现的。具体的,可首先获取包含表格的图像,并对该图像进行二值化处理。然后,可将该二值化处理后的图像分别输入用于进行行分割的循环神经网络和用于进行列分割的循环神经网络,得到该图像对应的行分割结果和列分割结果。最后,基于该行分割结果和列分割结果,可确定出该包含表格的图像中各像素的语义分割结果,并基于该语义分割结果确定表格,其中,该语义分割结果包括是否为表格的边线或单元格的边线。
[0004]但是,现有技术可对扫描类的图像中的表格进行识别,但在对图像传感器采集到的图像进行识别时,由于采集到的图像中的表格通常包含扭曲、遮挡等情况,使得识别效果较差。

技术实现思路

[0005]本说明书提供一种模型训练以及表格识别方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种识别模型的训练方法,包括:
[0008]确定若干包含表格的图像,作为各训练样本,针对每个训练样本,根据该训练样本中表格的结构和位置,确定该训练样本的标注
[0009]将该训练样本作为输入,输入到待训练的识别模型的特征提取层,对该训练样本分别进行上采样和下采样,确定该训练样本对应的图像特征金字塔;
[0010]针对所述图像特征金字塔中的每张特征图,对该特征图进行不同方向的卷积,确定该特征图对应的重构编码,并对该特征图对应的重构编码进行上采样,与所述图像特征金字塔中尺寸大于该特征图的其他特征图进行融合,确定融合结果;
[0011]将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的该训练样本的识别结果;
[0012]根据各训练样本的识别结果及其标注,对所述识别模型进行训练。
[0013]可选地,所述识别结果包含多种类型;
[0014]根据各训练样本的识别结果及其标注,对所述识别模型进行训练,具体包括:
[0015]针对每个训练样本,根据预设的识别结果的类型和该训练样本的标注,确定该训
练样本对应于各类型的标注;
[0016]根据各训练样本分别对应的所述各类型的识别结果和标注,确定损失,并根据所述损失调整所述识别模型的模型参数。
[0017]可选地,将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的该训练样本的识别结果,具体包括:
[0018]将各特征图对应的融合结果作为输入,输入所述识别模型的识别层的卷积子层,确定各特征图对应的相同尺寸的融合结果;
[0019]将各特征图对应的相同尺寸的融合结果输入所述识别模型的识别层的融合子层,得到该训练样本输出的识别结果。
[0020]可选地,针对所述图像特征金字塔中的每张特征图,将该特征图对应的重构编码进行上采样,与尺寸大于该特征图的尺寸一个层级的特征图进行融合,确定融合结果。
[0021]可选地,所述识别结果包含二十九种类型,所述组合层为二十九通道的卷积神经网络层,其中,五层用于语义分割,二十四层用于像素分类;
[0022]将各特征图对应的相同尺寸的融合结果输入所述识别模型的识别层的融合子层,得到该训练样本输出的识别结果,具体包括:
[0023]将各特征图对应的相同尺寸的融合结果输入所述识别模型的识别层的融合子层,确定该训练样本对应的融合特征;
[0024]根据预设的识别结果的类型和所述融合特征,得到预设的各通道输出的该训练样本的识别结果。
[0025]本说明书提供一种表格识别方法,包括:
[0026]确定包含表格的图像;
[0027]将所述图像作为输入,输入预先训练好的识别模型的特征提取层,对所述图像分别进行上采样和下采样,确定所述图像对应的图像特征金字塔;
[0028]针对所述图像特征金字塔中的每张特征图,对该特征图进行不同方向的卷积,确定该特征图对应的重构编码,并对该特征图对应的重构编码进行上采样,与所述图像特征金字塔中尺寸大于该特征图的其他特征图进行融合,确定融合结果;
[0029]将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的所述图像的识别结果,根据所述图像的识别结果,确定所述图像中表格的结构及位置。
[0030]本说明书提供一种识别模型的训练装置,包括:
[0031]样本确定模块,用于确定若干包含表格的图像,作为各训练样本,针对每个训练样本,根据该训练样本中表格的结构和位置,确定该训练样本的标注;
[0032]采样模块,用于将该训练样本作为输入,输入到待训练的识别模型的特征提取层,对该训练样本分别进行上采样和下采样,确定该训练样本对应的图像特征金字塔;
[0033]融合模块,用于针对所述图像特征金字塔中的每张特征图,对该特征图进行不同方向的卷积,确定该特征图对应的重构编码,并对该特征图对应的重构编码进行上采样,与所述图像特征金字塔中尺寸大于该特征图的其他特征图进行融合,确定融合结果;
[0034]识别模块,用于将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的该训练样本的识别结果;
[0035]训练模块,用于根据各训练样本的识别结果及其标注,对所述识别模型进行训练。
[0036]本说明书提供一种表格识别装置,包括:
[0037]第一确定模块,用于确定包含表格的图像;
[0038]第二确定模块,用于将所述图像作为输入,输入预先训练好的识别模型的特征提取层,对所述图像分别进行上采样和下采样,确定所述图像对应的图像特征金字塔;
[0039]融合模块,用于针对所述图像特征金字塔中的每张特征图,对该特征图进行不同方向的卷积,确定该特征图对应的重构编码,并对该特征图对应的重构编码进行上采样,与所述图像特征金字塔中尺寸大于该特征图的其他特征图进行融合,确定融合结果;
[0040]第三确定模块,用于将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的所述图像的识别结果,根据所述图像的识别结果,确定所述图像中表格的结构及位置。
[0041]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述识别模型的训练方法或表格识别方法中的任一项。
[0042]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述识别模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别模型的训练方法,其特征在于,包括:确定若干包含表格的图像,作为各训练样本,针对每个训练样本,根据该训练样本中表格的结构和位置,确定该训练样本的标注;将该训练样本作为输入,输入到待训练的识别模型的特征提取层,对该训练样本分别进行上采样和下采样,确定该训练样本对应的图像特征金字塔;针对所述图像特征金字塔中的每张特征图,对该特征图进行不同方向的卷积,确定该特征图对应的重构编码,并对该特征图对应的重构编码进行上采样,与所述图像特征金字塔中尺寸大于该特征图的其他特征图进行融合,确定融合结果;将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的该训练样本的识别结果;根据各训练样本的识别结果及其标注,对所述识别模型进行训练。2.如权利要求1所述的方法,其特征在于,所述识别结果包含多种类型;根据各训练样本的识别结果及其标注,对所述识别模型进行训练,具体包括:针对每个训练样本,根据预设的识别结果的类型和该训练样本的标注,确定该训练样本对应于各类型的标注;根据各训练样本分别对应的所述各类型的识别结果和标注,确定损失,并根据所述损失调整所述识别模型的模型参数。3.如权利要求1所述的方法,其特征在于,将各特征图对应的融合结果作为输入,输入所述识别模型的识别层,得到所述识别层输出的该训练样本的识别结果,具体包括:将各特征图对应的融合结果作为输入,输入所述识别模型的识别层的卷积子层,确定各特征图对应的相同尺寸的融合结果;将各特征图对应的相同尺寸的融合结果输入所述识别模型的识别层的融合子层,得到该训练样本输出的识别结果。4.如权利要求1所述的方法,其特征在于,对该特征图对应的重构编码进行上采样,与所述图像特征金字塔中尺寸大于该特征图的其他特征图进行融合,确定融合结果,具体包括:针对所述图像特征金字塔中的每张特征图,将该特征图对应的重构编码进行上采样,与尺寸大于该特征图的尺寸一个层级的特征图进行融合,确定融合结果。5.如权利要求3所述的方法,其特征在于,所述识别结果包含二十九种类型,所述识别层为二十九通道的卷积神经网络层,其中,五层用于语义分割,二十四层用于像素分类;将各特征图对应的相同尺寸的融合结果输入所述识别模型的识别层的融合子层,得到该训练样本输出的识别结果,具体包括:将各特征图对应的相同尺寸的融合结果输入所述识别模型的识别层的融合子层,确定该训练样本对应的融合特征;根据预设的识别结果的类型和所述融合特征,得到预设的各通道输出的该训练样本的识别结果。6.一种表格识别方法,其特征在于,包括:确定包含表格的图像;将所述图像作为输...

【专利技术属性】
技术研发人员:赵玲玲
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1