一种不规则排版发票单据布局预测方法、装置及存储介质制造方法及图纸

技术编号:35264599 阅读:19 留言:0更新日期:2022-10-19 10:25
本发明专利技术公开了一种不规则排版发票单据版面布局预测方法、预测装置及存储介质,不规则排版发票单据版面布局预测方法包括:利用扫描仪或相机采集不规则排版单据信息;将采集到的不规则排版单据信息进行标注并将已标注数据划分为训练集与测试集;使用训练集训练得到版面布局预测模型;使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,直至获得理想的模型通过预测模型预测不规则排版发票单据版面布局。本发明专利技术优点在于结合不规则排版发票单据的高维视觉特征、低维视觉随机变化和语义特征对其进行版面布局预测,弥补了传统版面分析语义信息少、视觉语义融合简单的问题,提高了对布局不规则发票版面分析的精度。度。度。

【技术实现步骤摘要】
一种不规则排版发票单据布局预测方法、装置及存储介质


[0001]本专利技术属于机器学习
,尤其涉及一种用于不规则排版发票单据布局分析预测方法。

技术介绍

[0002]单据是财务报表、科学文献、采购清单等许多真实文档中信息丰富的数据格式之一。除了文本内容外,表格结构对于人们进行关键信息提取至关重要。不仅如此,文档布局分析是自动理解文档的关键步骤,支持许多重要应用,如文档检索、数字化和编辑。它的目标是识别非结构化文档中感兴趣的区域,并识别每个区域的作用。因此,单据结构识别成为当前文档理解系统中的重要技术之一。然而发票单据文档布局的多样性和复杂性,使得对不规则排版发票单据布局分析这项任务具有挑战性。
[0003]最近的研究者们只单单地从视觉特征,或语义特征方面考虑,忽视结合来自这两种模式的信息可以帮助更好地识别文件布局尤其是对于不规则排版的发票单据。因为某些结构化的区域,如图形、表格等可以通过宏观的视觉特征轻松识别,而对于某些视觉上相似的区域,如摘要和段落等语义特征又显得至关重要。因此,最近的一些研究试图将这两种模式结合起来。
[0004]基于自然语言处理(NLP)的方法将布局分析建模为序列标记任务,并应用自底向上策略。他们首先将文本序列化为一维标记序列。然后使用每个标记的语义和视觉特征(如坐标和图像嵌入),它们通过序列标记模型顺序确定标记标签。然而,基于NLP的方法在布局建模方面表现出不足。
[0005]基于计算机视觉(CV)的方法将布局分析建模为对象检测或分割任务,并应用自上而下的策略。他们首先通过卷积神经网络提取视觉特征,并通过文本嵌入映射引入句子级或字符级语义特征,这些映射直接连接起来作为文档的表示。然后,使用检测或分割模型生成布局组件的坐标和语义标签。与基于NLP的方法相比,基于CV的方法可以更好地捕获空间信息,

技术实现思路

[0006]本专利技术提供了一种提高对于不规则排版发票单据布局分析的预测精度获得精确坐标和语义标签的不规则排版发票单据布局预测方法、装置及存储介质。
[0007]为达到上述技术目的,本专利技术采用以下技术方案:
[0008]一种不规则排版发票单据版面布局分析方法,其特征在于,包括:
[0009]步骤1:采集不规则排版单据信息;
[0010]步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息;
[0011]步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度
视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标;
[0012]步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型;
[0013]步骤5:通过版面布局预测模型预测不规则排版发票单据语义标签从而得到对应的版面布局。
[0014]优选的,所述所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。
[0015]优选的,所述步骤3内容如下:
[0016]步骤3

1:训练集中文档图像作为视觉模块输入,输入图像使用其中不同尺度的卷积神经网络(CNN)提取多维度视觉特征,不同维度特征表示为其中H表示输入图像x高度,W表示输入图像x宽度,表示特征图S
i
的通道维度;
[0017]步骤3

2:语义模块将文本嵌入映射作为输入引入文档语义,T0与文档图像x具有相同的空间大小,表示初始通道尺寸。文档页面的字符表示为句子表示为其中n和m分别是字符和句子的总数,c
k
和是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标,同理可得s
k
和得到多维度文档语义特征W1,W2,W3,...;
[0018]步骤3

3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MF
i
。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件,使用图形神经网络(GNN)来建模组件关系,以及使用它来优化预测结果;
[0019]步骤3

4:计算两部分损失L(Θ)=L
cls
+λL
gen
,语义标签的交叉熵损失作为分类损失L
cls
,平滑L1损失作为坐标回归损失L
gen

[0020]步骤3

5:反向传播,使用随机梯度下降法(SGD)对模型参数Θ进行优化;
[0021]步骤3

6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3

1,直至将训练集中的数据读取完;
[0022]步骤3

7:重复执行步骤3

1至3

6并持续对模型参数Θ进行优化,直至使L(Θ)下降到合理的数量级。
[0023]进一步优选的,所述步骤3

1包括:
[0024]通过Residual block模块不同大小的卷积核对文档图像高低维度特征进行提取,输出特征计算公式如(1)(2):
[0025]S0=x#(1)
[0026][0027]H表示输入图像x高度,W表示输入图像x宽度,表示特征图S
i
的通道维度,f
i,j
(
·
)表示Residual block(
·
)模块,c,l为超参数。
[0028]进一步优选的,所述步骤3

2包括:
[0029]使用两个映射函数以和为输入构造字符嵌入映射和句子嵌入映射计算公式如(3)(4)所示:
[0030][0031][0032]E
c
(
·
)是一个单词嵌入层,E
s
(
·
)采用预训练语言模型Bert,然后通过对Char和Sent之和应用LayerNormal(
·
)来得到文本嵌入映射W0,计算公式如(5)所示:
[0033]W0=LayerNormal(Char+Sent)#(5)
[0034]进一步优选的,所述步骤3

3包括:
[0035]不同维度视觉特征和语义特征S
i
和W
i
作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MF
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不规则排版发票单据版面布局预测方法,其特征在于,包括:步骤1:采集不规则排版单据信息;步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息;步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标;步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型;步骤5:通过版面布局预测模型预测不规则排版发票单据语义标签从而得到对应的版面布局。2.根据权利要求1所述的不规则排版发票单据布局预测方法,其特征在于,所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。3.根据权利要求1所述的不规则排版发票单据布局预测方法,其特征在于,所述步骤3,包括:步骤3

1:训练集中文档图像作为视觉模块输入,输入图像使用其中不同尺度的卷积神经网络提取多维度视觉特征,不同维度特征表示为S1,S2,S3,...S
i
...,其中,i表示第i维度,H表示输入图像x高度,W表示输入图像x宽度,表示特征图S
i
的通道维度,且S0=x;步骤3

2:语义模块将文本嵌入映射作为输入引入文档语义,T0与文档图像x具有相同的空间大小,表示初始通道尺寸;文档页面的字符表示为句子表示为其中n和m分别是字符和句子的总数;c
k
和是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标;s
k
和是第k个句子及其关联框,由卷积神经网络中的ConvNet得到多维度文档语义特征W1,W2,W3,...W
i
...;步骤3

3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...,利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MF
i
;使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件;使用图形神经网络来建模组件关系以及优化预测结果;步骤3

4:计算两部分损失L(Θ)=L
cls
+λL
gen
,语义标签的交叉熵损失作为分类损失L
cls
,平滑L1损失作为坐标回归损失L
gen
;步骤3

5:反向传播,使用随机梯度下降法对模型参数Θ进行优化;步骤3

6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3

1,直至将训练集中的数据读取完;
步骤3

7:重复执行步骤3

1至3

6并持续对模型参数Θ进行优化,直至使L(Θ)下降到设定的数量级。4.根据权利要求3所述的不规则排版发票单据布局预测方法,其特征在于,所述步骤3

1,包括:通过Residual block模块不同大小的卷积核对文档图像高低维度特征进行提取,输出特征S1,S2,S3,...S
i
...,计算公式如(1)(2):S0=x
ꢀꢀꢀꢀ
(1)其中,f
i,j
(
·

【专利技术属性】
技术研发人员:朱立平易欣徐倩
申请(专利权)人:中华人民共和国南京海关
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1