一种试验文书纸质图像数据特征提取方法技术

技术编号:36179155 阅读:48 留言:0更新日期:2022-12-31 20:35
本发明专利技术公开了一种试验文书纸质图像数据特征提取方法。该方法包括图像预处理,对试验文书纸质图像数据进行分页、倾斜校正以及二值化操作;进行版面分析,通过基于RefineNet检测图像中包含的字段区域、表格区域、图注区域、页码区域以及图像区域;建立索引,通过建立数据字典,索引到检测到的文字区域、表格区域、图注区域、页码区域以及图像区域;文字识别,通过基于CRNN的文字识别技术,识别出段落区域文字、表格区域文字以及页码。本方法与现有技术相比,具有模型轻量化、检测识别时间短的特点,可以有效缩短人工录入纸质图像数据的时间,节约人力成本。人力成本。人力成本。

【技术实现步骤摘要】
一种试验文书纸质图像数据特征提取方法


[0001]本专利技术属于图像特征提取领域,具体涉及一种试验文书纸质图像数据特征提取方法。

技术介绍

[0002]纸质文档电子化是当前信息化建设的趋势,当前企事业单位对试验文书纸质图像数据采集缺乏智能数字化提取方法,很难对纸质图像数据进行统一的规范化提取,不能为数据挖掘分析、人工智能模型训练提供标准规范的数据集基础,导致获取的传统数据信息不能为企事业单位提供所需的智能服务应用。

技术实现思路

[0003]针对现有纸质图像数据采集效果不佳、耗费时间长的技术问题,本专利技术提出一种试验文书纸质图像数据特征提取方法。提供对纸质图像数据的字段区域、表格区域、图(表)注区域、页码区域以及图像区域的索引功能,支持对段落区域文字、表格区域文字以及页码的快速识别。
[0004]本专利技术具体采用如下技术方案:一种试验文书纸质图像数据特征提取方法,包括如下步骤:
[0005]步骤SS1:上传待识别图像,包括:将待识别的PDF图像上传至处理程序;
[0006]步骤SS2:图像预处理,包括:对所述待识别的PDF图像的有效图像信息进行加强,并削弱冗余或无效的信息,包括对输入的多页PDF数据进行分页处理、倾斜图像校正处理以及图像二值化处理;
[0007]步骤SS3:版面分析,包括:对经过预处理后的图像数据通过基于RefineNet 智能识别,检测出字段区域、表格区域、图注区域、页码区域以及图像区域;
[0008]步骤SS4:建立索引,包括:对纸质图像数据中识别出的不同区域,通过数据字典建立索引,映射出不同区域类型的位置关系;
[0009]步骤SS5:文字识别,包括:建立CRNN文字识别模型,所述CRNN文字识别模型包括CNN层、RNN卷积层和CTC层;首先通过卷积神经网络将图片的特征提取出来获得输入特征序列,然后采用LSTM循环神经网络对输入特征序列进行预测,以获取更多上下文信息;最后通过CTC作为损失函数,解决不定长输入的对齐问题;
[0010]步骤SS6:识别后校验,包括:在进行文字的智能特征提取后,针对识别的错误,在前端web界面进行校验勘误。
[0011]作为一种较佳的实施例,所述步骤SS2包括以下步骤:
[0012]步骤SS21:多页PDF图像进行分页处理;
[0013]步骤SS22:图像倾斜校正,对拍摄的倾斜纸质化图像,进行Hough变换,获得校正后的图像;
[0014]步骤SS23:图像二值化处理,采用图像二值化采用一维最大熵阈值分割,使输入
PDF图像的质量得到最大程度的提高,且符合后续自动录入系统对输入图像的要求。
[0015]作为一种较佳的实施例,所述步骤SS3中的版面分析包括:采用基于 RefineNet的智能识别方法,RefineNet的框架由两个模块组成,即ARM模块和 ODM模块,并且所述ARM模块和ODM模块通过TCB连接;损失函数如下式所示,包含ARM模块和ODM模块两方面,ARM模块包含二分类的损失lb和回归损失Lr;同理在ODM模块包含Multi

class Classification的损失lm和回归损失Lr;
[0016][0017]其中,p
i
和x
i
代表ARM模块中Anchor分类的置信度和回归的坐标,p
i
和x
i
代表ODM模块中Refined Anchor分类的置信度和坐标回归;N
arm
和N
odm
代表 batch中的正样本数;代表第i个anchor的ground truth位置和大小。
[0018]作为一种较佳的实施例,所述步骤SS5基于CRNN的文字识别对序列进行预测,包括以下步骤:
[0019]步骤SS51:CNN模型设计,采用VGG结构中的卷积层和最大池化层来对图像序列进行特征提取;
[0020]步骤SS52:RNN层设计,采用深度双向循环神经网络Bi

LSTM作为RNN 层,RNN层对于CNN层输入的特征序列,每一个输入对应一个输出;
[0021]步骤SS53:CTC层设计,定义序列标注任务中标签字母表/音节集合为A,A

为加入blank字符的扩展表集合;为CTC网络在t时刻输出元素k的概率,输入长度为T的序列x,A

T
为在A

集合中长度为T的序列集合;假设在不同时刻的输出是条件独立的,在输入x后,得到集合中任何一条路径π∈A

T
的概率分布为:
[0022][0023]将l记为A

T
集合中输出标签的序列,在集合中多条路径会映射到同一个结果,定义函数B:A

T

A
≤T
,实现从路径集合到最终预测序列的映射;则预测出真实标签序列的概率表示为:
[0024][0025]其中,p(l|x)为预测出真实标签序列的概率。
[0026]作为一种较佳的实施例,所述步骤SS51还包括对VGG网络进行微调:将第三和第四个最大池化层的核尺度从2*2改为了1*2;在第五和第六个卷积层后面加上Batch Normalization层,加速训练过程。
[0027]作为一种较佳的实施例,所述步骤SS52具体包括:为防止训练时梯度消失,以及将序列前向信息和后向信息都用于序列的预测,深度双向循环神经网络 Bi

LSTM通过3个

门”控制长期状态c,“门”表示为:
[0028]g(x)=σ(Wx+b)
[0029]其中,g(x)为控制门函数,σ为sigmoid函数,W为门的权重向量,b是偏置项,输入为x;因为σ是sigmoid函数,的值域是(0,1),所以门的状态都是半开半闭的;
[0030]第一个“门”,控制长期状态c的保存,称为遗忘门f_t;
[0031]f_t=σ(W_f
·
[h_(t

1),x_t]+b_f)
[0032]其中,W_f是遗忘门权重矩阵,[h_(t

1),x_t]是合并后的隐藏层和当前输入的合并矩阵,b_f为权重矩阵;
[0033]第二个“门”,控制即时状态输入到长期状态c,称为输入门i_t;
[0034]i_t=σ(W_i
·
[h_(t

1),x_t]+b_i)
[0035]其中,W_i是权重矩阵,[h_(t

1),x_t]是合并后的隐藏层和当前输入的合并矩阵,b_i为偏置项;
[0036]第三个“门”,用于描述当前输入的单元状态控制长期状态c在当前的深度双向循环神经网络Bi

LSTM的输出量;
[0037][0038]其中,W_c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种试验文书纸质图像数据特征提取方法,其特征在于,包括如下步骤:步骤SS1:上传待识别图像,包括:将待识别的PDF图像上传至处理程序;步骤SS2:图像预处理,包括:对所述待识别的PDF图像的有效图像信息进行加强,并削弱冗余或无效的信息,包括对输入的多页PDF数据进行分页处理、倾斜图像校正处理以及图像二值化处理;步骤SS3:版面分析,包括:对经过预处理后的图像数据通过基于RefineNet智能识别,检测出字段区域、表格区域、图注区域、页码区域以及图像区域;步骤SS4:建立索引,包括:对纸质图像数据中识别出的不同区域,通过数据字典建立索引,映射出不同区域类型的位置关系;步骤SS5:文字识别,包括:建立CRNN文字识别模型,所述CRNN文字识别模型包括CNN层、RNN卷积层和CTC层;首先通过卷积神经网络将图片的特征提取出来获得输入特征序列,然后采用LSTM循环神经网络对输入特征序列进行预测,以获取更多上下文信息;最后通过CTC作为损失函数,解决不定长输入的对齐问题;步骤SS6:识别后校验,包括:在进行文字的智能特征提取后,针对识别的错误,在前端web界面进行校验勘误。2.根据权利要求1所述的一种试验文书纸质图像数据特征提取方法,其特征在于,所述步骤SS2包括以下步骤:步骤SS21:多页PDF图像进行分页处理;步骤SS22:图像倾斜校正,对拍摄的倾斜纸质化图像,进行Hough变换,获得校正后的图像;步骤SS23:图像二值化处理,采用图像二值化采用一维最大熵阈值分割,使输入PDF图像的质量得到最大程度的提高,且符合后续自动录入系统对输入图像的要求。3.根据权利要求1所述的一种试验文书纸质图像数据特征提取方法,其特征在于,所述步骤SS3中的版面分析包括:采用基于RefineNet的智能识别方法,RefineNet的框架由两个模块组成,即ARM模块和ODM模块,并且所述ARM模块和ODM模块通过TCB连接;损失函数如下式所示,包含ARM模块和ODM模块两方面,ARM模块包含二分类的损失lb和回归损失Lr;同理在ODM模块包含Multi

class Classification的损失lm和回归损失Lr;其中,p
i
和x
i
代表ARM模块中Anchor分类的置信度和回归的坐标,p
i
和x
i
代表ODM模块中Refined Anchor分类的置信度和坐标回归;N
arm
和N
odm
代表batch中的正样本数;代表第i个anchor的ground truth位置和大小。4.根据权利要求1所述的一种试验文书纸质图像数据特征提取方法,其特征在于,所述步骤SS5基于CRNN的文字识别对序列进行预测,包括以下步骤:步骤SS51:CNN模型设计,采用VGG结构中的卷积层和最大池化层来对图像序列进行特征提取;
步骤SS52:RNN层设计,采用深度双向循环神经网络Bi

LSTM作为RNN层,RNN层对于CNN层输入的特征序列,每一个输入对应一个输出;步骤SS53:CTC层设计,定义序列标注任务中标签字母表/音节集合为A,A

为加入blank字符的扩展表集合;为CTC网络在t时刻输出元素k的概率,输入长度为T的序列x,A

T
为在A

集...

【专利技术属性】
技术研发人员:严浩王芳潇范强江春周晓磊张骁雄
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1