一种试验文书纸质图像数据特征提取方法技术

技术编号：36179155 阅读：59 留言：0更新日期：2022-12-31 20:35

本发明专利技术公开了一种试验文书纸质图像数据特征提取方法。该方法包括图像预处理，对试验文书纸质图像数据进行分页、倾斜校正以及二值化操作；进行版面分析，通过基于RefineNet检测图像中包含的字段区域、表格区域、图注区域、页码区域以及图像区域；建立索引，通过建立数据字典，索引到检测到的文字区域、表格区域、图注区域、页码区域以及图像区域；文字识别，通过基于CRNN的文字识别技术，识别出段落区域文字、表格区域文字以及页码。本方法与现有技术相比，具有模型轻量化、检测识别时间短的特点，可以有效缩短人工录入纸质图像数据的时间，节约人力成本。人力成本。人力成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种试验文书纸质图像数据特征提取方法

[0001]本专利技术属于图像特征提取领域，具体涉及一种试验文书纸质图像数据特征提取方法。

技术介绍

[0002]纸质文档电子化是当前信息化建设的趋势，当前企事业单位对试验文书纸质图像数据采集缺乏智能数字化提取方法，很难对纸质图像数据进行统一的规范化提取，不能为数据挖掘分析、人工智能模型训练提供标准规范的数据集基础，导致获取的传统数据信息不能为企事业单位提供所需的智能服务应用。

技术实现思路

[0003]针对现有纸质图像数据采集效果不佳、耗费时间长的技术问题，本专利技术提出一种试验文书纸质图像数据特征提取方法。提供对纸质图像数据的字段区域、表格区域、图(表)注区域、页码区域以及图像区域的索引功能，支持对段落区域文字、表格区域文字以及页码的快速识别。
[0004]本专利技术具体采用如下技术方案：一种试验文书纸质图像数据特征提取方法，包括如下步骤：
[0005]步骤SS1：上传待识别图像，包括：将待识别的PDF图像上传至处理程序；
[0006]步骤SS2：图像预处理，包括：对所述待识别的PDF图像的有效图像信息进行加强，并削弱冗余或无效的信息，包括对输入的多页PDF数据进行分页处理、倾斜图像校正处理以及图像二值化处理；
[0007]步骤SS3：版面分析，包括：对经过预处理后的图像数据通过基于RefineNet 智能识别，检测出字段区域、表格区域、图注区域、页码区域以及图像区域；
[0008]步骤SS4：建立索引，包括：对纸质图像...

【技术保护点】

【技术特征摘要】
1.一种试验文书纸质图像数据特征提取方法，其特征在于，包括如下步骤：步骤SS1：上传待识别图像，包括：将待识别的PDF图像上传至处理程序；步骤SS2：图像预处理，包括：对所述待识别的PDF图像的有效图像信息进行加强，并削弱冗余或无效的信息，包括对输入的多页PDF数据进行分页处理、倾斜图像校正处理以及图像二值化处理；步骤SS3：版面分析，包括：对经过预处理后的图像数据通过基于RefineNet智能识别，检测出字段区域、表格区域、图注区域、页码区域以及图像区域；步骤SS4：建立索引，包括：对纸质图像数据中识别出的不同区域，通过数据字典建立索引，映射出不同区域类型的位置关系；步骤SS5：文字识别，包括：建立CRNN文字识别模型，所述CRNN文字识别模型包括CNN层、RNN卷积层和CTC层；首先通过卷积神经网络将图片的特征提取出来获得输入特征序列，然后采用LSTM循环神经网络对输入特征序列进行预测，以获取更多上下文信息；最后通过CTC作为损失函数，解决不定长输入的对齐问题；步骤SS6：识别后校验，包括：在进行文字的智能特征提取后，针对识别的错误，在前端web界面进行校验勘误。2.根据权利要求1所述的一种试验文书纸质图像数据特征提取方法，其特征在于，所述步骤SS2包括以下步骤：步骤SS21：多页PDF图像进行分页处理；步骤SS22：图像倾斜校正，对拍摄的倾斜纸质化图像，进行Hough变换，获得校正后的图像；步骤SS23：图像二值化处理，采用图像二值化采用一维最大熵阈值分割，使输入PDF图像的质量得到最大程度的提高，且符合后续自动录入系统对输入图像的要求。3.根据权利要求1所述的一种试验文书纸质图像数据特征提取方法，其特征在于，所述步骤SS3中的版面分析包括：采用基于RefineNet的智能识别方法，RefineNet的框架由两个模块组成，即ARM模块和ODM模块，并且所述ARM模块和ODM模块通过TCB连接；损失函数如下式所示，包含ARM模块和ODM模块两方面，ARM模块包含二分类的损失lb和回归损失Lr；同理在ODM模块包含Multi
‑
class Classification的损失lm和回归损失Lr；其中，p
i
和x
i
代表ARM模块中Anchor分类的置信度和回归的坐标，p
i
和x
i
代表ODM模块中Refined Anchor分类的置信度和坐标回归；N
arm
和N
odm
代表batch中的正样本数；代表第i个anchor的ground truth位置和大小。4.根据权利要求1所述的一种试验文书纸质图像数据特征提取方法，其特征在于，所述步骤SS5基于CRNN的文字识别对序列进行预测，包括以下步骤：步骤SS51：CNN模型设计，采用VGG结构中的卷积层和最大池化层来对图像序列进行特征提取；
步骤SS52：RNN层设计，采用深度双向循环神经网络Bi
‑
LSTM作为RNN层，RNN层对于CNN层输入的特征序列，每一个输入对应一个输出；步骤SS53：CTC层设计，定义序列标注任务中标签字母表/音节集合为A，A
’
为加入blank字符的扩展表集合；为CTC网络在t时刻输出元素k的概率，输入长度为T的序列x，A
′
T
为在A
′
集...

【专利技术属性】
技术研发人员：严浩，王芳潇，范强，江春，周晓磊，张骁雄，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人