本发明专利技术公开了一种基于卷积网络的表单线框检测识别算法,首先采用卷积网络对表单图片进行特征提取,针对提取到的特征图进行像素级别的预测,获得概率值图;概率值图包括代表横线和竖线的概率值图;对提取的概率值图,过滤并剔除低于预设阈值的概率值点,根据过滤后的概率值图,分别提取表单中的横线和竖线;对于提取后存在断点的横线或竖线,采用速纳法将拟合在一条直线上的线段重新组合,合并成横线或竖线,获取表单线框;本发明专利技术公开的表单线框检测识别算法,在各种环境条件下均具有鲁棒性,并降低表单中倾斜角度等因素对正确率的影响,能够精确的识别出表单并分类,处理线段不连续或者污渍等情况;使用了不深的网络结构,维持了模型的实时性。了模型的实时性。了模型的实时性。
【技术实现步骤摘要】
一种基于卷积网络的表单线框检测识别算法
[0001]本专利技术涉及深度学习
,主要涉及一种基于卷积网络的表单线框检测识别算法。
技术介绍
[0002]大多数人日常办公处理的文件,无非就是表格和文档,其中表格的重要性毋庸置疑。在各行各业的桌面办公场景中,经常以表格的形式呈现。可以说,表格数据作为财务数据中的关键信息,在财务数据的处理过程中越来越受到财务人员的重视。随着带摄像头的移动设备的普及,越来越多的客户通过这些设备拍照上传文件图片。因此从文件图片中提取有效信息也成为了一项基本的任务。
[0003]尽管表提取是各种领域中的常见任务,但手动提取表信息通常是一个冗长而耗时的过程。因此,我们需要自动的表提取方法来避免手动操作。但是,对于相对复杂的财务表结构,现有的方法仍难以准确地恢复,这使得传统的特征工程方法通常很难解码表结构。这些方法通常依赖于可视化特性,如划线、不同列之间的间距、表格单元格中的数据类型、它们与重叠邻近的关系或颜色编码的单元格块。它们在特定布局的表或业务案例中表现得相当好,但无法跨多个域扩展。表结构的变化,以及用于可视地分离表格组件的图形元素的变化,使得从这些图像中提取图像成为一个非常具有挑战性的问题。
[0004]随着深度学习发展,表单检测结构化已经进行了广泛的研究。最开始的表单检测结构化技术使用了传统的算法进行识别,对于环境、拍摄角度以及光照情况等不太具有鲁棒性,并且表单本身的污染缺损也会影响正确率。为此,我们提取了一个新的方法,使用卷积网络识别表单中的关键点,然后利用表单的固定格式以及检测出的表单关键点对表单进行结构化。此方法能够解决传统方法的各种缺点。
[0005]在实际环境的表单检测中,如果直接对表单进行文字定位以及识别,虽然表单能够直接识别出结果,但两个不同小框中的文字容易被识别成一列,而且传统的表单线段检测容易受到光照强度(黑暗、强光、局部失真)、污渍以及印章等的影响;表单模糊、打印出现缺损等依旧是传统方法难以解决的点;因为各种问题使得表单上的线段残缺将使得传统方法完全失效。
技术实现思路
[0006]专利技术目的:为了解决上述
技术介绍
中的问题,我们提出了一种应用于表单线段检测的深度卷积神经网络算法。使用神经网络作为提取图片特征的算法,并利用像素级别的分类判断出存在于图片表单中的直线以及竖线,最终利用上述方式检测出来的横线以及竖线进行组合排列,得出最后的表单框检测结果。由于卷积神经网络具有高度的鲁棒性,能够解决传统算法不能够解决的问题,并且对于一些即使线段缺损也能够通过先验知识识别出来。本专利技术通过优化模型性能使得算法能够实时的运行于嵌入式设备上以满足商业化需求。
[0007]技术方案:为实现上述目的,本专利技术采用的技术方案为:
[0008]一种基于卷积网络的表单线框检测识别算法,包括如下步骤:
[0009]步骤S1、采用卷积网络对表单图片进行特征提取;
[0010]步骤S2、针对提取到的特征图进行像素级别的预测,获得概率值图;所述概率值图包括代表属于横线的概率值图和属于竖线的概率值图;
[0011]步骤S3、对于提取出的概率值图,过滤并剔除低于预设阈值的概率值点;
[0012]步骤S4、根据过滤后的概率值图,分别提取表单中的横线和竖线;对于提取后存在断点的横线或竖线,将拟合在一条直线上的线段重新组合,合并成横线或竖线;
[0013]步骤S5、根据上述横线和竖线进行表单提取,获取表单线框。
[0014]进一步地,所述步骤S1中卷积网络模型的训练过程如下:
[0015]步骤A1、通过卷积网络模型对训练图片进行特征提取,对提取到的特征图进行预测,获取通道维度为2的概率值图,概率值图上的点分别代表为横线及竖线的概率值;
[0016]步骤A2、根据标签,将线段上的两个点确定为一条直线,并分别生成对应的横线及竖线标签概率图;
[0017]步骤A3、根据步骤A1
‑
A2获取的概率预测结果与标签概率图求解损失函数,利用反向梯度传播更新训练的卷积网络模型参数。
[0018]进一步地,采用卷积网络模型进行特征提取的具体方法如下:
[0019]所述卷积网络模型包括卷积层、池化层、激活层和归一化层;输入表格图片的宽w、高h,输入格式为三通道rgb颜色空间数据;
[0020]通过卷积层对图片进行下采样,采样结果分别为w/2和h/2;采样过后的依次经过激活层、归一化层,并且重复进行卷积操作、激活操作、以及归一化操作两次;再次使用卷积层操作进行下采样,采样结果分别为w/4和h/4;依次经过激活层、归一化层得到结果,重复上述过程两次;再次使用卷积层操作进行下采样,采样结果分别为w/8,h/8;再次重复上述下采样操作,最终提取特征维度为w/16和h/16,完成下采样阶段操作;
[0021]上采样阶段使用逆卷积操作,首先使用逆卷积进行上采样,使获得数据的维度变成w/8和h/8,通过激活层、归一化层,然后重复进行卷积池化以及归一化操作两次但不改变特征的空间维度;重复上述逆采样过程,使上采样阶段最终得到w/4,h/4的特征维度的数据,最终使用softmax进行分类获取预测结果。
[0022]进一步地,所述卷积网络模型的训练过程中,采用数据增强训练;对于输入数据,首先采用随机亮度,随机对比度和高斯模糊进行不改变标签地增强;对于增强后的数据进一步进行随机平移、随机旋转以及固定切割进行数据增强,此时增强后的数据标签也发生改变。
[0023]有益效果:
[0024]本专利技术针对表单的特点进行了详细的研究,并对传统的表单线框检测进行分析优化。主要优点包括:
[0025](1)本专利技术使用深度学习的方法进行检测表单线框检测。其中模型使用了卷积层、逆卷积层、池化层、激活层以及归一化结构设计识别网络对图片进行特征提取。这些层不会改变特征的二维特性,并且网络结构使用下采样以及上采样配合使用维持了数据与原图线框类似的功用。使得算法在各种环境条件下具有鲁棒性,并降低表单中倾斜角度、部分缺
损、图片失真等因素对正确率的影响。
[0026](2)本专利技术使用像素级别对表单上横线竖线进行检测,能够精确的识别出表单并分类,并且能够处理线段不连续或者有污渍、模糊、印章等情况。
[0027](3)本专利技术采用的卷积网络模型使用了不深的网络结构维持良好的性能,维持了模型的实时性。
附图说明
[0028]图1是本专利技术提供的表单线框检测识别算法流程图;
[0029]图2是本专利技术提供的卷积网络模型训练流程图;
[0030]图3是本专利技术提供的数据增强训练示意图;
[0031]图4是本专利技术提供的卷积网络模型进行特征提取示意图。
具体实施方式
[0032]下面结合附图对本专利技术作更进一步的说明。
[0033]如图1所示的一种基于卷积网络的表单线框检测识别算法,包括以下步骤:
[0034]步骤S1、采用卷积网络对表单图片进行本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于卷积网络的表单线框检测识别算法,其特征在于,包括如下步骤:步骤S1、采用卷积网络对表单图片进行特征提取;步骤S2、针对提取到的特征图进行像素级别的预测,获得概率值图;所述概率值图包括代表属于横线的概率值图和属于竖线的概率值图;步骤S3、对于提取出的概率值图,过滤并剔除低于预设阈值的概率值点;步骤S4、根据过滤后的概率值图,分别提取表单中的横线和竖线;对于提取后存在断点的横线或竖线,拟合在一条直线上的线段重新组合,合并成横线或竖线;步骤S5、根据上述横线和竖线进行表单提取,获取表单线框。2.根据权利要求1所述的一种基于卷积网络的表单线框检测识别算法,其特征在于,所述步骤S1中卷积网络模型的训练过程如下:步骤A1、通过卷积网络模型对训练图片进行特征提取,对提取到的特征图进行预测,获取通道维度为2的概率值图,概率值图上的点分别代表为横线及竖线的概率值;步骤A2、根据人工标注的可视化标签标注信息,找到确定直线上的两点,并分别生成对应的横线及竖线标签概率图,概率图生成标准是离直线上越近的点值概率越高,越远概率值越低,并且值符合高斯分布;步骤A3、根据步骤A1
‑
A2获取的概率预测结果与标签概率图求解损失函数,利用反向梯度传播更新训练的卷积网络模型参数。3.根据权利要求2所述的一种基于卷积网络的表单线框检测识别算法,其特征在于,采用卷积网络模...
【专利技术属性】
技术研发人员:赵子昂,张顺外,孔令军,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。