数字化档案表格转换方法及系统技术方案

技术编号:35918051 阅读:19 留言:0更新日期:2022-12-10 11:00
本发明专利技术属于档案数字化技术领域,特别涉及一种数字化档案表格转换方法及系统,首先,读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理主要包含:灰度化处理、污点修复及纠偏矫正;接着,利用已训练的语义分割网络模型识别出表格类版面的档案图像;然后,针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格结构来聚合单元格文本,生成可编辑表格数据。本发明专利技术能够实现档案管理中版面分析及表格的识别,便于在档案数字化管理中的应用。的应用。的应用。

【技术实现步骤摘要】
数字化档案表格转换方法及系统


[0001]本专利技术属于档案数字化
,特别涉及一种数字化档案表格转换方法及系统。

技术介绍

[0002]档案数字化过程中,如何精确地提取出扫描后档案文件的非结构化数据,是要解决的关键问题。而且,档案中存在非常复杂的版面样式,尤其是较多的表格类结构,存储着有位置关联的关键信息。为了更好地可编辑化电子档案图像中表格的文本内容及其之间的对应关系,需要精确地解析出电子档案图像中的表格结构,并识别出表格中的文本内容。
[0003]当前录入档案中数据的主要手段是通过人工查找并识别出关键信息,这种方法不仅费时费力,还会出现由于主观因素造成的错查漏查等情况。现有的版面分析技术采用了传统的投影算法,但无法精确区分不同类型的版面结构,而主流的文本识别技术会丢失文本的结构信息,无法应用于表格类的结构,难以实现表格可编辑化操作。这些版面分析技术和表格识别技术在档案领域中也是十分棘手的问题。

技术实现思路

[0004]为此,本专利技术提供一种数字化档案表格转换方法及系统,实现档案管理中版面分析及表格的识别,便于在档案数字化管理中的应用。
[0005]按照本专利技术所提供的设计方案,提供一种数字化档案表格转换方法,包含如下内容:
[0006]读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理主要包含:灰度化处理、污点修复及纠偏矫正;
[0007]利用已训练的语义分割网络模型来识别出表格类版面的档案图像;
[0008]针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格结构来聚合单元格文本,生成可编辑表格数据。
[0009]作为本专利技术中数字化档案表格转换方法,进一步地,对档案图像进行预处理中,首先对读取的档案图像进行灰度化处理;接着,通过二值化阈值来得到待修复污点区域,对待修复污点区域进行膨胀处理后,利用快速行进修复方法对污点进行修复;然后,通过边缘检测定位档案图像边缘信息,通过霍夫变换检测档案图像中直线,利用直线倾斜角度来对档案图片倾斜角度进行纠偏矫正。
[0010]作为本专利技术中数字化档案表格转换方法,进一步地,污点修复过程包含如下内容:首先,选取污点修复区域边缘上的像素点c,以该像素点c为中心向周围选取邻域c
ε
,并根据给定的b点像素及其梯度值来计算像素点c在内部区域b点方向的一阶导数;接着,根据邻域差别、距离参数、水平集参数及权重函数参数来更新新的c点像素值;然后,逐步收缩待修复区域边界并更新区域边界上的像素值,直至完成整个待修复区域的污点修复。
[0011]作为本专利技术中数字化档案表格转换方法,进一步地,纠偏矫正过程包含如下内容:
首先,利用canny边缘检测算法来定位出档案图像的边缘信息;接着,通过霍夫变换将档案图像所在空间的直线转换成霍夫空间上的点,通过寻找在霍夫空间中参数最大重叠点对应的角度来获取档案图像的倾斜角度;然后,依据该倾斜角度通过对档案图像进行旋转来实现档案图像的纠偏矫正。
[0012]作为本专利技术数字化档案表格转换方法,进一步地,所述语义分割网络模型采用PP

YOLOv2_r50vd网络结构,在该网络结构中,利用卷积层和特征金字塔对输入的数据进行特征提取和融合处理,并利用全连接层进行特征分类。
[0013]作为本专利技术数字化档案表格转换方法,进一步地,语义分割网络模型在训练过程中,首先,制作模型训练的样本数据集,在制作过程中通过收集并扫描各版面类型的纸质档案,并在扫描的档案图像上标注对应类别的映射标签,其中,样本数据集中至少包含与标题类、表格类和图片类标签相对应的档案图片类别;然后,利用PubLayNet数据集对语义分割网络模型进行预训练,并利用制作的样本数据集对预训练后的语义分割网络模型参数进行微调。
[0014]作为本专利技术数字化档案表格转换方法,进一步地,针对表格类版面的档案图像,提取表格结构的过程包含如下内容:针对表格类版面的档案图像,首先裁剪出仅包含表格内容的图片;然后,将裁剪得到仅包含表格内容的图片输入至已训练的表格识别网络,利用该表格识别网络来提取出图片中的表格结构及表格中单元格坐标。
[0015]作为本专利技术数字化档案表格转换方法,进一步地,所述表格识别网络包含:用于将输入图像分块编码成特征向量的编码器,及用于将特征向量解码成表格标签的解码器,且解码器基于Attention和门控循环单元GRU实现,其中,表格识别网络目标函数表示为:其中,表示输出向量时间片t的预测值,W
T
表示编码器特征向量,s
t
表示解码器中单向门控循环单元GRU第t个时间片的输入特征。
[0016]作为本专利技术数字化档案表格转换方法,进一步地,针对表格类版面的档案图像,提取表格文本信息的过程包含如下内容:首先,利用文本检测算法对表格类版面的档案图像进行单行文本检测,并获取文本检测坐标和文本数据;接着,依据文本检测坐标和表格结构中单元格坐标之间的交并比和顶点距离来进行单行到多行的文字合并,将属于同一个单元格的文本拼接;然后,将合并后的文本进行排序,结合表格整体结构和表格内对应单元格识别结果来构造出预设编写规则的字符串,并生成可编辑形式的表格数据。
[0017]进一步地,本专利技术还提供一种数字化档案表格转换系统,包含:图像数据读取模块、表格版面检测模块和表格识别模块,其中,
[0018]图像数据读取模块,用于读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理至少包含:灰度化处理、污点修复及纠偏矫正;
[0019]表格版面检测模块,用于利用已训练的语义分割网络模型来识别出表格类版面的档案图像;
[0020]表格识别模块,用于针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格结构来聚合单元格文本,生成可编辑表格数据。
[0021]本专利技术的有益效果:
[0022]本专利技术将版面分析与表格识别算法串联,搭建基于深度学习的网络模型,可以有效识别档案中的表格,方便工作人员便捷操作表格类信息;因档案老化、存在涂抹点、扫描
偏斜等因素,都会影响到后续表格识别的准确率,故本案方案中将扫描文件首先进行预处理操作,更易使网络训练达到收敛效果。基于图像分割的思想,代替使用投影法进行版面分析的传统算法,在鲁棒性方面更稳定;基于深度学习提取表格结构信息,并根据HTML规则进行表格重建,实现智能化表格识别。并进一步通过制作少量档案的版面和表格数据集对预训练的网络模型进行微调,可以加快网络的训练过程,更好地应用于档案领域中的表格识别。
附图说明:
[0023]图1为实施例中档案表格转换系统结构示意图;
[0024]图2为实施例中预处理模块算法流程示意图;
[0025]图3为实施例中json格式训练标签示意;
[0026]图4为实施例中版面分析网络框架示意;
[0027]图5为实施例中版面分析模块示意;
[0028]图6为实施例中表格结构词表示意;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字化档案表格转换方法,其特征在于,包含如下内容:读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理至少包含:灰度化处理、污点修复及纠偏矫正;利用已训练的语义分割网络模型来识别出表格类版面的档案图像;针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格结构来聚合单元格文本,生成可编辑表格数据。2.根据权利要求1所述的数字化档案表格转换方法,其特征在于,对档案图像进行预处理中,首先对读取的档案图像进行灰度化处理;接着,通过二值化阈值来得到待修复污点区域,对待修复污点区域进行膨胀处理后,利用快速行进修复方法对污点进行修复;然后,通过边缘检测定位档案图像边缘信息,通过霍夫变换检测档案图像中直线,利用直线倾斜角度来对档案图片倾斜角度进行纠偏矫正。3.根据权利要求1或2所述的数字化档案表格转换方法,其特征在于,污点修复过程包含如下内容:首先,选取污点修复区域边缘上的像素点c,以该像素点c为中心向周围选取邻域,并根据给定的b点像素及其梯度值来计算像素点c在内部区域b点方向的一阶导数;接着,根据邻域差别、距离参数、水平集参数及权重函数参数来更新新的c点像素值;然后,逐步收缩待修复区域边界并更新区域边界上的像素值,直至完成整个待修复区域的污点修复。4.根据权利要求1或2所述的数字化档案表格转换方法,其特征在于,纠偏矫正过程包含如下内容:首先,利用canny边缘检测算法来定位出档案图像的边缘信息;接着,通过霍夫变换将档案图像所在空间的直线转换成霍夫空间上的点,通过寻找在霍夫空间中参数最大重叠点对应的角度来获取档案图像的倾斜角度;然后,依据该倾斜角度通过对档案图像进行旋转来实现档案图像的纠偏矫正。5.根据权利要求1所述的数字化档案表格转换方法,其特征在于,所述语义分割网络模型采用PP

YOLOv2_r50vd网络结构,在该网络结构中,利用卷积层和特征金字塔对输入的数据进行特征提取和融合处理,并利用全连接层进行特征分类。6.根据权利要求1或4所述的数字化档案表格转换方法,其特征在于,语义分割网络模型在训练过程中,首先,制作模型训练的样本数据集,在制作过程中通过收集并扫描各版面类型的纸质档案,并在扫描的档案图像上标注对应类别...

【专利技术属性】
技术研发人员:周兵白世清王俊淇王培森李凯江李世华
申请(专利权)人:河南郑大道可信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1