一种基于档案文件数字化处理方法技术

技术编号:31980839 阅读:12 留言:0更新日期:2022-01-20 01:37
本发明专利技术公开了一种基于档案文件数字化的处理方法,该方法按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率。率。率。

【技术实现步骤摘要】
一种基于档案文件数字化处理方法


[0001]本专利技术属于档案文件电子化,尤其涉及一种基于档案文件数字化处理方法。

技术介绍

[0002]目前,纸质档案数字化的主要任务可以分为文本定位与字符识别两部分。正确定位文本位置是识别任务的前提,但纸质档案资料中数据的位置不固定,分布也不均匀,无法根据固定位置进行提取。且文本目标较小,字符间存在空隙,边缘也不明显,很容易出现漏提、误提的情况。同时,字符识别任务可分为手写字识别和印刷字识别,手写字符识别又可分为联机识别与脱机识别。手写字符受每个人的用笔方式,书写习惯,文化背景等因素的影响,书写的字符差异较大,较难识别。脱机识别是指将纸质文字信息通过扫描仪等扫描仪器转换为图片信息进行快速识别,大多用于工整清晰的印刷体字符识别。纸质档案数字化属于脱机识别,但手写字符的复杂性加大了识别的难度。如何提高纸质档案的识别效率,实现档案的数字化管理成为了亟待解决的问题。

技术实现思路

[0003]针对目前现有的纸质档案利用率低,手写字符的复杂性加大了识别的难度的问题。本专利技术提出了,按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率。
[0004]本专利技术为解决以上技术问题所采取的技术方案是:该方法包括:
[0005]S1、使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,
[0006]S2、对待提取图像分别进行N*1,1*N的腐蚀膨胀操作,融合后获得所述待提取图像中的表格,
[0007]S3、按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,
[0008]S4、将所述电子化表格与纸质档案图像关联保存,
[0009]S5、将所述电子化表格发送到ETL作业执行请求作业调度节点,
[0010]S6、作业调度节点获取所述电子化表格ETL作业的元数据信息,
[0011]S7、判断所述电子化的表格ETL作业是否需要进行数据划分,如果不需要,则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行,否则作业调度节点收集所有可用计算节点的信息,按照负载信息计算所述电子化表格ETL作业的划分方案;
[0012]S8、根据所述划分方案,向所选中的N个计算节点发送执行消息;等待所述N个计算节点执行所分配到的任务,并返回执行完毕消息;
[0013]S9、合并所述划分方案计算结果;
[0014]S10、将所述计算结果以及纸质档案图像关联保存至目标数据库。
[0015]可选地,所述使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,包括:第一设备为扫描仪或照相机,所述预处理包括降噪滤波,角度矫正,二值化。
[0016]可选地,所述降噪滤波为双边滤波模型:原始纸质档案图像为F,滤波后图像为
[0017]其中
[0018]F(i,j)为领域像素点(i,j)的灰度值,Z为滤波器尺寸,滤波领域大小为(Z+1)*(Z+1),W(a,b,i,j)为滤波器权重系数;U(a,b,i,j)为空域核函数,R(a,b,i,j)为灰度核函数;其中ε
u
,ε
R
分别为空间邻近度因子和灰度相似度因子,F(a,b)为中心像素点(a,b)的灰度值。
[0019]可选地,所述角度矫正包括:获取扫描退图像中表格的4各顶点,设置旋转中心,旋转角度和旋转方向,连接顶点和旋转中心后,按照旋转角度和旋转方向移动顶点,获得矫正后的表格图像。
[0020]可选地,所述采用根据CTPN网络模型进行文本定位中,所述CTPN网络依次包括VGG

16特征提取网络,BLSTM网络,全连接层。
[0021]可选地,所述采用CRNN神经网络模型提取所述局部图像中的字符中,所述CRNN神经网络执行中,先用CNN自动提取图像特征,再将提取的特征送入RNN提取序列特征。
[0022]可选地,所述按照负载信息计算所述电子化表格ETL作业的划分方案中,负责信息模型为:其中Load(N)表示节点N的负载率,cpu,ram,task依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值,w
cpu
,w
ram
,w
task
依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值的权重。
[0023]可选地,所述将所述计算结果以及纸质档案图像关联保存至目标数据库中,将所述纸质档案图像保存至目标数据库中以便于后续核对。
[0024]可选地,所述计算节点为计算机或者FPGA。
[0025]本专利技术的有益效果如下:
[0026]按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率;同时,在ETL过程中,在算力和任务可拆分的条件下,并行执行ETL任务,也提高了ETL任务执行效率。
[0027]上述说明,仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术技术手段,可依照说明书的内容予以实施,并且为了让本专利技术的上述说明和其它目的、特征及优点能够更明显易懂,特举较佳实施例,详细说明如下。
附图说明
[0028]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0029]图1为基于档案文件数字化处理方法的流程图
具体实施方式
[0030]下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0031]在本专利技术的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0032]实施例1
[0033]方法包括:
[0034]S1、使用第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于档案文件数字化处理方法,其特征在于,包括以下步骤:S1、使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,S2、对待提取图像分别进行N*1,1*N的腐蚀膨胀操作,融合后获得所述待提取图像中的表格,S3、按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,S4、将所述电子化表格与纸质档案图像关联保存,S5、将所述电子化表格发送到ETL作业执行请求作业调度节点,S6、作业调度节点获取所述电子化表格ETL作业的元数据信息,S7、判断所述电子化的表格ETL作业是否需要进行数据划分,如果不需要,则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行,否则作业调度节点收集所有可用计算节点的信息,按照负载信息计算所述电子化表格ETL作业的划分方案;S8、根据所述划分方案,向所选中的N个计算节点发送执行消息;等待所述N个计算节点执行所分配到的任务,并返回执行完毕消息;S9、合并所述划分方案计算结果;S10、将所述计算结果以及纸质档案图像关联保存至目标数据库。2.根据权利要求1所述基于档案文件数字化处理方法,其特征在于:所述使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,包括:第一设备为扫描仪或照相机,所述预处理包括降噪滤波,角度矫正,二值化。3.根据权利要求2所述的基于档案文件数字化处理方法,其特征在于:所述降噪滤波为双边滤波模型:原始纸质档案图像为F,滤波后图像为双边滤波模型:原始纸质档案图像为F,滤波后图像为其中F(i,j)为领域像素点(i,j)的灰度值,Z为滤波器尺寸,滤波领域大小为(Z+1)*(Z+1),W(a,b,i,j)为滤波器权重系数;U(a,b,i,j)为空域核函数,R(a...

【专利技术属性】
技术研发人员:刘颖李帅
申请(专利权)人:钧宏科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1