一种基于档案文件数字化处理方法技术

技术编号：31980839 阅读：12 留言：0更新日期：2022-01-20 01:37

本发明专利技术公开了一种基于档案文件数字化的处理方法，该方法按照表格轮廓截取所述待提取图像的局部图像，采用根据CTPN网络模型进行文本定位，采用CRNN神经网络模型提取所述局部图像中的字符，将所述字符填充至表格中，获得电子化表格，并对电子化表格进行ETL处理，建立数据仓库，提升了纸质档案信息的利用率和管理效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于档案文件数字化处理方法

：
[0001]本专利技术属于档案文件电子化，尤其涉及一种基于档案文件数字化处理方法。

技术介绍
：
[0002]目前，纸质档案数字化的主要任务可以分为文本定位与字符识别两部分。正确定位文本位置是识别任务的前提，但纸质档案资料中数据的位置不固定，分布也不均匀，无法根据固定位置进行提取。且文本目标较小，字符间存在空隙，边缘也不明显，很容易出现漏提、误提的情况。同时，字符识别任务可分为手写字识别和印刷字识别，手写字符识别又可分为联机识别与脱机识别。手写字符受每个人的用笔方式，书写习惯，文化背景等因素的影响，书写的字符差异较大，较难识别。脱机识别是指将纸质文字信息通过扫描仪等扫描仪器转换为图片信息进行快速识别，大多用于工整清晰的印刷体字符识别。纸质档案数字化属于脱机识别，但手写字符的复杂性加大了识别的难度。如何提高纸质档案的识别效率，实现档案的数字化管理成为了亟待解决的问题。

技术实现思路

[0003]针对目前现有的纸质档案利用率低，手写字符的复杂性加大了识别的难度的问题。本专利技术提出了，按照表格轮廓截取所述待提取图像的局部图像，采用根据CTPN网络模型进行文本定位，采用CRNN神经网络模型提取所述局部图像中的字符，将所述字符填充至表格中，获得电子化表格，并对电子化表格进行ETL处理，建立数据仓库，提升了纸质档案信息的利用率和管理效率。
[0004]本专利技术为解决以上技术问题所采取的技术方案是：该方法包括：
[0005]S1、使用第一设备采集纸质档案图像，对所...

【技术保护点】

【技术特征摘要】
1.一种基于档案文件数字化处理方法，其特征在于，包括以下步骤：S1、使用第一设备采集纸质档案图像，对所述档案图像进行预处理得到待提取图像，S2、对待提取图像分别进行N*1，1*N的腐蚀膨胀操作，融合后获得所述待提取图像中的表格，S3、按照表格轮廓截取所述待提取图像的局部图像，采用根据CTPN网络模型进行文本定位，采用CRNN神经网络模型提取所述局部图像中的字符，将所述字符填充至表格中，获得电子化表格，S4、将所述电子化表格与纸质档案图像关联保存，S5、将所述电子化表格发送到ETL作业执行请求作业调度节点，S6、作业调度节点获取所述电子化表格ETL作业的元数据信息，S7、判断所述电子化的表格ETL作业是否需要进行数据划分，如果不需要，则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行，否则作业调度节点收集所有可用计算节点的信息，按照负载信息计算所述电子化表格ETL作业的划分方案；S8、根据所述划分方案，向所选中的N个计算节点发送执行消息；等待所述N个计算节点执行所分配到的任务，并返回执行完毕消息；S9、合并所述划分方案计算结果；S10、将所述计算结果以及纸质档案图像关联保存至目标数据库。2.根据权利要求1所述基于档案文件数字化处理方法，其特征在于：所述使用第一设备采集纸质档案图像，对所述档案图像进行预处理得到待提取图像，包括：第一设备为扫描仪或照相机，所述预处理包括降噪滤波，角度矫正，二值化。3.根据权利要求2所述的基于档案文件数字化处理方法，其特征在于：所述降噪滤波为双边滤波模型：原始纸质档案图像为F，滤波后图像为双边滤波模型：原始纸质档案图像为F，滤波后图像为其中F(i，j)为领域像素点(i，j)的灰度值，Z为滤波器尺寸，滤波领域大小为(Z+1)*(Z+1)，W(a，b，i，j)为滤波器权重系数；U(a，b，i，j)为空域核函数，R(a...

【专利技术属性】
技术研发人员：刘颖，李帅，
申请(专利权)人：钧宏科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人