当前位置: 首页 > 专利查询>王冬井专利>正文

基于人工智能的纸质档案数字化加工需求分析方法技术

技术编号:26378120 阅读:34 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供了一种基于人工智能的纸质档案数字化加工需求分析方法,该方法包括:对纸质档案进行RFID识别获取纸质档案的保密等级,将保密等级较高的纸质档案扫描成档案图像,利用神经网络对档案图像进行分析,得到纸质档案的纸质类别、判断档案内手写内容所使用的字迹材料是否属于不耐久字迹材料,进行字迹褪变难易程度的分析,再结合档案的保密等级,判断纸质档案是否需要进行数字化加工;本发明专利技术的分析结果客观、准确,不受人的主观因素的影响,可避免因工作人员的误判造成档案馆的损失,解决了人工判断效率低下、精度不高等问题。

【技术实现步骤摘要】
基于人工智能的纸质档案数字化加工需求分析方法
本专利技术涉及人工智能领域,尤其是一种基于人工智能的纸质档案数字化加工需求分析方法。
技术介绍
目前纸质档案的数字化是对所有馆藏档案均进行数字化加工,并未考虑到纸质档案的加工需求。对于保密等级较高的纸质档案,采用电子档案形式保存会存在安全性不足的问题,因此有必要对纸质档案进行数字化加工需求分析。目前对于保密等级较高的纸质档案是否需要数字化的判断通常由档案馆工作人员人工完成,而人工作业存在效率低下、精度不够等问题。
技术实现思路
为了解决上述问题,本专利技术提出一种基于人工智能的纸质档案数字化加工需求分析方法,该方法包括:步骤一,对需要进行数字化加工需求分析的纸质档案进行RFID识别,得知纸质档案对应的保密等级,包括秘密、机密、绝密三个等级;步骤二,对于保密等级为秘密的纸质档案,直接判断为需要进行数字化加工,对于保密等级为机密或绝密的纸质档案,利用扫描仪对纸质档案进行扫描获取档案图像;步骤三,将得到的档案图像送入语义分割网络和纸质分类网络,分别进行语义分割处理和分类处理,得到纸质档案中是否存在不耐久字迹以及档案的纸质类别;其中,不耐久字迹包括铅笔字迹、彩色墨水字迹;所述纸质包括新闻纸、凸版印刷纸、书写纸以及复印纸;步骤四,对于保密等级为机密或绝密的纸质档案,根据语义分割网络和纸质分类网络输出的结果进行字迹褪变难易程度分析,得到纸质档案的数字化加工需求,具体地:当纸质档案的纸质为新闻纸、书写纸,且档案内至少存在一种不耐久字迹,判断该档案为字迹易褪变,需要数字化加工;若档案内不存在不耐久字迹,判断该档案为字迹不易褪变,不需要数字化加工;当档案的纸质为凸版印刷纸、复印纸,且档案内至少存在一种不耐久字迹,判断该档案为字迹不易褪变,不需要数字化加工;若档案内不存在不耐久字迹,判断该档案为字迹难以褪变,不需要数字化加工。进行RFID识别需要为纸质档案配置RFID标签,且要有RFID识别设备。语义分割网络包括第一编码器和第一解码器,其中,第一编码器对输入图像进行特征提取,得到第一特征图,第一解码器对第一特征图进行上采样得到与输入图像等大的语义分割图,语义分割图用于分割不耐久字迹。纸质分类网络包括第二编码器和全连接层,其中,第二编码器对输入图像进行特征提取,得到第二特征图,第二特征图经过拍平操作后送入全连接层,经过处理后得到纸质的类别。本专利技术的有益效果在于:1.本专利技术利用神经网络对纸质档案的数字化加工需求进行分析,其分析结果客观、准确,不受人的主观因素的影响,可避免因工作人员的误判造成档案馆的损失,解决了人工判断效率低下、精度不高等问题。2.该方法结合纸质档案的纸质类别和档案内书写字体所使用的字迹材料对档案的数字化加工需求进行分析,得到纸质档案内书写字体的褪变难易程度,网络结构简单,运算速度快。3.使用该方法对纸质档案数字化加工需求进行分析可以针对性的对纸质档案进行数字化加工,保证了部分保密等级较高的纸质档案的安全性问题。附图说明图1为本专利技术实施流程图。具体实施方式为了让本领域技术人员更好的理解本专利技术,下面结合实施例和附图对本专利技术进行进一步描述,参见图1。对于保密等级较高的纸质档案,以电子档案形式再次保存会导致档案的安全性降低,因此仅对其中字迹易褪变的纸质档案进行数字化加工,可保证一定部分的纸质档案拥有较高的保密性。所以本专利技术提出了一种对纸质档案数字化加工需求进行分析的方法,具体地,首先结合RFID信息得到纸质档案的保密等级。将保密等级较高的纸质档案利用扫描仪扫描为图像;将得到的图像送入两个分支,一个分支对纸质进行感知,另一个分支对图像以滑块的形式截取等大的小块图像,判断图像中是否包括不耐久的字迹材料;结合档案的保密等级和两个分支的结果对纸质档案的数字化需求进行分析。本专利技术需要在档案馆内配置RFID(无线射频识别)设备。RFID技术目前已广泛应用于档案馆中,具体形式为在纸质档案上配置RFID标签,以及馆内有RFID识别设备,包括手持RFID识别仪,可移动RFID识别车等。该技术为公知技术,不属于本专利技术保护范围。本专利技术仅需对RFID标签内的信息稍作修改,即添加档案的保密等级信息;且根据《档案著录规则》的规定,档案的著录项目应包含有密级与保管期限项,因此保密等级的获得与添加至RFID标签都是易得的。实现本专利技术档案馆内还需要配置纸质档案扫描仪,同样,扫描仪也已广泛应用于档案馆内,不在本专利技术讨论范围内。扫描仪的仪器类型实施者可根据实际情况自行选择。扫描仪在本专利技术中的作用仅为将纸质档案扫描为图像信息,所选择的扫描仪应至少具备该功能。实施例:一种基于人工智能的纸质档案数字化加工需求分析方法,其实施流程如图1所示,该方法包括:对需要进行数字化加工需求分析的纸质档案进行RFID识别,得知纸质档案对应的保密等级,实施例中档案保密等级分为绝密、机密、秘密三个等级,不同等级对应不同的访问权限;所述档案为包括手写笔迹的档案。对于保密等级为秘密的纸质档案,直接判断为需要进行数字化加工,对于保密等级为机密和绝密的纸质档案,利用扫描仪对纸质档案进行扫描获取RGB档案图像,其中,扫描仪所得图像张数应与档案页码数一致,以防止漏扫等情况。将得到的档案图像分别送入语义分割网络和纸质分类网络,进行语义分割处理和分类处理,得到纸质档案中是否存在不耐久字迹以及档案的纸质类别;其中,不耐久字迹包括铅笔字迹、彩色墨水字迹;纸质包括新闻纸、凸版印刷纸、书写纸(稿纸)以及复印纸;具体地:语义分割网络的训练细节为:以扫描仪扫描所得的多张档案图像作为训练数据集,所述档案内至少包括一种不耐久字迹;对像素类别进行标注,类别为三类,分别为铅笔字迹、彩色墨水字迹及无关项。无关项类别索引为0,铅笔字迹类别索引为1,彩色墨水字迹类别索引为2,标注数据应经过独热编码。通过训练数据集中的图像和标注数据,端到端的训练第一编码器和第一解码器,第一编码器对输入图像进行特征提取,得到第一特征图,第一解码器对第一特征图进行上采样得到与输入图像等大的语义分割图。采用交叉熵损失函数对语义分割网络进行训练。其中,语义分割图用于分割不耐久字迹。纸质分类网络的训练细节为:以扫描仪扫描所得的多张档案图像作为训练数据集,其中档案纸质要包括新闻纸、凸版印刷纸、书写纸(稿纸)和复印纸四类情况;根据上述纸质的四个类别对图像标注,新闻纸纸质类别索引为0,凸版印刷纸纸质类别索引为1,书写纸(稿纸)纸质类别索引为2,复印纸纸质类别索引为3,标注数据应经过独热编码。通过训练数据集中的图像和标注数据,端到端的训练第二编码器和全连接层,第二编码器对输入图像进行特征提取,得到第二特征图,第二特征图经过拍平操作后送入全连接层,经过softmax函数后得到经过独热编码的图像的类别。采用交叉熵损失函数对纸质分类网络进行训练。其中,本文档来自技高网...

【技术保护点】
1.一种基于人工智能的纸质档案数字化加工需求分析方法,其特征在于,该方法包括:/n步骤一,对需要进行数字化加工需求分析的纸质档案进行RFID识别,得知纸质档案对应的保密等级,包括秘密、机密、绝密三个等级;/n步骤二,对于保密等级为秘密的纸质档案,直接判断为需要进行数字化加工,对于保密等级为机密或绝密的纸质档案,利用扫描仪对纸质档案进行扫描获取档案图像;/n步骤三,将得到的档案图像送入语义分割网络和纸质分类网络,分别进行语义分割处理和分类处理,得到纸质档案中是否存在不耐久字迹以及档案的纸质类别;其中,不耐久字迹包括铅笔字迹、彩色墨水字迹;所述纸质包括新闻纸、凸版印刷纸、书写纸以及复印纸;/n步骤四,对于保密等级为机密或绝密的纸质档案,根据语义分割网络和纸质分类网络输出的结果进行字迹褪变难易程度分析,得到纸质档案的数字化加工需求,具体地:/n当纸质档案的纸质为新闻纸、书写纸,且档案内至少存在一种不耐久字迹,判断该档案为字迹易褪变,需要数字化加工;若档案内不存在不耐久字迹,判断该档案为字迹不易褪变,不需要数字化加工;/n当档案的纸质为凸版印刷纸、复印纸,且档案内至少存在一种不耐久字迹,判断该档案为字迹不易褪变,不需要数字化加工;若档案内不存在不耐久字迹,判断该档案为字迹难以褪变,不需要数字化加工。/n...

【技术特征摘要】
1.一种基于人工智能的纸质档案数字化加工需求分析方法,其特征在于,该方法包括:
步骤一,对需要进行数字化加工需求分析的纸质档案进行RFID识别,得知纸质档案对应的保密等级,包括秘密、机密、绝密三个等级;
步骤二,对于保密等级为秘密的纸质档案,直接判断为需要进行数字化加工,对于保密等级为机密或绝密的纸质档案,利用扫描仪对纸质档案进行扫描获取档案图像;
步骤三,将得到的档案图像送入语义分割网络和纸质分类网络,分别进行语义分割处理和分类处理,得到纸质档案中是否存在不耐久字迹以及档案的纸质类别;其中,不耐久字迹包括铅笔字迹、彩色墨水字迹;所述纸质包括新闻纸、凸版印刷纸、书写纸以及复印纸;
步骤四,对于保密等级为机密或绝密的纸质档案,根据语义分割网络和纸质分类网络输出的结果进行字迹褪变难易程度分析,得到纸质档案的数字化加工需求,具体地:
当纸质档案的纸质为新闻纸、书写纸,且档案内至少存在一种不耐久字迹,判断该档案为字迹易褪变,需要数字化加工...

【专利技术属性】
技术研发人员:王冬井黄莎莎
申请(专利权)人:王冬井
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1