一种影像档案电子资料的识别系统技术方案

技术编号：10332469 阅读：136 留言：0更新日期：2014-08-20 17:59

本发明专利技术提供一种影像档案电子资料的识别系统，包含：预处理模块、版面分析模块、信息识别模块、信息分类模块、信息校正模块、信息补录模块。本发明专利技术能够自动识别扫描图像，从中提取有用信息，并按照一定的分类规则保存到数据库中，供用户检索、查询，最大程度减少用户的工作量。本发明专利技术的识别系统，基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题，还基于自然语言理解的错误纠正方法和信息分类算法来解决字符识别率低和信息分类困难的问题，抗干扰性强，提升了识别的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种影像档案电子资料的识别系统
本专利技术涉及数据管理系统领域，特别涉及一种影像档案电子资料的识别系统。
技术介绍
现代社会中，纸质文档(例如银行票据凭证、个人信息表等等)仍然被广泛使用，对纸质文档的存储、管理及文件上的信息归类、查找都十分困难。计算机和智能手机的普及，使得通过电子方法对纸质文档进行管理成为可能，但是将纸质文档上的信息通过人工输入电子系统需要耗费大量的时间和人力；而通过智能系统自动识别票据内容还存在很多局限。诸如银行业务中，票据上的大量信息都是打印上去的印刷体的数字及中英文字符，准确提取并识别这些信息对自动票据处理有着重要作用。然而，由于票据版面的复杂性和识别要求的特殊性，在实际系统中可能会遇到各种困难:票据版面上存在印章、油墨、手写信息、背景图案等等干扰信息；另外票据上还会出现字符粘连、字体字号变化频繁、识别信息不全等问题。针对于银行系统中的兑付业务而言，其过程是将每个柜员办理的业务票据与电脑中存储的流水信息进行比对，以检查操作员是否进行了误操作；如果票据内容识别错误会导致账目不平的后果。
技术实现思路
为了解决上述现有问题，本专利技术提供了一种影像档案电子资料的识别系统，实现印刷字符信息和干扰信息的分离；多字体印刷字符的自动识别；基于自然语言理解方法进行错误校正、识别结果分类与信息提取，从而提高识别效率和准确性。本专利技术的技术方案是提供一种影像档案电子资料的识别系统，其包含: 信息识别模块，对图像中的信息进行识别；信息分类模块，将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项，为每个信息项构建相应的查找表...

【技术保护点】
一种影像档案电子资料的识别系统，其特征在于，包含：信息识别模块，对图像中的信息进行识别；信息分类模块，将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项，为每个信息项构建相应的查找表，并对信息项的关联信息进行记录；信息校正模块，基于信息分类结果及其查找表和信息项关联信息，对识别出的信息进行校正；所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息，构成与该图像对应的电子档案存入至数据库中，供接入的用户终端或外部系统进行查询或分析处理。

【技术特征摘要】
1.一种影像档案电子资料的识别系统，其特征在于，包含: 信息识别模块，对图像中的信息进行识别；信息分类模块，将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项，为每个信息项构建相应的查找表，并对信息项的关联信息进行记录；信息校正模块，基于信息分类结果及其查找表和信息项关联信息，对识别出的信息进行校正；所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息，构成与该图像对应的电子档案存入至数据库中，供接入的用户终端或外部系统进行查询或分析处理。2.如权利要求1所述的识别系统，其特征在于，所述识别系统进一步设置有索引生成器，将图像与其电子档案的匹配关系记录在索引信息中；用户终端或外部系统通过检索所述索引信息或其组合，从图像存储器中查询相应的图像。3.如权利要求2所述的识别系统，其特征在于，所述索引信息是文字、图形或语音格式；所述索引信息也存入与图像对应的电子档案中。4.如权利要求3所述的识别系统，其特征在于，所述识别系统进一步设置有图像存储器至信息校正模块的传输接口，以便从图像存储器中调取保存的图像，供信息校正时与识别出的信息进行比对。5.如权利要求1所述的识别系统，其特征在于，所述识别系统进一步设置有与信息校正模块信号连接的信息补录模块，提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持。6....

【专利技术属性】
技术研发人员：林珉，
申请(专利权)人：上海珉智信息科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人