本发明专利技术提供一种影像档案电子资料的识别系统,包含:预处理模块、版面分析模块、信息识别模块、信息分类模块、信息校正模块、信息补录模块。本发明专利技术能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本发明专利技术的识别系统,基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,还基于自然语言理解的错误纠正方法和信息分类算法来解决字符识别率低和信息分类困难的问题,抗干扰性强,提升了识别的效率和准确性。
【技术实现步骤摘要】
一种影像档案电子资料的识别系统
本专利技术涉及数据管理系统领域,特别涉及一种影像档案电子资料的识别系统。
技术介绍
现代社会中,纸质文档(例如银行票据凭证、个人信息表等等)仍然被广泛使用,对纸质文档的存储、管理及文件上的信息归类、查找都十分困难。计算机和智能手机的普及,使得通过电子方法对纸质文档进行管理成为可能,但是将纸质文档上的信息通过人工输入电子系统需要耗费大量的时间和人力;而通过智能系统自动识别票据内容还存在很多局限。诸如银行业务中,票据上的大量信息都是打印上去的印刷体的数字及中英文字符,准确提取并识别这些信息对自动票据处理有着重要作用。然而,由于票据版面的复杂性和识别要求的特殊性,在实际系统中可能会遇到各种困难:票据版面上存在印章、油墨、手写信息、背景图案等等干扰信息;另外票据上还会出现字符粘连、字体字号变化频繁、识别信息不全等问题。针对于银行系统中的兑付业务而言,其过程是将每个柜员办理的业务票据与电脑中存储的流水信息进行比对,以检查操作员是否进行了误操作;如果票据内容识别错误会导致账目不平的后果。
技术实现思路
为了解决上述现有问题,本专利技术提供了一种影像档案电子资料的识别系统,实现印刷字符信息和干扰信息的分离;多字体印刷字符的自动识别;基于自然语言理解方法进行错误校正、识别结果分类与信息提取,从而提高识别效率和准确性。本专利技术的技术方案是提供一种影像档案电子资料的识别系统,其包含: 信息识别模块,对图像中的信息进行识别; 信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录; 信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正; 所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。可选地,所述识别系统进一步设置有索引生成器,将图像与其电子档案的匹配关系记录在索引信息中;用户终端或外部系统通过检索所述索引信息或其组合,从图像存储器中查询相应的图像。可选地,所述索引信息是文字、图形或语音格式;所述索引信息也存入与图像对应的电子档案中。可选地,所述识别系统进一步设置有图像存储器至信息校正模块的传输接口,以便从图像存储器中调取保存的图像,供信息校正时与识别出的信息进行比对。可选地,所述识别系统进一步设置有与信息校正模块信号连接的信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持。可选地,所述识别系统进一步设置有预处理模块,对图像进行包含二值化的预处理后,输送至识别系统中的后续模块。可选地,所述识别系统进一步设置有版面分析模块,从图像中提取出识别区域,切分出文字行,并去除干扰信息。可选地,所述版面分析模块,将图像中相邻的同颜色像素点连接形成连通体,设置阈值来排除不符合规则的连通体;再将位置相邻的若干个连通体组成连通体行后进行聚类,确定需要的识别区域。本专利技术的另一个技术方案是提供一种影像档案电子资料的识别系统,其包含: 预处理模块,对图像进行包含二值化的预处理; 版面分析模块,从预处理过的图像中提取出识别区域; 信息识别模块,对图像的识别区域进行信息识别; 信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录; 信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正; 信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持; 所述识别系统将图像上经过识别、校正、补录后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。与现有技术相比,本专利技术提供的影像档案电子资料的识别系统,其优点在于:本专利技术能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本专利技术的识别系统,基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,还基于自然语言理解的错误纠正方法和信息分类算法来解决字符识别率低和信息分类困难的问题,抗干扰性强、识别准确性高、识别效率高。【附图说明】图1是本专利技术所述影像档案电子资料的识别系统的示意图。【具体实施方式】本专利技术提供的影像档案电子资料的识别系统,对扫描纸质文档得到的图像进行信息识别,形成与该信息相匹配的电子档案存入数据库,供用户后续查询使用。如图1所示,本专利技术中通过预处理模块,对扫描获得的图像,先进行诸如旋转倾斜图像、二值化、光度对比度调节等预处理。在实际应用中,可以是将扫描仪或摄录头获取的图像直接输入本专利技术的识别系统,也可以是将获取的图像先进行缓存,识别系统再从缓存中读入图像进行预处理。本专利技术中通过版面分析模块,从图像中提取出需要进行识别的区域,切分出文字行,并去除干扰信息(例如印章、手写体、背景图案、底纹、噪音等)。一种从图像中提取识别区域的示例方式,是以图像版面内的连通体分析为基础,采用区域生长算法对连通体行进行聚类,从而确定所需的识别区域。具体地,所述连通体由版面中同颜色像素点(白像素或黑像素)连通构成:从一个像素点出发,若其相邻的4个或8个方向上有相邻的同颜色像素点,则将两者连接起来,直到找不到相邻的同颜色像素点,则将已经找到的同颜色像素点作为一个连通体。这里可以通过BAG (block adjacency graph)来寻找图像中的连通体。图像中不同特征的连通体往往混杂在一起。其中,背景纹理产生的连通体通常表现为小的点或者窄长的线,手写字产生的连通体往往形状不规则;而本专利技术中需要识别的由连续的印刷字产生的连通体,一般是比较规则的方块或者较宽的条带。因而,对连通体的长度、宽度、倾斜角度等参数设置阈值,来去掉那些明显不符合规则的连通体。之后,根据位置关系,将位置相邻的连通体组成连通体行。再对这些连通体进行聚类,确定需要的信息域。即,对于每一个连通体行Li,为它定义一个属性Pi (X, y, z,…,count),其中x、y、z表示连通体行Li本身具有的特征,比如高、宽、密度等,count用来计算与其相似并且相邻的连通体行个数。Counti定义如下:本文档来自技高网...
【技术保护点】
一种影像档案电子资料的识别系统,其特征在于,包含:信息识别模块,对图像中的信息进行识别;信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录;信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正;所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。
【技术特征摘要】
1.一种影像档案电子资料的识别系统,其特征在于,包含: 信息识别模块,对图像中的信息进行识别; 信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录; 信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正; 所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。2.如权利要求1所述的识别系统,其特征在于, 所述识别系统进一步设置有索引生成器,将图像与其电子档案的匹配关系记录在索引信息中;用户终端或外部系统通过检索所述索引信息或其组合,从图像存储器中查询相应的图像。3.如权利要求2所述的识别系统,其特征在于, 所述索引信息是文字、图形或语音格式;所述索引信息也存入与图像对应的电子档案中。4.如权利要求3所述的识别系统,其特征在于, 所述识别系统进一步设置有图像存储器至信息校正模块的传输接口,以便从图像存储器中调取保存的图像,供信息校正时与识别出的信息进行比对。5.如权利要求1所述的识别系统,其特征在于, 所述识别系统进一步设置有与信息校正模块信号连接的信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持。6....
【专利技术属性】
技术研发人员:林珉,
申请(专利权)人:上海珉智信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。