本发明专利技术公开了一种基于OCR的论文封皮自动识别系统,模板设计模块,设计封皮模板并提供信息给模块;图像处理模块,通过OCR对图像进行彩色二值化、去黑边、纠偏处理;字符数据采集模块,利用OCR提取封皮字的信息,为定位区域找到对应的题录信息提供数据支持;数据定位模块,将所述字符数据采集模块采集到的字信息进行加工处理,使字信息成为题录项对应的题录信息;重识别模块,重新识别字符数据采集模块过滤掉的题录信息,该题录信息包含标点符号和空格;数据整理模块,过滤并整合题录信息。本发明专利技术通过上述六大模块可以达到自动在封皮上找到所需要的信息,达到了自动化处理要求,这样解放了人力,提高了工作效率。
【技术实现步骤摘要】
本专利技术涉及OCR
,尤其涉及一种基于OCR的论文封皮自动识别系统及方法。
技术介绍
现有论文扫描之后要放到网上,封皮上包含的信息,比如说论文题目,作者姓名,导师姓名等信息要录入数据库,方便用户检索。现有的技术是通过人工把封皮的信息录入数据库,缺点是耗费了很大的人力,而且随着人的疲劳,准确率会有所下降。因此急需一种封皮的自动识别方法把人们从这种繁琐的工作中解放出来。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种基于OCR的论文封皮自动识别系统及方法,所述系统及方法解决了封皮信息自动识别问题。本专利技术的目的通过以下的技术方案来实现:一种基于OCR的论文封皮自动识别系统,包括:模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重识别模块和数据整理模块;所述模板设计模块,设计封皮模板并提供信息给模块;图像处理模块,通过OCR对图像进行彩色二值化、去黑边、纠偏处理;字符数据采集模块,利用OCR提取封皮字的信息,为定位区域找到对应的题录信息提供数据支持;数据定位模块,将所述字符数据采集模块采集到的字信息进行加工处理,使字信息成为题录项对应的题录信息;重识别模块,重新识别字符数据采集模块过滤掉的题录信息,该题录信息包含标点符号和空格;数据整理模块,过滤并整合题录信息一种基于OCR的论文封皮自动识别方法,包括:制作设计模板;通过OCR对设计模板进行彩色二值化、去黑边、纠偏处理;利用OCR提取封皮字的信息,为定位区域找到对应的题录信息提供数据支持;将采集到的字信息进行加工处理,使字信息成为题录项对应的题录信息;重新识别字符数据采集模块过滤掉的题录信息,该题录信息包含标点符号和空格;过滤并整合题录信息。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:封皮图像预处理模块和封皮字符数据采集模块可以最大程度提高OCR的准确性;封皮信息定位模块可以让算法自动找到所需信息对应的区域;封皮的重识别模块和封皮整理模块可以对入库前信息做最后调整,过滤不需要的入库信息,如导师的职称,也可以添加必要的信息,如原来屏蔽的标点符号。上述模块结合封皮模板设计模块给出的信息,才能正确处理。通过这六大模块可以达到自动在封皮上找到所需要的信息,达到了自动化处理要求,这样解放了人力,提高了工作效率。附图说明图1是基于OCR的论文封皮自动识别系统结构图;图2a和2b是封皮的结构示意图;图3是封皮模板图;图4a和4b是二值化图对比图;图5是彩色封皮直方图;图6a、6b、6c和6d为不同封皮的INFO区域;图7是线性INFO区域图;图8a、8b、8c和8d是不同封皮的TITLE区域图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。如图1所示,为基于OCR的论文封皮自动识别系统结构,包括:模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重识别模块和数据整理模块;所述模板设计模块,设计封皮模板并提供信息给模块;图像处理模块,通过OCR对图像进行彩色二值化、去黑边、纠偏处理;字符数据采集模块,利用OCR提取封皮字的信息,为定位区域找到对应的题录信息提供数据支持;数据定位模块,将所述字符数据采集模块采集到的字信息进行加工处理,使字信息成为题录项对应的题录信息;重识别模块,重新识别字符数据采集模块过滤掉的题录信息,该题录信息包含标点符号和空格;数据整理模块,过滤并整合题录信息。上述模板的设计制作,分为五层结构XML格式,如图3封皮模板:第一层<Template>上层节点:顶层节点上层包含本层节点个数:1个本层节点意义:代表一所学校属性:无属性设置:无第二层<School>上层节点:<Template>上层包含本层节点个数:多个本层节点意义:具体确定出题录项数据库和图片的对应属性:name,year,level属性设置:name为学校名字如:济南大学;year为学位年度如2015;level为论文级别如硕士。第三层<Property>上层节点:<School>上层包含本层节点个数:1个本层节点意义:二值化算法选择,OCR读入图像方式选择,Info区域类型选择属性:imageProcess,colorParm1,colorParm2,colorParm3,Line属性设置:colorParm1,colorParm2,colorParm3判断用哪种方法二值化,具体可以在图像处理模块查询。colorParm1=colorParm2=colorParm3=0字黑,底亮(默认)优先选择colorParm1=colorParm2=colorParm3=1字深,底亮colorParm1,colorParm2,colorParm3字深,底深三个参数代表RGB固定阈值,可以取不同的值,分割需要人工测试并手工添加。imageProcess代表OCR读入图像方式,如果是0说明OCR读入原图。如果选1说明OCR读入方式为二值图。优先选0。Line表示Info区域的类型,如果是0为INFO区域定位,如果是1为线性INFO区域定位,可以参考(图6a、6b、6c和6d为INFO区域,图7为线性INFO区域)。第三层<Page>上层节点:<School>上层包含本层节点个数:多个本层节点意义:代表着封皮的某一页属性:num属性设置:num是为0为封一,1为封二,以此类推。第四层<Title>上层节点:<Page>上层包含本层节点个数:1个本层节点意义:Title区域(参考定位模块)属性:无属性设置:无。第五层<COLUMN>上层节点:<Title>上层包含本层节点个数:多个本层节点意义:代表着一个题录项属性:MarkName代表数据库中的题录项,FieldName代表题录项在封皮上的位置信息。属性设置:MarkName设置:和数据库中题录项完全相同。FieldName设置:为封皮上确定题录项位置的参数,和重识别的参数本文档来自技高网...
【技术保护点】
一种基于OCR的论文封皮自动识别系统,其特征在于,所述系统包括:模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重识别模块和数据整理模块;所述模板设计模块,设计封皮模板并提供信息给模块;图像处理模块,通过OCR对图像进行彩色二值化、去黑边、纠偏处理;字符数据采集模块,利用OCR提取封皮字的信息,为定位区域找到对应的题录信息提供数据支持;数据定位模块,将所述字符数据采集模块采集到的字信息进行加工处理,使字信息成为题录项对应的题录信息;重识别模块,重新识别字符数据采集模块过滤掉的题录信息,该题录信息包含标点符号和空格;数据整理模块,过滤并整合题录信息。
【技术特征摘要】
1.一种基于OCR的论文封皮自动识别系统,其特征在于,所述系统包
括:模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重
识别模块和数据整理模块;所述
模板设计模块,设计封皮模板并提供信息给模块;
图像处理模块,通过OCR对图像进行彩色二值化、去黑边、纠偏处理;
字符数据采集模块,利用OCR提取封皮字的信息,为定位区域找到对应
的题录信息提供数据支持;
数据定位模块,将所述字符数据采集模块采集到的字信息进行加工处理,
使字信息成为题录项对应的题录信息;
重识别模块,重新识别字符数据采集模块过滤掉的题录信息,该题录信
息包含标点符号和空格;
数据整理模块,过滤并整合题录信息。
2.如权利要求1所述的基于OCR的论文封皮自动识别系统,其特征在
于,所述封皮模板包含二值化信息、区域信息和重识别信息。
3.如权利要求1所述的基于OCR的论文封皮自动识别系统,其特征在
于,所述字符数据采集模块利用OCR提取封皮字的信息包括:过滤掉标点符
号,留下中文、英文和数字。
4.如权利要求1所述的基于OCR的论文封皮自动识别系统,其特征在
于,所述题录信息分为三个定位区域进行定位检测,所述三个定位区域包括
【专利技术属性】
技术研发人员:张惠斌,王长征,赵正桥,蔡彩云,刘文晓,
申请(专利权)人:山西同方知网数字出版技术有限公司,
类型:发明
国别省市:山西;14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。