本发明专利技术涉及一种多语种倾斜文档图像的自动语言判别方法,其技术特点是包括以下步骤:对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能。本发明专利技术设计合理,其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能,并且通过分块投票方式保证了方法的鲁棒性,提高了识别的准确率,准确率满足了实际应用的需求。
【技术实现步骤摘要】
本专利技术属于信息
,尤其是一种多语种倾斜文档图像的自动语言判别方法。
技术介绍
光学字符识别(简称OCR)技术已经被广泛地应用于文档图像的数字化工作,其作用是将通过照相机拍摄或扫描仪扫描得到的文档图像转化为可编辑、可搜索的电子文档。随着国际化程度的不断提高,具有多种语言的文档图像往往混杂在一起。目前的OCR技术多是针对某种特定语言的文档图像进行处理,根据人为指定的语言对文档图像进行版面分析和文字识别、将其转化为可编辑和可搜索的电子文档。通过文档图像自动语言判别方法,可以自动将待做OCR处理的文档图像按语言分类,根据语言判别结果将文档图像送入不同的OCR引擎或使用不同的语言选项进行处理,从而减少人工干预、降低人工成本。由于某些语言使用的字符结构相似,以及图像采集过程中经常遇到的噪音多、分辨率不高等问题,难以设计出一种能够满足实际应用需要的具有高准确率的文档图像自动语言判别方法。目前,在文档图像自动语言判别方法的研究工作中,主要是利用纹理特征和文字形状特征来做语言判别,其存在的主要问题是:(1)纹理特征对于字形相似的语言难以达到实用的效果,如英/德/法语言判别等;(2)对于字形差异较大的语言,使用单一语言区域的纹理特征也会造成判别结果不稳定、准确率偏低等问题;(3)与纹理特征相比,文字形状特征更适用于区分文字结构相似的语言,但在分辨率不高的情况下利用文字形状特征也难以达到满足实际应用需要的准确率;(4)待处理文档图像可能存在倾斜等问题,而对于不同语种的文档图像需要应用不同的倾斜校正方法,如由于字符结构差异较大、中文文档图像和英文文档图像的倾斜校正方法完全不同。另外,不同语种文档图像的文字切分方法也完全不同。因此,在未知语种的情况下无法在文档图像中提取正确的文字形状特征、从而使基于文字形状特征的自动语言判别方法失效。综上所述,现有的文档图像自动语言判别方法虽然取得了一定的效果,但由于某些语言文字在纹理和形状上都非常相似,以及图像采集过程中引入的噪音多、分辨率不高、倾斜等问题,其准确率难以满足实际应用的需求。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种设计合理、准确率高且适应性强的多语种倾斜文档图像的自动语言判别方法。本专利技术解决其技术问题是采取以下技术方案实现的:一种多语种倾斜文档图像的自动语言判别方法,包括以下步骤:步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;步骤2、针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能。进一步,所述步骤1的具体实现方法包括以下步骤:(1)对采集的文档图像使用数学形态学的方法进行滤噪处理;(2)对于存在倾斜的文档图像,从中选取适合于做自动语言判别的一定数量的文字区域;(3)对选出的每个文字区域分别做Gabor滤波,并根据提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别;(4)对每个文字区域的自动语种判别结果进行投票,取投票数最多的语种作为整个文档图像的语种判别结果,从而将输入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。进一步,所述步骤(1)对采集的文档图像使用数学形态学的方法进行滤噪处理是采用腐蚀及膨胀算法实现的。进一步,所述步骤(3)的具体方法为:首先对于选出的文字区域图像生成不同尺度、多个方向的Gabor图像;然后生成得到Gabor幅值图像并对Gabor幅值图像进行向下采样;最后,根据提取到的Gabor特征利用文字区域训练样本进行分类器学习,对待作语种判别的文字区域图像进行分类,将每一文字区域分为亚洲语种或拉丁语种。进一步,所述步骤2的具体实现方法包括以下步骤:(1)根据自动判别得到的语种对文档图像进行倾斜校正及文字切分处理;(2)从文字切分结果中取出最符合文字特点的若干块文字图像;(3)根据自动判别得到的语种对每一块切分出来的文字图像或单词图像利用分类器进行识别,根据识别结果对每一块文字图像或单词图像的语言进行自动判别;(4)对文字图像或单词图像的自动语言判别结果进行投票,取投票数最多的语言作为整幅文档图像的语言判别结果。进一步,所述步骤(1)的文字切分处理方法为:在校正的文档图像上使用适用于不同语种的文字切分方法,得到文字切分结果:对于亚洲语种文档图像,通过文字切分得到多个候选字符;对于拉丁语种文档图像,通过文字切分得到多个候选单词。进一步,所述步骤(2)的具体方法为:对于亚洲语种文档图像,首先将候选字符按高度计算直方图,选取高度在直方图峰值附近的字符,以滤除噪音、减少其对判别结果的影响;然后,对选取的字符按宽高比减一的绝对值进行升序排序,保留前面字符进行后继分析;对于拉丁语种文档图像,按照候选单词的长度降序排列,保留前面一定数量的单词进行后继分析。进一步,所述步骤(3)的具体方法为:对于亚洲语种文档图像,将第(2)步保留下来的一定数量的字符图像送入亚洲文字图像分类器进行字符识别,每个字符的识别结果包括中文、日文或韩文,保留识别可信度最高的前面一定数量的字符进行语言判别投票;对于拉丁语种文档图像,将第(2)步保留下来的一定数量的单词进行字符切分和识别,保留通过语言词库匹配且可信度最高的前面一定数量的单词进行语言判别投票本专利技术的优点和积极效果是:本专利技术设计合理,其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能,并且通过分块投票方式保证了方法的鲁棒性,提高了识别的准确率,准确率满足了实际应用的需求,解决了倾斜情况下中、日、韩、英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等语言文档图像的自动语言判别问题。附图说明图1是本专利技术的系统框架图;图2是文档图像自动语种判别流程图;图3是同语种文档图像自动语言判别流程图;图4是拉丁语种文档图像的语言判别实验结果示意图。具体实施方式以下结合附图对本专利技术实施例做进一步详述:一种多语种倾斜文档图像的自动语言判别方法,如图1所示,包括以下步骤:步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种(包括中、日、韩)文本文档来自技高网...
【技术保护点】
一种多语种倾斜文档图像的自动语言判别方法,其特征在于包括以下步骤:步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;步骤2、针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能。
【技术特征摘要】
1.一种多语种倾斜文档图像的自动语言判别方法,其特征在于包括以下
步骤:
步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的
自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;
步骤2、针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后
的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语
言的自动判别,从而实现文档图像的语言自动判别功能。
2.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方
法,其特征在于:所述步骤1的具体实现方法包括以下步骤:
(1)对采集的文档图像使用数学形态学的方法进行滤噪处理;
(2)对于存在倾斜的文档图像,从中选取适合于做自动语言判别的一定
数量的文字区域;
(3)对选出的每个文字区域分别做Gabor滤波,并根据提取到的Gabor
特征、应用分类器对每个文字区域的语种进行自动判别;
(4)对每个文字区域的自动语种判别结果进行投票,取投票数最多的语
种作为整个文档图像的语种判别结果,从而将输入的文档图像分为亚洲语种文
档图像和拉丁语种文档图像两大类。
3.根据权利要求2所述的一种多语种倾斜文档图像的自动语言判别方
法,其特征在于:所述步骤(1)对采集的文档图像使用数学形态学的方法进
行滤噪处理是采用腐蚀及膨胀算法实现的。
4.根据权利要求2所述的一种多语种倾斜文档图像的自动语言判别方
法,其特征在于:所述步骤(3)的具体方法为:首先对于选出的文字区域图
像生成不同尺度、多个方向的Gabor图像;然后生成得到Gabor幅值图像并对
Gabor幅值图像进行向下采样;最后,根据提取到的Gabor特征利用文字区域
训练样本进行分类器学习,对待作语种判别的文字区域图像进行分类,将每一
文字区域分为亚洲语种或拉丁语种。
5.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方
\t法,...
【专利技术属性】
技术研发人员:王恺,
申请(专利权)人:南开大学,天津神州浩天科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。