一种基于SWT的多方向中文印刷体文字检测方法技术

技术编号:20486404 阅读:22 留言:0更新日期:2019-03-02 19:35
本发明专利技术提供了一种基于SWT的多方向中文印刷体文字检测方法,其首先通过二维离散傅里叶变换校正倾斜图像,然后通过水平投影直方图,快速提取首行文本区域,对于存在倾斜角度大的图像,提取文本前三行作为识别区域,避免了对整个文本的检测,提高了检测速度;同时本发明专利技术对提取完的文本行进行Canny边缘检测,最后基于改进的SWT算法,结合相关文本检测、过滤的启发式规则,检测图像是否是中文印刷体图像。由此可见,本发明专利技术通过基于改进的SWT算法,提取中文文本固有的笔画宽度特征,同时结合二维离散傅里叶变化以及设定的文本启发式规则,可以快速、准确的检测图像是否是中文印刷体图像,提高了OCR预处理阶段的文本识别检测效率。

【技术实现步骤摘要】
一种基于SWT的多方向中文印刷体文字检测方法
本专利技术属于数字图像处理
,具体涉及一种基于SWT的多方向中文印刷体文字检测方法。
技术介绍
现阶段在纸质资料数字化,文本化的大背景下,传统的纸质资料由于占空间、不便保存、查找繁琐、易丢失等缺点正被数字化的资料所取代,然而传统的数字化大量采用的是扫描方式,以图像的形式进行各种资料的存档保存。在实际应用中如何快速从大量的数字化图像文件中找出中文印刷体文本图像文件进行OCR(OpticalCharacterRecognition)识别是一个现实存在的实际需求。图像文本的检测技术目前主要有以下五种:基于边缘的方法、基于连通域的方法、基于纹理的方法、基于深度学习的方法、基于上述混合的方法;其中由BorisEpshtein等人在标题为Detectingtextinnaturalsceneswithstrokewidthtransform(ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:2963~2970)一文中提出的笔画宽度变换算法(StrokeWidthTransform,SWT)由于利用了文字特有的笔画宽度特征,因而在文本检测过程中被广泛使用。传统的SWT算法因为是以英文文字为研究对象,而中文相较英文而言,在字符笔画,结构上都更加复杂,因而在检测中文的效果上,SWT效果并不十分理想,在有倾斜的文本检测效果中,SWT算法由于一般以检测水平文本为目标,在倾斜本文的检测上,效果也较不理想。CongYao等人在标题为Detectingtextsofarbitraryorientationsinnaturalimages(ComputerVisionandPatternRecognition.IEEE,2012:1083~1090)一文中提出了一种检测自然场景下任意倾斜角度的文本,但该算法处理时间较长,不太适合在OCR预处理阶段使用。HuangW等人在标题为TextLocalizationinNaturalImagesUsingStrokeFeatureTransformandTextCovarianceDescriptors(IEEEInternationalConferenceonComputerVision.IEEE,2014:1241~1248)一文中通过在SWT算法的基础上,引入图像像素的颜色区域信息来增强文本图像的检测效果,从论文中可以发现,HuangW等人的文本图像测试集主要以ICDAR2005、ICDAR2011这两个英文测试集为主,没有针对中文文本图像检测进行处理优化。HuizhongChen等人在标题为Robusttextdetectioninnaturalimageswithedge-enhancedMaximallyStableExtremalRegionsMaximallyStableExtremalRegions(IEEEInternationalConferenceonImageProcessing.IEEE,2011:2609~2612)一文中提出了利用全卷积网络(FCN)模型来检测文本;ZhiTian等人在标题为DetectingTextinNaturalImagewithConnectionistTextProposalNetwork(EuropeanConferenceonComputerVision.Springer,Cham,2016:56~72)一文中提出一种应用卷积模型VGG16结合双向长短时记忆网络(BLSTM)的方法,以检测文本图像,然而神经网络的训练,往往需要大量的训练数据,才能有比较好的训练效果,有时各种数据的获取难度也较大,故也不好利用在OCR预处理的检测算法中。上述这些方法,基本上都是以检测整个文本图像为目的,同时主要以自然场景文本图像为检测目标,并没有专门针对中文文字,印刷体文本进行优化处理,因此在检测处理速度上,在对中文文本的检测正确率上,并不符合OCR预处理阶段对识别算法快速、准确的要求。
技术实现思路
鉴于上述,本专利技术提供了一种基于SWT的多方向中文印刷体文字检测方法,其通过二维离散傅里叶变换对倾斜图像在[-90,90]角度下进行倾斜校正,同时结合改进的SWT算法针对中文固有的文字特征,基于启发式过滤规则检测文字,相比采用单独的SWT算法或者MSER(最大稳定极值区域)算法在处理时间和准确率上有较大优势。一种基于SWT的多方向中文印刷体文字检测方法,包括如下步骤:(1)对待检测的图像依次进行灰度化以及缩放的预处理操作,(2)对预处理后的图像进行倾斜校正;(3)从经校正后的图像中提取文本行作为ROI(感兴趣区域);(4)对ROI进行canny边缘检测处理,提取文本行的文字边缘检测图;(5)采用SWT算法对文字边缘检测图进行文本检测,得到包含文字笔画宽度信息的SWT图像;(6)基于改进的SWT文本启发式规则对SWT图像中不符合中文文字特征的区域进行过滤,过滤后剩余保留下来的区域即为字符连通域;(7)对满足相关聚类条件的字符连通域聚类成行,形成文本行连通域;(8)基于启发式规则对文本行连通域进行检测,从而识别待检测的图像是否为中文印刷体图像。进一步地,所述步骤(1)中对待检测的图像进行缩放,使其缩放至650×850大小。进一步地,所述步骤(2)的具体实现过程为:首先,对图像进行二维离散傅里叶变换,得到图像对应的频率分布图;然后,对该频率分布图中左上、右上、左下、右下四个角频率分布块进行象限交换及平移操作,将图像频谱从原点移动到图像中心点,使得四个角频率分布块均集中在频率分布图的中心;最后,对频率分布图进行二值化,通过霍夫线检测技术画出分布图中的倾斜角度线,进而根据该倾斜角度线对原图像进行倾斜校正。进一步地,所述步骤(3)的具体实现过程为:对校正后的图像进行水平投影处理得到图像的水平投影直方分布图,根据分布图当中文本行与空白行的间隔区间快速提取待检测处理的文本行作为ROI。进一步地,若图像的倾斜角度在[-30°,30°]范围内,则提取图像中第一行文本作为ROI;若图像的倾斜角度超出[-30°,30°]范围,则提取图像中前三行文本作为ROI;即针对倾斜角度过大的场合,防止校正后出现文本行文字缺失的情况,保证了图像倾斜角度过大时,文字区域校正之后文字消失带来的干扰,同时也避免了对整个文本的检测,也加快了算法检测速度。进一步地,所述步骤(5)采用SWT算法对文字边缘检测图进行文本检测过程中所涉及的笔画宽度检索方向角满足以下条件:其中:SwtDq为笔画宽度检索方向角。进一步地,所述步骤(6)中改进的SWT文本启发式规则包含以下判别条件,满足该判别条件的区域即不符合中文文字特征;其中:SwtVariance为区域内笔画宽度的方差,SwtMean为区域内笔画宽度的均值。进一步地,所述步骤(8)中基于启发式规则对文本行连通域进行检测,即当以下两个条件同时满足的情况下,则判定待检测的图像为中文印刷体图像;①②s(h)≥10且s(w)≥30且其中:Stext为文本行连通域中前景像素的面积,Srect为整个文本行连通域的面积本文档来自技高网
...

【技术保护点】
1.一种基于SWT的多方向中文印刷体文字检测方法,包括如下步骤:(1)对待检测的图像依次进行灰度化以及缩放的预处理操作,(2)对预处理后的图像进行倾斜校正;(3)从经校正后的图像中提取文本行作为ROI;(4)对ROI进行canny边缘检测处理,提取文本行的文字边缘检测图;(5)采用SWT算法对文字边缘检测图进行文本检测,得到包含文字笔画宽度信息的SWT图像;(6)基于改进的SWT文本启发式规则对SWT图像中不符合中文文字特征的区域进行过滤,过滤后剩余保留下来的区域即为字符连通域;(7)对满足相关聚类条件的字符连通域聚类成行,形成文本行连通域;(8)基于启发式规则对文本行连通域进行检测,从而识别待检测的图像是否为中文印刷体图像。

【技术特征摘要】
1.一种基于SWT的多方向中文印刷体文字检测方法,包括如下步骤:(1)对待检测的图像依次进行灰度化以及缩放的预处理操作,(2)对预处理后的图像进行倾斜校正;(3)从经校正后的图像中提取文本行作为ROI;(4)对ROI进行canny边缘检测处理,提取文本行的文字边缘检测图;(5)采用SWT算法对文字边缘检测图进行文本检测,得到包含文字笔画宽度信息的SWT图像;(6)基于改进的SWT文本启发式规则对SWT图像中不符合中文文字特征的区域进行过滤,过滤后剩余保留下来的区域即为字符连通域;(7)对满足相关聚类条件的字符连通域聚类成行,形成文本行连通域;(8)基于启发式规则对文本行连通域进行检测,从而识别待检测的图像是否为中文印刷体图像。2.根据权利要求1所述的多方向中文印刷体文字检测方法,其特征在于:所述步骤(1)中对待检测的图像进行缩放,使其缩放至650×850大小。3.根据权利要求1所述的多方向中文印刷体文字检测方法,其特征在于:所述步骤(2)的具体实现过程为:首先,对图像进行二维离散傅里叶变换,得到图像对应的频率分布图;然后,对该频率分布图中左上、右上、左下、右下四个角频率分布块进行象限交换及平移操作,将图像频谱从原点移动到图像中心点,使得四个角频率分布块均集中在频率分布图的中心;最后,对频率分布图进行二值化,通过霍夫线检测技术画出分布图中的倾斜角度线,进而根据该倾斜角度线对原图像进行倾斜校正。4.根据权利要求1...

【专利技术属性】
技术研发人员:张华熊周一枫胡洁林翔宇何利力王玉平
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1