本发明专利技术公开了一种复杂背景图像文字分割方法,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对文字区域抽取底层颜色特征和底层纹理特征;对抽取出来的底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量训练得到第一级分割的分类器;用训练好的分类器进行第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征进行第文字分割;输出文字分割结果。本发明专利技术提高复杂背景图像中文字分割的准确率;具有一定的通用性和实用性。
【技术实现步骤摘要】
本专利技术涉及图像处理领域中的图像分割技术,尤其涉及。
技术介绍
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注,然而计算机理解图像的内容,目前还很困难。嵌入在图像中的文字,是图像语义内容的一种重要表达方式。如果能够自动提取和识别这些文字,就可以让机器自动理解图片内容并对图片进行分类,进而借助已经成熟的文本检索技术采用这些文字对图片进行标注和检索,从而为基于内容的图像和视频检索提供一种途径。然而,嵌入在图像中的文字通常都带有复杂背景,即使文本内容在图像中能被准确检测到,在没有去除背景 之前,现有的OCR系统难以识别出字符,因而在提交给OCR系统之前还需要一个文字分割过程。因此,如何从复杂背景图像中分割文本信息,成为以文字为线索来理解和检索图像内容的一个关键任务。现有的图像文字分割技术主要分为以下三类基于阈值的方法、基于聚类的方法和基于统计模型的方法。基于阈值的方法一般根据文字块中前景和背景的亮度分布自适应地选取一个全局阈值或自适应局部阈值。在图像背景比较单一时该类方法能取得较好的效果;当文字具有较复杂的背景,例如文字的灰度可能介于背景的多个灰度之间时,阈值法不再适用。基于聚类的方法一般首先假定文字块中所有像素根据颜色可以分为K类,文字像素对应于其中一类,其余各类均为背景;然后采用经典的无监督聚类算法对所有像素进行聚类。这类方法可用于复杂背景的情况。但当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。基于统计模型的方法首先为文字块内所有像素或者文字像素建立概率模型,一般根据颜色建立高斯混合模型(Gaussian Mixture Model, GMM),所有同色区域用一个Gaussian核函数表示。然后使用EM算法估计模型参数,最后根据最大似然准则确定每个区域的类别。由于单纯地利用了颜色信息,GMM模型存在着与聚类方法同样的问题,而且GMM核函数的个数难以确定。上述各种文字分割方法,只利用了图像底层局部的灰度或彩色信息,没有考虑到文字的空间或全局上下文信息。因而,对复杂背景中的文字分割效果不好。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供,根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,并采用由粗到精两级分割的方法,从而提高复杂背景图像文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。为了实现上述目的,本专利技术采用如下技术方案,主要包括以下步骤进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。,具体步骤如下 步骤(I):开始,读取图像;步骤(2):将图像中的文字区域块提取出来,并将文字区域块保存到相应位置;步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);步骤(5):抽取文字区域块中每个像素点的纹理特征首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;步骤(7):提取文字区域块的标签层全局特征。将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8);步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维特征向量;步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到进行第一级文字分割的分类器;步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法;步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割。本专利技术主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;步骤(14):输出文字分割结果。所述步骤(4)的颜色特征抽取方法为首先将彩色图像分解为R、G、B (红、绿、蓝)三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。所述步骤(5)的Gabor纹理特征的抽取方法是 在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式=max'j妒/W^1i进行合并,其中,i表示J尺度,j表示方向,gabor1表示尺度i的合并Gabor滤波图像,讲表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的3X3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。本专利技术采用3个尺度,在每个尺度上抽取2维Gabor特征,所以在3个尺度上共抽取6维Gabor特征。所述步骤(7)中,标签层全局特征的抽取方法为采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征;因此,对于每个像素点可得到2X3X3=18维标签层全局特征。所述步骤(10)中,第一级文字分割中分类器采用的是条件随机场模型;所述条件随机场模型描述的图像的类条件概率密度为P(FIX5X) = Iexp Σ^(^Χ) + ΣΣ^(^^ηΧ) Z\_ieSteS jeN)ieS JeNi_其中,Vi(YilX)为图像底层一元势函数,Vij (yi)yj, X)为图像底层二元势函数,Gij(Yi, Yj, L本文档来自技高网...
【技术保护点】
一种复杂背景图像文字分割方法,其特征是,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到用于第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:柏猛,李敏花,吕英俊,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。