本发明专利技术涉及一种图像处理技术领域的方法,具体涉及一种复杂背景下图像处理的二值化方法。包含以下步骤:对输入图像进行多尺度的canny算子的边缘检测,标记连通分支,针对每个独立的连通分支作外接矩形框;对每个矩形框进行分类器的过滤,去除无文字特性区域,筛选出可能包含文字的矩形框,对每个筛选出的矩形框提取前景颜色和背景颜色;基于这两种颜色对每个矩形框作单独的二值化处理,综合得到最后的二值化结果。本发明专利技术准确和清晰度都非常高,能大大提高文字的识别率,其效果优于其它方法。
【技术实现步骤摘要】
本专利技术涉及的是一种图像处理
的方法,具体涉及一种复杂背景下 图像处理的二值化方法。
技术介绍
人们在日常生活中会接触到大量的图像资料,如彩色图片,封面,海报等。这 些图像资料包含了非常丰富的文字信息。因此,基于图像的文字识别也得到了广 泛的应用。通知,在文字识别之前要进行二值化操作。这个操作可以将彩色的图 像变成黑白的图像。很多重要的技术,如OCR(文字识别),与二值化操作密切相 关。二值化效果的好坏直接影响到OCR的识别率。 一副图片上有大量的信息,可 分为文字信息和非文字信息。非文字信息经过OCR处理之后,会输出很多乱码。 如果一副图片上有大量非文字信息存在,OCR识别率会大大下降。与此同时,图像 上的文字有可能是不同字体,不同颜色,不同大小,不同语言。甚至背景颜色和前 景颜色也千差万别。目前绝大多数的二值化算法不能解决上述复杂的实际情况, 在大量图像处理中,会出现反色的情况(背景为黑色,文字为白色),这同样也是 OCR识别率大大下降的重要因素。二值化方法大致可以分为全局阈值和局部阈值法。全局阈值是对整副图像 用单一的阈值进行二值化。这是最简单,也是最早的方法。经对现有技术文献的检索发现,中国专利申请号200510080050.6,名称 一种图像二值化的方法。该技术称通过计算机系统对数字化的图像进行二值化 方法时,处理灰度直方图为正常的双峰图像一般效果比较好,但当双峰出现明显 的偏移,如图像的亮度过高时,往往导致二值化域值选择不能准确而导致二值化 后的图像过浅或过深,从而影响到后面对图像的继续处理,如进行文字识别。由 于全局阈值方法的只能应用于前景背景灰度值差距比较大的情况,有着太多的局 限性。局部阈值法则结合每个像素点的实际情况,动态的计算阈值,效果也更为 精细,准确。如Niblack方法,非常适合处理文字信息,但也此同时,会在背景上引入大量的噪声,Sauvola方法,虽然降低了噪声,却不能处理反色的情况。 Kasar方法,虽然能过滤大量非文字信息,但不能适用于各种文字。
技术实现思路
本专利技术的目的在于现有技术的不足,提出了一种复杂背景下图像处理的二 值化方法。该方法不但在处理的过程中能滤除掉大量的非文字信息,而且能自适 应的把各种文字信息都变为黑色,背景变为白色,大大提高了OCR的识别率。本专利技术是通过以下的技术方案来实现的本专利技术包括以下步骤① 对输入图像进行多尺度的canny算子的边缘检测,标记连通分支,针对 每个独立的连通分支作外接矩形框。② 对每个矩形框进行分类器的过滤,去除无文字特性区域,筛选出可能包 含文字的矩形框。③ 对每个筛选出的矩形框提取前景颜色和背景颜色,基于这两种颜色对每 个矩形框作单独的二值化处理,综合得到最后的二值化结果。在上述步骤①中,首先把输入图片变成灰度图片。对该灰度图像进行高斯 平滑滤波后,用carmy算子检测边缘。然后根据八连通分支的定义,标记出连通 在一起的边缘,这样的一个边缘称为一个连通分支。对每个连通分支做作一个外 接矩形框。矩形框在筛选文字和提取背景前景颜色的时候,起到非常重要的作用。进一步,上述步骤①中采用多尺度的高斯平滑滤波,当高斯滤波器在平滑 图像的时候,高斯核o会大大影响到图像的平滑程度。在不同o下检测出来的 边缘也大大不同。采用单一尺度的滤波,可能一些细小的文字边缘的信息就不能 被检测出来,这样一个文字可能残缺不全,为以后的二值化带来更大的难度。因 此,为了尽可能得获取全部文字的边缘,必须综合各个尺度下边缘检测的结果。 在本专利技术中,高斯核o从0.2取到0.8,步长是0.2,边缘信息E二EnE21... |En, 其中E,代表在第i个o下检测出的边缘。在上述步骤②中,通过分类器的设计,筛选步骤①中提取出来的矩形框, 找到真正包含文字信息的矩形外框。包括下面的步骤(a) 去除长宽比例大于10或小于0. 1的矩形框。(b) 去除面积超过整副图像一半以及像素点小于16的矩形框。(c) 去除填充因子过小的矩形框。(d) 对每个矩形框进行层数的标记,记为Bn, (ii=l,2,3)。 Bl代表该矩形框内部完全没有包含其它的矩形框,完全包含的定义指它内部闭合含有别的矩形框,相交不属于这个范畴。B2代表该矩形框内部只包含B1矩形框。B3代表该类矩形框内部含有多层的矩形框,是除B1, B2两类之外的框。(e) 去除标有B3的框,去除B2内部中的B1框。剩下的框即为含有文字特性的框。在上述步骤②中的第(a)步的作用是为了去除图像中长条形的区域,数据表达是长宽比太大或太小。第(b)步是去除一些孤立的,类似噪声点的区域,数学表达为面积太小。第(c)步,填充因子的定义是矩形框内部的边缘像素点与矩形框面积的比值。如果填充因子小于O. 1,说明边缘分布没有文字特性,为非文字框。第(d)步源于对各种文字进行分析的结果。不管是哪个国家的文字,都被限定在了B2和B1之内,不可能出现B3的情况。滤除这些框,可以保证最大限度的去除非文字区域,而保留文字区域。在上述步骤②中的步骤(c)中,针对步骤(b)中留下来的矩形框,提取前景背景颜色。前景色<formula>formula see original document page 6</formula>,E代表检测出的边缘,N为边缘点^ (仏的总数,I指灰度值。背景色BEB指的是每个矩形框外二十四个特定点的中值。基于这两个颜色,利用如下判决公式<formula>formula see original document page 6</formula>对每个矩形框进行二值化操作,最后把所有矩形框处理的结果整合起来,得到最终的二值化图片。进一步,多尺度的canny边缘检测保证了文字边缘有连续性的特征,前景色的计算公式提取的是矩形框内边缘点灰度的均值,能较准确代表文字的颜色信息。二十四个特定点的中值取的是矩形框外侧四个角以及四条边中央的二十四个特定点灰度的中值,能较真实得反应出局部背景色的信息,而且解决了互相重叠的矩形框的背景前景色干扰的问题,适应于倾斜排列的文字。本专利技术的原理是通过多尺度边缘检测把图片的边缘信息尽可能得提取出来,而这些边缘信息很大部分不是文字边缘信息。经过基于层次设计分类器的过滤,去除掉了无文字特性矩形框。通过对余下的矩形框单独提取前景背景色,基于二值化规则自适应得把图像背景变为白色,文字变为黑色。这个二值化方法是局部阈值法,它在图像内部筛选出的矩形框上独立操作,这就保证了复杂背景下各种情况的文字信息的有效提取,矩形框之外的区域不必关心,作为背景。本专利技术有益的效果在于对一副背景相对复杂的图像资料,能自动得把上面的文字信息获取并以黑色显示,背景则以白色显示。从而使OCR识别率大大增加,误识率大大降低。附图说明图1是本专利技术所述方法的流程图;图2是输入图片;图3是图片多尺度的边缘检测后,连通分支标边并提取外接矩形框;图4是多层次矩形框筛选后的结果;图5是最终二值化处理结果;图6是矩形框外二十四个特定点的位置说明;图7是该二值化算法和其它二值化算法比较的结果;图8是本专利技术的实验结果。具体实施例方式下面结合附图和实施方式对本专利技术作进一步详细的描述。(1) 如图1所本文档来自技高网...
【技术保护点】
一种复杂背景下图像处理的二值化方法,其特征在于,包括以下步骤: ①对输入图像进行多尺度的canny算子的边缘检测,标记连通分支,针对每个独立的连通分支作外接矩形框; ②对每个矩形框进行分类器的过滤,去除无文字特性区域,筛选出包含 文字的矩形框; ③对每个筛选出的矩形框提取前景颜色和背景颜色,基于这两种颜色对每个矩形框作单独的二值化处理,综合得到最后的二值化结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈凯,齐开悦,张志远,李晨轩,管海兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。