当前位置: 首页 > 专利查询>深圳大学专利>正文

基于视觉结构属性的文本定位方法及系统技术方案

技术编号:11210292 阅读:117 留言:0更新日期:2015-03-26 19:44
本发明专利技术属于图像识别技术领域,尤其涉及一种基于视觉结构属性的文本定位方法及系统。本发明专利技术从文本视觉属性的角度出发,通过颜色极性差异变换和边缘邻域末端粘合,检测出丰富的封闭边缘,以得到充裕的候选连通元,然后经过文字笔画属性特征和文本群落属性特征筛选,从候选连通元中提取出属于文字的连通元,然后通过多通道融合及去除重复连通元的方法定位出最终的文本。本发明专利技术所采用的方法鲁棒性强,适应文字语言类别混杂、字体风格多样、排列方向随机及背景存在干扰等多种情形,定位出的文本可直接提供给OCR软件进行识别,并可提高OCR软件识别率。本发明专利技术可应用在图像视频检索、垃圾信息拦截、辅助视觉导航、街景地图定位、工业装备自动化等诸多领域。

【技术实现步骤摘要】
基于视觉结构属性的文本定位方法及系统
本专利技术属于图像识别
,尤其涉及一种基于视觉结构属性的文本定位方法 及系统。
技术介绍
图像及视频中的文本所包含的语义信息是理解图像及视频内容的重要线索,可广 泛应用于图像及视频检索、辅助视觉导航、工业装备自动化等诸多领域。然而,复杂背景下 文本的0CR(0ptical Character Recognition,光学文字识别)识别率却不高,通用且高效 的文本区域定位与文字分割方法依然是当前急需解决的技术难题。 对于复杂背景下的文本图像,必须在进行OCR识别之前对文本进行定位、文字分 割及透视校正等处理,才能较好地完成文本信息的提取。这其中,文本定位技术作为OCR识 别前的关键一步,顺理成章地受到了人们的广泛关注和长期研究。然而,代表了当前最高技 术水平的文本定位算法也只能使OCR识别率达到约75%,远未达到人们的期望及可以广泛 应用的程度。 图像分割是进行文本定位所普遍采用的方法,通过图像分割可以区分出文本区域 与背景区域,以便进行文本定位。而边缘检测又是图像分割所采用的常用技术手段,在以图 像分割为目的的边缘检测中,需要检测出的边缘尽可能封闭,因此,在边缘检测算子末端需 要进行边缘生长、粘合等处理,使边缘尽量封闭,从而分割出整体。然而,如果边缘形状过于 复杂,比如具有复杂背景的文本的边缘图像,由于复杂背景的存在,给文本的边缘图像带来 了大量噪声,容易造成边缘的错误粘合,使分割出的文本与真实文本之间误差较大,并且粘 合速度慢、效率低。 当前主流的文本定位方法,从处理对象的角度看,可分为基于连通元的方法 (Connected Component-based Methods)、基于纹理的方法(Texture-based Methods)和基 于边缘的方法(Edge-based Methods)三大类型。 基于连通元的方法是利用图像中的处于同一局部区域的文本文字具有相似的颜 色、大小、宽高比等几何特征,应用颜色聚类和连通域分析等技术将可能属于同一文字的像 素进行聚类合并以得到候选文本区域,最后结合处于同一语义文本文字在图像中的排列特 征,定位出文本。基于连通元的方法执行时间短,并且定位精度较高,但是当背景复杂或文 本区域与颜色相近的背景区域连接时,该方法的准确度就会大大降低。 基于纹理的方法是将文字看作是具有某种特殊的图像纹理,通过对图像进行一定 的变换从而提取图像中的这类纹理信息,并结合分类器技术判定该窗口区域是否为文本, 从而得到候选文本区域,最后对二值图像进行形态学处理,滤除噪声点以及连接断裂的文 本区域。基于纹理的方法具有良好的通用性,对于不同语言、不同尺寸的文字都能获得较高 的检测率,方法鲁棒性强。但是该类算法计算复杂度高,计算时间长,同时如何选取通用有 效的纹理特征实现文字区域的分类是该类算法的难点,难以准确把握。 基于边缘的方法通常首先使用边缘检测技术对整幅图像进行边缘检测,常用的有 梯度算子Sobel算子、Canny算子、以及一些特殊的边缘检测算子,然后根据边缘密度,结合 文本行的几何结构特征,制定启发式约束条件实现文本区域的检测定位。基于边缘的方法 的优点是时间复杂度低,可以满足实时应用的需要,而且受文本颜色的影响较小,但是当背 景纹理复杂时误检率就会提高,比如背景中存在某些规则排列的物体时容易被误检成文字 区域。
技术实现思路
本专利技术所要解决的技术问题是,提供一种基于视觉结构属性的文本定位方法及系 统,可从复杂的背景中准确定位出文本,从而提高后续文字识别的准确率。本专利技术是这样实 现的: 一种基于视觉结构属性的文本定位方法,包括如下步骤: RGB颜色极性差异变换:对原始图像进行RGB颜色极性差异变换,得到变换后的图 像; 边缘检测:将变换后的图像的两个颜色通道进行边缘检测,得到该两个颜色通道 的边缘图像;同时,对原始图像进行边缘检测,得到原始图像的边缘图像; 构建连通元:检测每一幅边缘图像中从属于同一目标的边缘,将从属于同一目标, 且未连通的边缘连通成一封闭边缘,并将所述封闭边缘所围成的区域作为一连通元,据此 在每一幅边缘图像中形成若干连通元; 连通元笔画属性分析:对每一幅边缘图像中的各连通元进行笔画属性分析,将各 连通元的笔画属性与预存的文字笔画属性进行比较,根据比较结果从每一幅边缘图像中提 取出符合文字笔画属性的连通元; 连通元群落属性分析:对从每一幅边缘图像中提取出的符合文字笔画属性的连通 元进行群落属性分析,将各连通元的群落属性与预存的文本群落属性进行比较,并根据比 较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元; 图像融合及文本定位:将从三幅边缘图像中提取出的符合文字笔画属性及文本群 落属性的连通元融合到一幅边缘图像中,在融合的过程中去除重复的连通元,将融合后的 边缘图像中的各连通元作为文本。 进一步地,对原始图像中的每一像素,设其R、G、B三个通道的原始亮度值分别为 Rp Gp B1,经过颜色极性差异变换后的亮度值分别为R2、G2、B2 ;则颜色极性差异变换公式 为: R2 = 0· 5x [max (0, R1-G1) +max (0, R1-B1)]; G2 = 0. 5x [max (0, G1-R1) +max (0, G1-B1)]; B2 = 0· 5x [max (0, B1-R1) +max (0, B1-G1)]。 进一步地,检测每一幅边缘图像中从属于同一目标的边缘,将从属于同一目标,且 未连通的边缘连通成一封闭边缘的方法具体为: 通过N*N大小的子窗口遍历每一幅边缘图像;N的取值以使该子窗口内所检测到 的边缘从属于同一目标为原则;在子窗口移动的过程中,对子窗口内检测到的边缘缺口进 行粘合。 进一步地,所述连通元笔画属性分析的步骤包括: 分析每一幅边缘图像中各连通元的笔画属性;所述笔画属性包括: 宽高比:连通元的最小包络矩形框的宽度与高度两者之中较小值与较大值的比 值; 回环笔画的嵌套深度:连通元中回环笔画的层数; 孔洞数量:连通元内所包含的子连通元的数量; 判断每一连通元的笔画属性是否同时满足以下三个条件,如果满足,则该连通元 符合文字笔画属性; 该连通元的宽高比在预设的第一范围内; 该连通元的回环笔画的嵌套深度不大于预设的第一阈值; 该连通元的孔洞数量不大于预设的第二阈值。 进一步地,所述连通元群落属性分析的步骤包括: 对符合文字笔画属性的连通元中的每一对相邻连通元,通过以下步骤分析每一对 相邻连通元之间的近邻相似度: 分析该对相邻连通元之间的以下参数: 近邻特征相似度:当相邻连通元的最小包络矩形框之间的距离处于预设的第二范 围内时,该对相邻连通元之间的近邻相似度的值取为1,否则取为〇 ; 尺寸相似度:相邻连通元的最小包络矩形框之间的尺寸相似度; 颜色相似度:相邻连通元之间的颜色相似度; 笔画宽度相似度:相邻连通元之间的笔画宽度相似度; 中心紧密度相似度:中心紧密度是指连通元中心区域非空面积与该中心本文档来自技高网
...

【技术保护点】
一种基于视觉结构属性的文本定位方法,其特征在于,包括如下步骤:RGB颜色极性差异变换:对原始图像进行RGB颜色极性差异变换,得到变换后的图像;边缘检测:将变换后的图像的两个颜色通道进行边缘检测,得到该两个颜色通道的边缘图像;同时,对原始图像进行边缘检测,得到原始图像的边缘图像;构建连通元:检测每一幅边缘图像中从属于同一目标的边缘,将从属于同一目标,且未连通的边缘连通成一封闭边缘,并将所述封闭边缘所围成的区域作为一连通元,据此在每一幅边缘图像中形成若干连通元;连通元笔画属性分析:对每一幅边缘图像中的各连通元进行笔画属性分析,将各连通元的笔画属性与预存的文字笔画属性进行比较,根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元;连通元群落属性分析:对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析,将各连通元的群落属性与预存的文本群落属性进行比较,并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元;图像融合及文本定位:将从三幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中,在融合的过程中去除重复的连通元,将融合后的边缘图像中的各连通元作为文本。...

【技术特征摘要】
1. 一种基于视觉结构属性的文本定位方法,其特征在于,包括如下步骤: RGB颜色极性差异变换;对原始图像进行RGB颜色极性差异变换,得到变换后的图像; 边缘检测;将变换后的图像的两个颜色通道进行边缘检测,得到该两个颜色通道的边 缘图像桐时,对原始图像进行边缘检测,得到原始图像的边缘图像; 构建连通元;检测每一幅边缘图像中从属于同一目标的边缘,将从属于同一目标,且未 连通的边缘连通成一封闭边缘,并将所述封闭边缘所围成的区域作为一连通元,据此在每 一幅边缘图像中形成若干连通元; 连通元笔画属性分析:对每一幅边缘图像中的各连通元进行笔画属性分析,将各连通 元的笔画属性与预存的文字笔画属性进行比较,根据比较结果从每一幅边缘图像中提取出 符合文字笔画属性的连通元; 连通元群落属性分析;对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进 行群落属性分析,将各连通元的群落属性与预存的文本群落属性进行比较,并根据比较结 果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元; 图像融合及文本定位:将从H幅边缘图像中提取出的符合文字笔画属性及文本群落属 性的连通元融合到一幅边缘图像中,在融合的过程中去除重复的连通元,将融合后的边缘 图像中的各连通元作为文本。2. 如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,对原始图像 中的每一像素,设其R、G、BH个通道的原始亮度值分别为馬、61、81,经过颜色极性差异变换 后的亮度值分别为R2、G2、B2 ;则颜色极性差异变换公式为: 尺2= 0. 5x [max (0, Ri_Gi) +max (0, Ri_Bi)]; G2= 0. 5x [max (0, Gi_Ri) +max (0, Gi_Bi)]; B2= 0. 5x虹ax化Bi_Ri) +max化Bi_Gi)]。3. 如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,检测每一幅 边缘图像中从属于同一目标的边缘,将从属于同一目标,且未连通的边缘连通成一封闭边 缘的方法具体为: 通过N*N大小的子窗口遍历每一幅边缘图像;N的取值W使该子窗口内所检测到的边 缘从属于同一目标为原则;在子窗口移动的过程中,对子窗口内检测到的边缘缺口进行粘 合。4. 如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,所述连通元 笔画属性分析的步骤包括: 分析每一幅边缘图像中各连通元的笔画属性;所述笔画属性包括: 宽高比:连通元的最小包络矩形框的宽度与高度两者之中较小值与较大值的比值; 回环笔画的嵌套深度;连通元中回环笔画的层数; 孔洞数量:连通元内所包含的子连通元的数量; 判断每一连通元的笔画属性是否同时满足W下H个条件,如果满足,则该连通元符合 文字笔画属性; 该连通元的宽高比在预设的第一范围内; 该连通元的回环笔画的嵌套深度不大于预设的第一阔值; 该连通元的孔洞数量不大于预设的第二阔值。5. 如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,所述连通元 群落属性分析的步骤包括: 对符合文字笔画属性的连通元中的每一对相邻连通元,通过W下步骤分析每一对相邻 连通元之间的近邻相似度: 分析该对相邻连通元之间的W下参数: 近邻特征相似度;当相邻连通元的最小包络矩形框之间的距离处于预设的第二范围内 时,该对相邻连通元之间的近邻相似度的值取为1,否则取为0 ; 尺寸相似度;相邻连通元的最小包络矩形框之间的尺寸相似度; 颜色相似度;相邻连通元之间的颜色相似度; 笔画宽度相似度:相邻连通元之间的笔画宽度相似度; 中也紧密度相似度;中也紧密度是指连通元中也区域非空面积与该中也区域面积的比 值;当相邻连通元的中也紧密度都高于预设的第H阔值时,该对相邻连通元之间的中也紧 密度相似度的值取为1,否则取为0 ; 根据预设的融合规则将该对相邻连通元之间的近邻特征相似度、尺寸相似度、颜色相 似度、笔画宽度相似度及中也紧密度相似度进行融合处理,得到该对相邻连通元之间的近 邻相似度; 将各对相邻连通元之间的近邻相似度按相似度高低划分为优、良、中、差四个等级; W各对相邻连通元之间的近邻相似度作为连接权值,构建无向图; 搜索出近邻相似度为优或良的连通元对,并W该连通元对中两个连通元的最小包络矩 形框的中也确定一条直线,并W该连通元对为起点,逐级向外扩展近邻相似度高于或等于 中且位于该条直线上的连通元,直到没有新的连通元符合扩展条件; 提取W近邻相似度为优的连通元对为起点扩展后得到的所有连通元; 对于W近邻相似度为良的连通元对为起点扩展后得到的所有连通元,如果扩展的连通 元个数大于或等于2,则全部提取,否则,全部不提取。6. -种基于视觉结构属性的文本定位系统,其特征在于,包括: RGB颜色极性差异变换模块,用于对原始图像进行...

【专利技术属性】
技术研发人员:王娜李霞翟芳冬
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1