一种基于图割模型的场景图像中文本的定位方法技术

技术编号：13046429 阅读：128 留言：0更新日期：2016-03-23 14:17

一种基于图割模型的场景图像中文本的定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域，并以此为图割模型顶点，利用候选区域的一元文本特征和二元文本特征来建立图割模型。一元文本特征表征区域本身的文本特性，采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数表示的一元文本特征；二元文本特征能够反映文本区域与相邻背景区域同为同一类型区域的概率，即二元文本特征越相似，两者是同一类区域的概率就越大。本发明专利技术考虑到研究对象为彩色图像，利用颜色分布和区域结构相似性来表示二元文本特征。利用提取的一元文本特征和二元文本特征来构建能量函数并利用能量函数最小化去除背景区域以求得最优分割，最后通过文本聚合得到文本区域。

全部详细技术资料下载

【技术实现步骤摘要】
1、
本专利技术属于图像处理
，提出一种基于图割模型的场景图像中的文本区域定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域，然后以每个候选区域为图割模型顶点，利用候选区域的一元文本特征和二元文本特征来建立图割模型，并利用能量函数最小化去除背景区域以求得最优分割，最后通过文本聚合得到文本区域。图像中的文本区域定位是后续的图像分割和图像理解的基础和前提。2、
技术介绍
随着数码相机、手机等图像获取设备的广泛应用，图像已成为重要的传递信息的载体，而图像中的文本通常能够提供重要的语义信息，所以，图像中的文本信息提取已成为模式识别领域的研究内容之一，并有着良好的应用前景与商业价值。文本定位是文本提取的前提与基础，是文本信息提取系统的关键部分，因此可靠而有效、且适用性强的场景图像中的文本定位方法具有重要的意义。在自然场景图像中的文本，由于文本大小、字体、排列方式不确定，并且场景背景一般较为复杂，图像中的文本精确定位的难度较大。目前，场景图像文本定位主要分为基于边缘检测、基于连通区域和基于纹理特征等三类方法。基于边缘检测方法利用边缘检测得到边缘图像，通过形态学处理和启发式过滤规则得到文本区域。但是当边缘较多、区域有交叉时容易形成虚假文本；基于连通区域方法是根据局部文本区域的颜色与亮度相近且与背景的对比度较高，利用颜色聚类、连通分量分析等方法对文本定位。但该方法适用单一背景图像且对光照和颜色较敏感；基于纹理特征方法将文本视为一种特殊纹理，提取文本区域的纹理特征，然后利用分类器对文本和背景进行分类。该方法准确度较高，但需要先提...

【技术保护点】
一种基于图割模型的场景图像文本定位的方法，其特征是：将文本区域和背景区域的多个不同特征，通过图割模型融合起来，即采用代表文本区域特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项，采用描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项，并以一元特征和二元特征构建能量函数，通过求解能量函数最小达到对图的最优分割，将图像分割作为候选文本区域与背景区域的二分类过程，从而实现图像中的文本定位。

【技术特征摘要】
1.一种基于图割模型的场景图像文本定位的方法，其特征是：
将文本区域和背景区域的多个不同特征，通过图割模型融合起来，即采用代表文本区域
特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项，采用
描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项，并以
一元特征和二元特征构建能量函数，通过求解能量函数最小达到对图的最优分割，将图像分
割作为候选文本区域与背景区域的二分类过程，从而实现图像中的文本定位。
2.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法，其特征是所述
采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数作为一元文本特征，其方法是：
1)边缘梯度特征
由于文本区域一般含有丰富的边缘信息，文本的边缘方向大致相反而且幅值大致相同，
各方向上的梯度相差不大，故边缘梯度是描述文本特性的有效特征。通过边缘检测提取候选
区域的边缘后，将梯度方向分为8个通道，每个通道为π/4，然后计算梯度的方向与幅值，
根据下式统计候选区域的边缘梯度特征：
RHOG=Σi=1,2,3,4(Hi-Hi+4)2Σi=18Hi]]>其中，Hi代表第i通道内的梯度。
(2)中心环绕直方图
中心环绕直方图是指中心区域与其周围区域特征之间的卡方距离，是一个局部显著性特
征：
χ2(I,Ir)=12Σ(I-Ir)2I+Ir]]>其中，I是指中心区域，Ir是指最小外接矩形框内中心区域以外的区域。为了引起人的视
觉注意，文本通常具有局部显著性，相比于局部区域内周围的背景在强度上有较大的差异，
因此采用亮度特征的中心环绕直方图，但是由于文本特有的结构，一般都会包含很多的孔洞，
其中心和周围的差异不像其他显著目标那样明显，所以这里利用高斯函数对其进行了平滑：
Rcenter＝g(x)*χ2(I，Ir)
其中，g(x)是指高斯函数。
(3)笔画宽度变异系数
笔画宽度特征是文本特有的特征，这里利用候选区域中笔画宽度的变异系数
RSW=1NΣi=1N(xi-meansw)2/meansw]]>来表示区域的文本特性。
3.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法，其特征是所述
采用颜...

【专利技术属性】
技术研发人员：于凤芹，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人