当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于图割模型的场景图像中文本的定位方法技术

技术编号:13046429 阅读:120 留言:0更新日期:2016-03-23 14:17
一种基于图割模型的场景图像中文本的定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域,并以此为图割模型顶点,利用候选区域的一元文本特征和二元文本特征来建立图割模型。一元文本特征表征区域本身的文本特性,采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数表示的一元文本特征;二元文本特征能够反映文本区域与相邻背景区域同为同一类型区域的概率,即二元文本特征越相似,两者是同一类区域的概率就越大。本发明专利技术考虑到研究对象为彩色图像,利用颜色分布和区域结构相似性来表示二元文本特征。利用提取的一元文本特征和二元文本特征来构建能量函数并利用能量函数最小化去除背景区域以求得最优分割,最后通过文本聚合得到文本区域。

【技术实现步骤摘要】
1、
本专利技术属于图像处理
,提出一种基于图割模型的场景图像中的文本区域定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域,然后以每个候选区域为图割模型顶点,利用候选区域的一元文本特征和二元文本特征来建立图割模型,并利用能量函数最小化去除背景区域以求得最优分割,最后通过文本聚合得到文本区域。图像中的文本区域定位是后续的图像分割和图像理解的基础和前提。2、
技术介绍
随着数码相机、手机等图像获取设备的广泛应用,图像已成为重要的传递信息的载体,而图像中的文本通常能够提供重要的语义信息,所以,图像中的文本信息提取已成为模式识别领域的研究内容之一,并有着良好的应用前景与商业价值。文本定位是文本提取的前提与基础,是文本信息提取系统的关键部分,因此可靠而有效、且适用性强的场景图像中的文本定位方法具有重要的意义。在自然场景图像中的文本,由于文本大小、字体、排列方式不确定,并且场景背景一般较为复杂,图像中的文本精确定位的难度较大。目前,场景图像文本定位主要分为基于边缘检测、基于连通区域和基于纹理特征等三类方法。基于边缘检测方法利用边缘检测得到边缘图像,通过形态学处理和启发式过滤规则得到文本区域。但是当边缘较多、区域有交叉时容易形成虚假文本;基于连通区域方法是根据局部文本区域的颜色与亮度相近且与背景的对比度较高,利用颜色聚类、连通分量分析等方法对文本定位。但该方法适用单一背景图像且对光照和颜色较敏感;基于纹理特征方法将文本视为一种特殊纹理,提取文本区域的纹理特征,然后利用分类器对文本和背景进行分类。该方法准确度较高,但需要先提取大量的正负样本来训练分类器导致计算量较大,而且单一的纹理特征并不能够有效的区分文本与背景,特征的选取也是一个难点。3、
技术实现思路
为了适应复杂场景图像中的文本定位,本专利技术提出一种基于图割模型的场景图像文本定位的方法。该方法将文本区域和背景区域的多个不同特征,通过图割模型融合起来,即采用代表文本区域特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项,采用描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项,以一元特征和二元特征构建能量函数,通过求解能量函数最小达到对图的最优分割,将图像分割作为候选文本区域与背景区域的二分类过程,从而实现图像中的文本定位。图割模型是一种全局能量最小化的图像分割方法,主要的思路是将图像中的像素作为图的顶点,把像素与领域间的关系作为图的边,这样就把图像映射成一个加权图,然后根据边的权值设定能量函数,通过求解能量函数的最小化来实现对图的最优分割,从而实现对原图像的分割。采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数作为一元文本特征由于一元文本特征表示区域本身的文本特性,可根据提取的一元文本特征来描述区域是文本区域还是背景区域,本专利技术采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数表示的一元文本特征构建能量函数的区域项。(1)边缘梯度特征由于文本区域一般含有丰富的边缘信息,文本的边缘方向大致相反而且幅值大致相同,各方向上的梯度相差不大,故边缘梯度是描述文本特性的有效特征。通过边缘检测提取候选区域的边缘后,将梯度方向分为8个通道,每个通道为π/4,然后计算梯度的方向与幅值,根据下式统计候选区域的边缘梯度特征:其中,Hi代表第i通道内的梯度。(2)中心环绕直方图中心环绕直方图是指中心区域与其周围区域特征之间的卡方距离,是一个局部显著性特征:其中,I是指中心区域,Ir是指最小外接矩形框内中心区域以外的区域。为了引起人的视觉注意,文本通常具有局部显著性,相比于局部区域内周围的背景在强度上有较大的差异,因此采用亮度特征的中心环绕直方图,但是由于文本特有的结构,一般都会包含很多的孔洞,其中心和周围的差异不像其他显著目标那样明显,所以这里利用高斯函数对其进行了平滑:Rcenter=g(x)*χ2(I,Ir)其中,g(x)是指高斯函数。(3)笔画宽度变异系数笔画宽度特征是文本特有的特征,这里利用候选区域中笔画宽度的变异系数来表示区域的文本特性。采用颜色分布和区域结构相似性作为二元文本特征二元文本特征表示文本区域与其邻域背景区域之间的关系,能够反映候选文本区域与相邻背景区域同为文本区域或背景区域还是不同类别区域的概率。即二元文本特征越相似,两者是同一类区域的概率就越大。本专利技术考虑到研究对象为彩色图像,因此利用颜色分布和区域结构相似性来表示二元文本特征。设p,q表示两个区域,若满足下式,则认为p,q是相邻的:dis(p,q)<2×min[max(wp,hp),max(wq+hq)]其中,w和h代表连通区域的宽和高,dis(p,q)是指p,q两个候选区域质心间的欧氏距离。(1)颜色分布通常情况下,同一行中的文字有着相同或者相似的颜色,因此颜色分布可以反应相邻文本区域之间的关系。由于LAB颜色空间是基于生理特性的颜色系统,更符合人类的视觉感应,故在计算颜色分布时将图像从RGB颜色空间转换为LAB颜色空间。选取两个区域的平均颜色直方图之间的距离作为描述区域之间的颜色分布特征:其中,pi和qi分别代表区域p和q的颜色直方图。(2)区域结构相似性区域结构相似性是描述相邻区域的空间关系、几何与纹理相似性,这里利用灰度强度比、形状差异、笔画宽度均值比和区域间距4个特征描述。形状差异是指两个区域的高度比与宽度比的均值,区域间距是指两个区域质心之间的距离,区域相似性Bregion取4个特征值的均值。使用一元特征和二元特征构建能量函数并求其最优解能量函数的区域项反应区域本身的特性,而边缘梯度特征RHOG、中心环绕直方图Rcenter和笔画宽度变异系数RSW三个一元特征能够很好的描述文本区域的本身特性。对于区域p利用这三个特征建立区域项:其中,n=3,fi(i=1,2,3)分别是指RHOG、Rcenter和RSW,σ是准度因子,由交叉验证取为0.25。能量函数的边界项反应区域和邻域间的关系,而颜色分布Bcolor和区域相似性Bregion描述的是文本区域和邻域之间的关系,当区域p和其领域q颜色分布与区域相似性越接近,边界项B{p,q本文档来自技高网
...

【技术保护点】
一种基于图割模型的场景图像文本定位的方法,其特征是:将文本区域和背景区域的多个不同特征,通过图割模型融合起来,即采用代表文本区域特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项,采用描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项,并以一元特征和二元特征构建能量函数,通过求解能量函数最小达到对图的最优分割,将图像分割作为候选文本区域与背景区域的二分类过程,从而实现图像中的文本定位。

【技术特征摘要】
1.一种基于图割模型的场景图像文本定位的方法,其特征是:
将文本区域和背景区域的多个不同特征,通过图割模型融合起来,即采用代表文本区域
特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项,采用
描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项,并以
一元特征和二元特征构建能量函数,通过求解能量函数最小达到对图的最优分割,将图像分
割作为候选文本区域与背景区域的二分类过程,从而实现图像中的文本定位。
2.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法,其特征是所述
采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数作为一元文本特征,其方法是:
1)边缘梯度特征
由于文本区域一般含有丰富的边缘信息,文本的边缘方向大致相反而且幅值大致相同,
各方向上的梯度相差不大,故边缘梯度是描述文本特性的有效特征。通过边缘检测提取候选
区域的边缘后,将梯度方向分为8个通道,每个通道为π/4,然后计算梯度的方向与幅值,
根据下式统计候选区域的边缘梯度特征:
RHOG=Σi=1,2,3,4(Hi-Hi+4)2Σi=18Hi]]>其中,Hi代表第i通道内的梯度。
(2)中心环绕直方图
中心环绕直方图是指中心区域与其周围区域特征之间的卡方距离,是一个局部显著性特
征:
χ2(I,Ir)=12Σ(I-Ir)2I+Ir]]>其中,I是指中心区域,Ir是指最小外接矩形框内中心区域以外的区域。为了引起人的视
觉注意,文本通常具有局部显著性,相比于局部区域内周围的背景在强度上有较大的差异,
因此采用亮度特征的中心环绕直方图,但是由于文本特有的结构,一般都会包含很多的孔洞,
其中心和周围的差异不像其他显著目标那样明显,所以这里利用高斯函数对其进行了平滑:
Rcenter=g(x)*χ2(I,Ir)
其中,g(x)是指高斯函数。
(3)笔画宽度变异系数
笔画宽度特征是文本特有的特征,这里利用候选区域中笔画宽度的变异系数
RSW=1NΣi=1N(xi-meansw)2/meansw]]>来表示区域的文本特性。
3.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法,其特征是所述
采用颜...

【专利技术属性】
技术研发人员:于凤芹
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1