本发明专利技术是一种面向碑文的汉字提取方法,主要包括基于Area Voronoi的汉字区域定位方法和基于连通域和包围盒的单字切分方法两个部分。首先针对碑文图像中汉字的分布规律和特点,获取图像中的连通域作为生成元,并利用Freeman编码链来表示每个连通域的轮廓。采用扩展轮廓边界的方法构建出图像的Area Voronoi图。然后根据连通域间的标准差,合并相邻的Area Voronoi区域,从而完成汉字区域的定位操作。在获取汉字区域图像之后,对其进行预处理,去除一定的噪声影响。通过归纳汉字的结构特点,将连通域分析法和包围盒交叠判断法二者相结合,对汉字进行单字提取。本发明专利技术针对古代碑文的排列规律,能够较好的完成单个汉字的提取工作,并具有一定的抗噪性。
【技术实现步骤摘要】
本专利技术属于计算机视觉与计算机图形图像处理领域,具体地说是一种图像中文本 定位和单字提取的方法,该方法可方便对于古代汉字的研宄,对探宄古今汉字演变规律具 有十分重要的意义。
技术介绍
碑文,作为书法一种传统的艺术形式,记录了中国汉字从古至今的发展和演变的 历程。但由于碑文一般都经历过漫长的历史年代,同时还要遭受自然腐蚀等的影响,使其不 利于永久的保存和传播。随着计算机的普及以及相关扫描设备的发展,碑文可以被扫描成 数字图像存储在计算机中,有效的提取出碑文中的汉字对后续的汉字结构分析以及探宄古 今汉字的演变规律具有十分重要的意义。目前对图像进行文本定位的方法主要以下三种:一是基于连通域的方法,如 Zhang等人提出了一个基于高阶马尔科夫随机场的框架,能够根据最大似然准则和结点状 态的后验概率判断是否为汉字区域。该类算法针对背景较为单一的图像具有很好的定位效 果,但是其性能依赖于初始连通域生成,对于背景纹理较为复杂的图像则面临考验;二是基 于边缘的方法,该类方法侧重于文字和背景之间的高对比度,时间效率较高,但不能去除复 杂的纹理背景,常与其他算法相结合,作为初始的粗定位;三是基于纹理的方法,Wu等人利 用三种不同尺度的高斯滤波器对图像进行滤波并进行线性变换,提出了一种多尺度纹理分 割的文本定位方法。此类方法通常具有较高的鲁棒性,但由于需要进行纹理分析的计算量 大、复杂度高,较为耗时。 现阶段针对碑文图像进行汉字提取的研宄并不多,由于碑文中的汉字排列不统 一,汉字的结构较为复杂,使得一般的汉字提取方法无法直接适用于该领域从而取得较好 的效果。【专利
技术实现思路
】 为克服上述缺点,本专利技术的目的在于探宄碑文图像中的汉字区域分布规律,研宄 汉字的结构特点,同时分析现有的文本定位和单字切分技术,为碑文图像的汉字获取提出 一种简单且有效的解决方案。 为了达到上述目的,本专利技术提出了,其特征在于包 括以下步骤: 步骤(1)、采用扩展边界的方法构建碑文图像的AreaVoronoi图,每个Voronoi 区域表示一个连通域,每个连通域根据其中是否包含汉字可分为汉字连通域和非汉字连通 域;由于汉字的离散性,在构建AreaVoronoi图的过程中会造成单个汉字笔画之间的分 离,从而分属于不同的连通域中,因此对于汉字连通域而言只包含部分汉字,称为汉字的组 件; 步骤(2)、根据连通域组件宽度标准差之间的差异性,去除非汉字连通域,并合并 所有的汉字连通域,从而可定位出碑文图像中的整个汉字区域;步骤(3)、对汉字区域图像进行TV平滑操作去除一定的噪声点,之后进行二值化, 使得图像只包含黑白两种像素方便后续操作;计算二值图像中的列投影直方图,根据碑文 书法列分布的间隔性规律,分割出单列的汉字区域; 步骤(4)、提取汉字图像列中的连通域,该连通域可能包含单个完整的汉字,也可 能为不同汉字的不同部分的组合,因此需要对连通域进行重组;分析常见的九种汉字结构 特点,将连通域外接矩形之间的关系总结为三种情况:上下关系、左右关系和重叠关系,根 据这三种关系进行有效的提取出汉字。 进一步的,所述步骤(1)中构建AreaVoronoi图的步骤如下: 步骤(11)、首先对图像进行连通域划分,每个连通域对应一个闭合的多边形,并对 各个连通域以及未被划分成连通域的背景点进行标记;步骤(12)、采用Freeman编码链表示每个连通域的轮廓,并对轮廓上以及轮廓内 部的像素点进行初始化,初始值为所对应轮廓的标记;步骤(13)、采用扩展Freeman编码链的方式扩展连通域的边界;同时对扩展轮廓 上的每一个点进行判断,如果该点同时也位于另外一个连通域轮廓上,那么该像素点可视 为一个Voronoi边界点,设置其值为EDGE_POINT;否则如果该点只是一个背景点,则设置其 值为相应的轮廓的标记; 步骤(14)、迭代的扩展、判断、标记每个连通域,当平面上所有的像素点都不再包 含背景像素时,即表示所有的像素点要么归属某一个Voronoi区域,要么为区域的边界点, 由此完成了图像的AreaVoronoi图的构建。 本专利技术的原理在于:首先对于获取的碑文图像,根据扩展边界的方法构建图像的 AreaVoronoi图,该图中的每个Voronoi包含了一个有效的连通域,该连通域根据是否包 含汉字可分为汉字连通域和非汉字连通域,通过一定的准则,合并汉字连通域,去除非汉字 连通域,从而定位出碑文图像中的汉字区域。接下来是单个汉字的提取操作,同样首先采取 连通域分析的方法初步表征区域中每个汉字,但此时划分出的区域中所包含的汉字并不完 整,是相邻汉字组合的结果。为了进一步细分区域,基于中国汉字常见的九种结构,归纳总 结了三种连通域的外接矩形的关系,分别为:上下关系、左右关系和重叠关系,利用这三种 关系,针对具有重叠的连通域进行下一步的细分操作,从而提取出有效的汉字。目前针对碑文图像的汉字提取研宄并不多,本专利技术中深入的分析了碑文图像中汉 字分布的特征规律,与现有的一般图像的文本提取技术相比的优点在于: (1)、考虑碑文图像中汉字的离散稀疏的分布特点,通过构建AreaVoronoi图的方 式对汉字区域进行划分,同时根据汉字的骨架宽度进行区域合并,能够有效的、针对性的定 位出汉字区域。 (2)、为了避免噪声的影响,首次采用了TV平滑的方法来去除碑文图像中细小的 噪声点,然后再进行二值化操作。同时在单字切分的过程中,对常见的九种汉字结构规律进 行归纳总结,提出了基于连通域及其包围盒的切分算法,实验结果表明,该算法能够简单有 效的提取出单个汉字。【附图说明】 图1示出本专利技术中针对碑文图像所构建的AreaVoronoi图; 图2示出本专利技术中原碑文图像以及进行汉字区域定位后的结果图,其中,图(a)为 原碑文图像,图(b)为进行汉字区域定位后的结果图;图3(a)、(b)、(c)、(d)、(e)、(f)、(g)、(h)、⑴示出本专利技术中归纳常见的九种汉 字结构; 图4示出本专利技术中对连通域包围盒重叠关系的定义; 图5示出本专利技术中单字切分算法的伪代码; 图6示出本专利技术中碑文图像的汉字切分结果图,其中图(a)为碑文图像,图(b)为 碑文图像的汉字切分结果图; 图7示出本专利技术中有噪声的碑文图像的汉字切分结果图,其中图(a)为有噪声的 碑文图像,图(b)为有噪声的碑文图像的汉字切分结果图; 图8示出本专利技术的的原理图。【具体实施方式】 结合附图对本专利技术实施例进行详细的描述。 本专利技术的实施过程主要分成四个步骤:AreaVoronoi图的构建、Voronoi区域合 并、碑文图像列分割、单字切分。 步骤一、AreaVoronoi图的构建,主要分为六个基本步骤: (1)首先对图像进行区域划分,得到n个互不重叠的连通域,记为G= {gpg2,. . .,gn},每个连通域对应一个闭合的多边形,其标记值为k(k= 1,2,…,n)。同时将 图像中未被划分到连通域中的背景像素的值设为BACKGROUND_VALUE。 (2)位于连通域内部中的各个像素点,设置其像素值为该连通域的标记值k(k= 1,2,…,n) 〇 (3)利用Freeman编码链表示每个连通域的轮廓,记为ICk。并将位于轮廓上的点 的像素值设为k+M,本文档来自技高网...
【技术保护点】
一种面向碑文的汉字提取方法,其特征在于包括以下步骤:步骤(1)、采用扩展边界的方法构建碑文图像的Area Voronoi图,每个Voronoi区域表示一个连通域,每个连通域根据其中是否包含汉字可分为汉字连通域和非汉字连通域;由于汉字的离散性,在构建Area Voronoi图的过程中会造成单个汉字笔画之间的分离,从而分属于不同的连通域中,因此对于汉字连通域而言只包含部分汉字,称为汉字的组件;步骤(2)、根据连通域组件宽度标准差之间的差异性,去除非汉字连通域,并合并所有的汉字连通域,从而可定位出碑文图像中的整个汉字区域;步骤(3)、对汉字区域图像进行TV平滑操作去除一定的噪声点,之后进行二值化,使得图像只包含黑白两种像素方便后续操作;计算二值图像中的列投影直方图,根据碑文书法列分布的间隔性规律,分割出单列的汉字区域;步骤(4)、提取汉字图像列中的连通域,该连通域可能包含单个完整的汉字,也可能为不同汉字的不同部分的组合,因此需要对连通域进行重组;分析常见的九种汉字结构特点,将连通域外接矩形之间的关系总结为三种情况:上下关系、左右关系和重叠关系,根据这三种关系进行有效的提取出汉字。
【技术特征摘要】
【专利技术属性】
技术研发人员:齐越,王晨,王晓卿,邹玲,韩尹波,罗江,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。