一种图像表格文字切分方法技术

技术编号:13180945 阅读:144 留言:0更新日期:2016-05-11 12:53
本发明专利技术涉及图像识别领域,特别涉及一种图像表格文字切分方法;本方法首先检测出待识别图像表格中的单元格,将每个单元格中的信息内容整体切分出来,再对每个单元格中的文字信息利用投影法进行切分出来;为图像表格文字识别提供了可靠快速的切分基础。在本发明专利技术方法中,巧妙利用图片识别的小角度倾斜的特点,利用单元格四角顶点坐标值所确定面积最小的矩形区域,将单元格的边框线去除,计算方法简单,保证了单元格文字内容的切分准确率。总之,本发明专利技术方法,解决了图像文字识别领域中一直难以克服的图像表格切分困难的问题,在图像文字识别,信息挖掘,信息分析领域具有巨大的应用前景。

【技术实现步骤摘要】

本专利技术涉及图像识别领域,特别涉及。
技术介绍
图像识别技术是目前智能识别
中非常重要的发展方向,图像识别的发展 经历了三个阶段:文字识别、数字图像处理与识别、物体识别;其中在众多的图像识别技术 中,对图像文字的识别技术显得尤为重要,这是因为图像文字往往比单纯图像包含更加重 要的可利用信息,而且图像文字识别技术所应用的领域也很重要。文字识别一般是识别文 字、字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。图像识别问题的数 学本质属于模式空间到类别空间的映射问题。目前,在图像识别的发展中,主要有三种识别 方法:统计模式识别、结构模式识别、模糊模式识别。 随着图像文字的深入发展,越来越多种类的图像文字资料,被纳入图像文字识别 的范畴中,其中表格作为文字数据记录汇总最精简表达方式,或者数据统计、结果分析中最 常用的表达格式,是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而 喻。不难看出对于表格式图像文字识别的重要性,比如对一个企业年度业绩报表,可能包含 企业年度业绩中最重要的统计数据和分析结果,这些信息的重要性和概括性是其他任何材 料所比拟不了的,目前的网络信息中充斥着各种表格资料,但是很多表格都是以图片的形 式提供,比如各种扫描档案文件、PDF文件,自动识别这些图像表格资料,将图片类型的表格 内容还原成数字资料是将这些资料进行快速处理和分析的基础。 但是,由于表格资料本身的表格结构特征,使得表格图像文字的识别比一般的普 通图像文字资料更加困难。现有文字识别技术在对图像中文字识别时,首先需要将图像中 的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行 识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投 影找到两个文字之间的分界线,根据分界线将文字切分开来。由于表格的框线的存在,直接 使用传统的投影法所实现的文字切分和识别就不太现实。同时由于表格本身结构的复杂多 变,复杂多变的轮廓框线使得投影法难以实现将表格文字信息的切分。面对大量的图像表 格数据的快速分析需要,亟待一种快速,准确,完整的图像表格文字切分方法
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种图像表格文字切 分方法,能够快速准确的将图像表格中的文字信息切分出来。本专利技术首先检测出待识别图 像表格中的单元格,提取出单元格的轮廓点集,根据单元格的轮廓点集,构造出包含单元格 轮廓点集的面积最小的矩形区域,提取出该矩形区域的四角顶点坐标,根据该四角顶点坐 标将对应单元格中的文字信息切分提取出来,在单元格内容整体切分出来的基础上,通过 侧向投影实现单元格中的行切分,再通过垂直投影实现每一行的单个文字切分。通过本发 明方法实现的图像表格文字切分,单元格切分准确,切分效率高;克服了一直以来图像表格 文字识别中切分困难的问题。 为了实现上述专利技术目的,本专利技术提供以下技术方案, ,包含以下实现过程: 将待处理图片进行二值化处理,检测出所述图像表格中的单元格,依次将各单元 格中的内容作为一个整体切分出来,形成对应的子图片; 再使用投影法将子图片中的文字信息切分出来。 具体的,本图像表格文字切分方法采用以下实现步骤: (1)将待处理图像表格进行二值化处理,使用openCV图像处理工具中的 f indcontours函数检测出图像表格单元格轮廓;将检测出的单元格轮廓的点集提取出来放 置在对应的点类中(如:用Vectorl,Vector2,Vector3......来表示);f indcontours函数能 够根据表格框线轮廓的特点将单元格的轮廓检测出来,并将检测出的单元格轮廓点集提取 出来,检测效率高。 (2)对所述步骤(1)提取出的单元格轮廓点集,调用minAreaRect函数构建出包含 单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标 占 . (3)根据四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对 应的子图片; (4)采用投影法将所述子图片中的文字信息依次切分出来。进一步的,所述步骤(3)中根据minAreaRect函数提取出的旋转矩形区域的四角顶 点坐标,计算出表格单元文字信息切分点,比如提取出的四角顶点坐标分别是:左下角顶点 的坐标为(xl,yl),右下角顶点的坐标为(x2,y2),右上角顶点的坐标为(x3,y3),左上角顶 点的坐标为(x4,y4);在四角顶点坐标的基础上,比较X1、x4的大小,选取其中的较大值Max (X1,x4),比较x2、x3的大小,选取其中的较小值Min(x2,x3),比较y 1、y2的大小,选取其中的 较大值Max(yl,y2),比较y3、y4的大小,选取其中的较小值Min(y3,y4),根据X = Max(xl, x4),X=Min(x2,x3),Y = Max(yl,y2),Y=Min(y3,y4);将这四条直线所围成的矩形区域将 单元格中的文字信息作为整体切分出来,形成对应子图片。实际应用中图像表格在进行识 别时,不带任何倾斜角度的情况极其少见,即使经过初步的矫正,仍然可能带有小角度的倾 斜,此外利用minAreaRect函数提取出的旋转矩形区域也有可能具有小角度的倾斜,本专利技术 利用这种图像表格识别的特点,通过上述单元格内容切分方法,在进行单元格文字信息切 分过程中,巧妙的将单元格子图片的边框线去除了,为后续步骤的单元格文字信息切分创 造了有利的条件。 进一步的,所述步骤(4)中,根据横向投影和纵向投影坐标确定每个文字的坐标位 置,根据坐标位置可以依次把单个文字切分出来,子图片中切分出来的文字可以按照原有 的顺序进行识别,保证了子图片中文字识别的顺序和逻辑准确性。 进一步的,所述步骤(4)中对切分出来的单元格文字图像进行侧向投影,计算出一 行的非〇像素的个数,并将该值放到pro jection_y类中。每一行非0像素的计算方法为:,i是行数,j是列数,pix(i,j)是对应像素值,n+1是总的列数。 进一步的,所述步骤(4)中对projection_y类中的元素进行遍历,变量k遍历范围 为从1开始到pro jection_y · size( )-1结束。如果pro jection_y =0,pro jection_y >0, project ion_y>0,则判断k为某一行的起始切分点,并将其放到类vector〈int> top中;如果pro jection_y = 0,pro jection_y >0,pro jection_y >0,则判断 k为某一行的终点切分点,并将其放到类vector〈int>bottom中;top. size() = bottom, size ()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来,对应的两个坐标 值也就是该行所有文字的上下两个y坐标。进一步的,对于切分出来的每一行的文字图像进行垂直投影,计算出一列的非0像 素的个数,并将该值放到P r 0 j e c t i ο η _ X类中。每一列非0像素的计算方法为::j是列数,i是行数,PiX(i,j本文档来自技高网
...

【技术保护点】
一种图像表格文字切分方法,其特征在于:将待处理图片进行二值化处理,检测出所述图像表格中的单元格;依次将各单元格中的内容作为一个整体切分出来,形成对应的子图片;再使用投影法将子图片中的文字信息切分出来。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈炳章何宏靖刘世林吴雨浓
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1