一种图像表格文字切分方法技术

技术编号：13180945 阅读：158 留言：0更新日期：2016-05-11 12:53

本发明专利技术涉及图像识别领域，特别涉及一种图像表格文字切分方法；本方法首先检测出待识别图像表格中的单元格，将每个单元格中的信息内容整体切分出来，再对每个单元格中的文字信息利用投影法进行切分出来；为图像表格文字识别提供了可靠快速的切分基础。在本发明专利技术方法中，巧妙利用图片识别的小角度倾斜的特点，利用单元格四角顶点坐标值所确定面积最小的矩形区域，将单元格的边框线去除，计算方法简单，保证了单元格文字内容的切分准确率。总之，本发明专利技术方法，解决了图像文字识别领域中一直难以克服的图像表格切分困难的问题，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别领域，特别涉及。
技术介绍
图像识别技术是目前智能识别
中非常重要的发展方向，图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别；其中在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，这是因为图像文字往往比单纯图像包含更加重要的可利用信息，而且图像文字识别技术所应用的领域也很重要。文字识别一般是识别文字、字母、数字和符号，从印刷文字识别到手写文字识别，应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有三种识别方法:统计模式识别、结构模式识别、模糊模式识别。随着图像文字的深入发展，越来越多种类的图像文字资料，被纳入图像文字识别的范畴中，其中表格作为文字数据记录汇总最精简表达方式，或者数据统计、结果分析中最常用的表达格式，是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性，比如对一个企业年度业绩报表，可能包含企业年度业绩中最重要的统计数据和分析结果，这些信息的重要性和概括性是其他任何材料所比拟不了的，目前的网络信息中充斥着各种表格资料，但是很多表格都是以图片的形式提供，比如各种扫描档案文件、PDF文件，自动识别这些图像表格资料，将图片类型的表格内容还原成数字资料是将这些资料进行快速处理和分析的基础。但是，由于表格资料本身的表格结构特征，使得表格图像文字的识别比一般的普通图像文字资料更加困难。现有文字识别技术在对图像中文字识别时，首先需要将图像中的字符串切分...

【技术保护点】
一种图像表格文字切分方法，其特征在于：将待处理图片进行二值化处理，检测出所述图像表格中的单元格；依次将各单元格中的内容作为一个整体切分出来，形成对应的子图片；再使用投影法将子图片中的文字信息切分出来。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈炳章，何宏靖，刘世林，吴雨浓，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人