一种表格数据处理方法,所述方法包括: 从包括多个单元格的表格的图像中生成多个候选单元格,并且通过提取所述候选单元格的特定组合而输出初始表格; 接受来自用户的对包含在所述初始表格中的特定候选单元格的指定,作为对错误单元格的指定; 通过从所述候选单元格的所述特定组合之外的所述候选单元格中选择能够替换所指定的错误单元格的至少一部分的候选单元格,生成候选组;和 向所述用户呈现所述候选组,并且提示所述用户选择所述候选组中包含的所述候选单元格之一。
【技术实现步骤摘要】
本专利技术涉及一种从表格的图像中识别出由分格线(ruledline)和单元 格(其是由分格线围出的区域)组成的表格的技术,更加具体地讲,涉及 一种修正自动识别出的分格线或单元格(cell)的技术。io
技术介绍
近来,随着商务的计算机化,大量电子文档已经开始得到使用。作为 用于使已经使用纸质文档进行了运作的商务计算机化或者用于把用纸件发 布的文档转换成电子文档的技术,诸如光学字符读取器或者光学字符识别 (OCR)这样的文档图像识别技术的重要性不断提高。尤其是,用于识别15包含在诸如表格文档这样的文档中的表格的技术是很重要的。所使用的表格是由垂直和水平分格线组成的。在识别表格结构的表格 识别技术中,已经开发出了识别表格中的分格线以及由这些分格线围绕出 的单元格的位置和大小的技术。分格线提取方法包括例如根据文档图像中的垂直和水平像素游程提20取分格线的方法(例如,日本专利申请公告JP-A-H1-217583)。图像输入 构件借助扫描仪等获得文档图像。垂直和水平游程提取构件提取黑色像素 在垂直方向或水平方向上连续出现预定长度或更长长度的区域作为游程区 域。垂直和水平游程合并构件将提取出来的彼此相邻的游程区域合并成一 个分格线区域。最后,将所提取的分格线区域存储到分格线数据结构中。25此外,日本专利申请公报JP-A-H7-28939公开了一种即使在输入图像 有一些倾斜的情况下也能够正确对表格部分进行向量化的技术。具体来说, 在用于对表格图像中的表格部分进行向量化的装置中,配备有投影单元, 在该投影单元中,将表格图像当中的线段分类成垂直方向组和水平方向组, 仅仅将垂直方向组中的线段投影到水平轴上,并且仅仅将水平方向组中的线段投影到垂直轴上,以获得分格线的投影图像。此外,还配备有遮挡图 像产生器和分格线检索单元,遮挡图像产生器用于从垂直方向/水平方向绘 制出宽度与存储器中分格线的投影图像相同的直线,以生成遮挡图像,分 格线检索单元用于依据遮挡图像检索分格线,以对表格单元进行矢量化。 5然后,分格线检索单元从遮挡图像中提取出直线的交点,并且根据像素的 数量与所提取的交点之间的距离的比率来确定这些交点之间是否存在分格 线。单元格提取方法主要包括提取由分格线围绕的矩形区域的方法,和提 取交点(是分格线交叉的点)并且根据这些交点的位置关系提取单元格区io 域的方法。在例如《A Study on Table Recognition with Complex Structure》 (Kojima、 Kiyosue、 Akiyama, 37th second half of the national convention in Information processing Society of Japan, 6W-8,第1660—1161页,1988 年10月)(下文中称为非专利文献1)和《Structure Recognition of Various Kinds of Table画FormDocuments》(Qin、 Watanabe、 Sugie, the Transactions15 of the Institute of Electronics, Information and Communication Engieers, D-II,第J76-D-II巻,第10期,第2165—2176页,1993年10月)(下文 中称为非专利文献2)中公开了提取由分格线围绕的矩形区域的方法。再 有,日本专利申请公报JP-A-H9-50527也使用了类似的原理。非专利文献2的单元格提取方法为如下所述就是说,将进行单元格20提取所针对的表格区域确定为目标区域,并且用从目标区域的一个边缘到 另一个边缘的水平分格线分割目标区域。然后,针对各个分割出来的区域 对目标区域进行垂直分割。类似地,轮流进行水平分割和垂直分割,并且 重复进行这些分割,直到分割变得不可能进行。然后,提取单元格。此外,在多种文献中公开了根据分格线相交的交点提取单元格区域的25方法。例如,日本专利申请公报JP-A-H8-212292、 JP-A-H9-138837、 JP-A-H10-40333和JP-A-H8-221506 公开了这种方法。基本过程是从 单元格的左上角作为起始点沿着顺时针方向追踪单元格,并且将到起始点 的路径标识为单元格区域。存在着通过前面提到的表格识别技术提取出来的分格线和单元格不9正确的情况。尤其是,考虑到在从质量很差的图像中识别表格时会出现很 多错误。那么,借助通过提高表格识别的精度减少错误的手段和提高由用 户进行错误修正的可操作性的手段,进行了减小由不正确表格识别造成的 不良影响的尝试。5 作为一种减少错误的尝试,提出了这样一种方法分格线和单元格的提取结果并不是固定的,而是产生多个候选结果,并且最后,选择一组最 佳的候选结果。例如,《A Cell Extraction Method for Form Documents based on Combinatorial Optimization^ (Tanaka、 Takebe禾卩Fujimoto, Technical Research Report of the Institute of Electronic , Information andio Communication Engineers, PRMU2005-185, 2006年2月)(下文中称为非 专利文献3)公开了下述技术。就是,通过使用表格分格线相交处的交点 的信息提取出单元格区域的多个候选结果,并且通过组合搜索而获得一组 最佳的单元格。在这种技术中,通过为不确定的交点准备多个候选结果, 并且产生多个单元格候选结果,实现了交点错误影响的降低。is 另一方面,就由用户修正错误分格线和单元格的方法而言,传统上采用这样一种方法删除错误的部分,并且用户独立输入正确的分格线或单 元格,或者通过用户的操作改变错误分格线或单元格的形状,以产生正确的结果。例如,用户通过使用光标101 (见图24A)标明错误的单元格1000、 删除它(见图24B),然后他或她自己为缺少的部分绘制分格线和/或单元 20格(见图24C和24D)。此外,在要绘制多个单元格的时候,修正必然会 有很多麻烦。这样的编辑操作包括诸如单元格和/或分格线删除和插入以及 形状改变等的一些操作。此外,日本专利申请公告JP-A-H6-60222公开了下述技术。即,从涉及商务表单的输入图像数据中提取出分隔符候选,并且显示出分隔符候选 25的信息和输入图像数据。然后,基于显示图像数据的屏幕,由用户使用键 盘等对分隔符候选执行修正/添加/选择中的至少一种操作,然后将由该执 行最终确定的分隔符候选信息登记在格式数据库中。除了防止登记在数据 库中的分隔符信息的登记错误和信息缺失之外,如果需要的话,这能够实 现信息的添加。此外,在这之后,在识别商务表单的时候,通过参照登记在格式数据库中的分隔符信息,能够很容易地识别出字符,并且能够提高 识别精度。不过,这并没有呈现出单元格和分格线的候选以选择其一的配 置。再有,日本专利申请公报JP-A-H8-153161公开了本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:田中宏,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。