当前位置: 首页 > 专利查询>谷歌公司专利>正文

后光学字符识别处理中的形状聚类制造技术

技术编号:7682587 阅读:160 留言:0更新日期:2012-08-16 05:56
本申请涉及后光学字符识别处理中的形状聚类。用于在包括光学字符识别(OCR)处理的输出的各种文档处理中的应用和形状聚类的技术和系统。

【技术实现步骤摘要】

本说明书涉及形状聚类和光学字符识别。
技术介绍
光学字符识别(OCR)使用一般将被称作OCR引擎的计算机软件来对原本在纸张、缩影胶片或其它介质上印刷的、打字的、手写的或其它书写文本的数字图像进行处理,并且从所述图像产生机器可识别和可编辑的文本。通过OCR引擎处理的文档的数字图像可包括多页书写材料的图像。要由OCR引擎进行处理的文本的图像可通过各种成像方法来获取,包括使用图像扫描仪来捕捉文本的数字图像。OCR引擎通常产生矩形边框旨在共同地围住每个页面上所写的文本。通常,当文档图像具有灰度或色彩信息时,OCR引擎对所述图像进行二进制化以使得将每个图像像素确定为前景像素(例如,黑色文本)或背景像素(例如,白色区域)。每个边框通常围住OCR引擎所感知(perceive)的一个字符的文本像素的一个或多个连接群组,但是也可以与相邻字符的一部分重叠,或者在极端情况下,可以完全重叠。在这样的情形中,现有几种方法将OCR引擎识别为属于所述边框内部的像素与属于不同但重叠边框的像素分离。这些方法 包括通过阈值和所连接成分的分析来生成掩膜图像,构建轮廓多边形,并且构建并行四边形的边框。OCR引擎通常为每个边框指派一个或多个OCR字符码。每个OCR码识别所述引擎已认出在该边框内的一个或多个字符。如果OCR引擎无法认出边框中的任何字符,则其可不向该边框指派OCR字符码。OCR字符码所识别的每个字符可以以标准字符编码进行表示,例如ASCII或统一字符编码。每个边框可被认为是对文档图像的一部分或小图像进行隔离的剪切(clipping)路径,无论其为原始形式或经二进制化的二进制形式。由于这些小图像可被认为是由其相应的边框从文档图像剪切而来,所以这些小图像将被称作剪切(clip)或剪切图像。由于每个剪切图像被绑定到边框、OCR字符码,所以指派给边框的字符也能够被称作或识别为指派给所述剪切图像的代码或字符。除非另外指出,术语剪切或剪切图像是指作为文档图像的一部分并且由OCR引擎所处理以便进行字符识别的图像。OCR引擎在该处理期间可能产生错误。例如,OCR引擎通过例如仅包括边框中的部分字符或包括在单个边框中被认作单个字符的多个字符而对原始图像进行了不正确分割。作为另一个示例,OCR引擎由于边框所围住的剪切图像和用于不同字符码的参考图像之间的一些图像相似性或者由于该OCR引擎所接收的数字图像的低图像质量而对边框指派不正确的OCR字符。
技术实现思路
除其它内容之外,该说明书描述了用于在包括光学字符识别(OCR)处理的输出在内的各种文档的处理中进行形状聚类和应用的技术和系统。在一个方面,一种方法可包括以下将在所接收的由OCR处理所处理的文档的OCR输出中限定的剪切图像归类为剪切图像的集群;处理每个集群中的剪切图像以生成每个集群的集群图像;比较所述集群图像来检测所述OCR处理对其错误指派了一个或多个OCR字符码的集群;对OCR输出中被检测为具有错误指派的一个或多个OCR字符码的第一集群指派一个或多个新的OCR字符码;并且在所述OCR输出中的第一集群的剪切图像之一每次出现时使用所述一个或多个新的OCR字符码替代错误指派的OCR字符码以产生经修改的OCR输出。每个集群包括被OCR处理指派了相同的一个或多个字符码的剪切图像。在另一个方面,一种用于光学字符识别(OCR)的系统可包括OCR引擎和后OCR引擎。所述OCR引擎可操作来处理文档的原始图像以产生包括从所述原始图像提取的剪切图像的OCR输出并且向每个剪切图像指派一个或多个字符。所述后OCR引擎可操作来将所述OCR输出的剪切图像归类为剪切图像的集群。每个集群包括被OCR引擎指派了相同的一个或多个字符码的剪切图像。所述后OCR引擎可操作来对每个集群中的剪切图像进行处理以生成每个集群的集群图像并且将所述集群图像进行比较以检测被OCR引擎错误指派了一个或多个OCR字符码的集群。所述后OCR引擎进一步被操作来对OCR输出中被检测为具有错误指派的一个或多个OCR字符码的第一集群指派一个或多个新的OCR字符码,并且在所述OCR输出中的第一集群的剪切图像之一每次出现时使用所述一个或多个新的OCR字符码替代错误指派的OCR字符码以产生经修改的OCR输出。在另一个方面,一种用于后光学字符识别(OCR)处理的方法可包括将在所接收的由光学字符识别(OCR)处理所处理的文档的OCR输出中限定的剪切图像归类为剪切图像的集群;处理每个集群中的剪切图像以生成每个集群的集群图像。每个集群包括大小相同或相似并且被OCR处理指派了相同的一个或多个字符码的剪切图像。对于被指派了一个或多个第一 OCR字符码的第一集群,该方法识别(I)被指派了与所述一个或多个第一 OCR字符码不同的一个或多个第二 OCR字符码的第二集群,其中所述第二集群的集群图像在形状上相比被指派了与所述一个或多个第一 OCR字符码不同的一个或多个OCR字符的其它集群的集群图像更接近所述第一集群的集群图像,和(2)被指派了与第一集群相同的一个或多个第一 OCR字符码的第三集群,其中所述第三集群的集群图像在形状上比被指派了一个或多、个第一 OCR字符码的其它集群的集群图像更接近所述第一集群的集群图像。该方法至少使用第一集群和第二集群的集群图像之间的形状差异以及第一集群和第三集群的集群图像之间的形状差异来确定指派给第一集群的一个或多个第一 OCR字符码的置信等级。在另一个方面,一种用于光学字符识别(OCR)的系统可包括OCR引擎和后OCR引擎。所述OCR引擎可操作来处理文档的原始图像以产生包括从所述原始图像提取的剪切图像的OCR输出并且向每个剪切图像指派一个或多个字符;并且所述后OCR引擎可操作来将所述OCR输出的剪切图像归类为剪切图像的集群。每个集群包括大小相同或相似并且被OCR引擎指派了相同的一个或多个字符码的剪切图像。所述后OCR引擎可操作来对每个集群中的剪切图像进行处理以生成每个集群的集群图像。所述后OCR引擎还可操作来对于被指派了一个或多个第一 OCR字符码的第一集群识别(I)被指派了与所述一个或多个第一OCR字符码不同的一个或多个第二 OCR字符码的第二集群,其中所述第二集群的集群图像在形状上相比被指派了与所述一个或多个第一 OCR字符码不同的一个或多个OCR字符的其它集群的集群图像更接近所述第一集群的集群图像,和(2)被指派了与第一集群相同的一 个或多个第一 OCR字符码的第三集群,其中所述第三集群的集群图像在形状上比被指派了一个或多个第一 OCR字符码的其它集群的集群图像更接近所述第一集群的集群图像。在该系统中,所述后OCR引擎可操作来至少使用第一集群和第二集群的集群图像之间的形状差异以及第一集群和第三集群的集群图像之间的形状差异来确定指派给第一集群的一个或多个第一 OCR字符码的置信等级。在另一个方面,一种用于光学字符识别(OCR)的系统可包括集群生成引擎和集群处理引擎。所述集群生成引擎可操作来接收OCR输出,该OCR输出具有OCR引擎在处理文档的原始图像时所产生的分离图像以及由所述OCR引擎向每个分离图像指派的一个或多个字符。所述集群生成引擎可操作来将所述OCR输出中的分离图像归类为具有特定图像大小并且被OCR引擎指派了相同的一个和多个OCR字符本文档来自技高网
...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:路克·文森特雷蒙德·W·史密斯
申请(专利权)人:谷歌公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1