本发明专利技术的实施例描述用于执行背景敏感OCR的方法和设备。装置使用耦合到所述装置的相机来获得图像。所述装置识别包括图形对象的所述图像的一部分。所述装置推断与所述图像相关联的背景且基于与所述图像相关联的所述背景来选择图形对象群组。使用所述图形对象群组来产生改进的OCR结果。可使用来自包含麦克风、GPS和相机等各种传感器的输入连同包含话音、触摸和用户使用模式的用户输入一起推断用户背景且选择与所述所推断的背景最相关的字典。
【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术的实施例描述用于执行背景敏感OCR的方法和设备。装置使用耦合到所述装置的相机来获得图像。所述装置识别包括图形对象的所述图像的一部分。所述装置推断与所述图像相关联的背景且基于与所述图像相关联的所述背景来选择图形对象群组。使用所述图形对象群组来产生改进的OCR结果。可使用来自包含麦克风、GPS和相机等各种传感器的输入连同包含话音、触摸和用户使用模式的用户输入一起推断用户背景且选择与所述所推断的背景最相关的字典。【专利说明】使用背景信息的移动装置上的光学字符辨识相关申请案的交叉参考本申请案主张2011年8月29日申请的标题为“具有背景信息的相机OCR (CAMERAOCR WITH CONTEXT INFORMATION) ”的第61/528,741号美国临时申请案的优先权,且所述申请案以引用的方式并入本文中。
技术介绍
光学字符辨识(OCR)将书写的、打字的或印刷的文本、图形或符号的扫描图像机械地或电子地转变为机器编码的文本。OCR是在计算机视觉和扩增现实应用中的增长的研究领域。计算机视觉允许装置感知其附近的环境。计算机视觉通过允许来自与现实世界的终端用户交互的传感输入延伸到虚拟世界中而实现扩增现实中的应用。在现实实例应用中,具备计算机视觉功能的OCR可帮助视觉残障的个人感知例如智能电话等个人移动装置的相机的视野中的书写文本和符号。模拟到数字变换的时代还促进了 OCR的应用以及所述技术中的改进。大多数文件柜和大型记录摘要系统会进行到数字可搜索媒体的变换。在OCR技术中的所有进步下,OCR仍不适合于具有有限处理能力的移动装置。来自由移动装置俘获的相机图像的字符和符号的无限辨识会由于对不同语言和不同文化的字、字符和符号的庞大选择而难以处理。因为OCR需要在移动装置上实时或几乎实时地运行以支持计算机视觉和扩增现实应用,所以计算复杂性也是问题。本专利技术的实施例解决了这些和其它问题。
技术实现思路
本专利技术提供用于执行背景敏感OCR的技术。本文中所描述的技术对于具有有限处理能力的移动装置特别有用。然而,本文中所描述的技术的应用不限于移动装置,且可适用于所有OCR应用。来自包含麦克风、GPS和相机的各种传感器的输入连同包含话音、触摸和用户使用模式的用户输入一起用于推断用户背景且选择与所推断的背景最相关的字典的过程中。—种用于执行OCR的方法的实例包含:使用耦合到装置的相机来获得图像;识别包括至少一个图形对象的图像的一部分;推断与所述图像相关联的背景;基于与所述图像相关联的所述背景来选择图形对象群组;以及使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。在一些实施例中,改进OCR结果包含使用所述图形对象群组来执行OCR。在另一实施例中,改进所述OCR结果包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。所述方法可进一步包含使用OCR结果来改进所述推断的背景。此方法的实施可包含以下特征中的一者或一者以上。图形对象可包含符号、字符、字、标志和数字中的一者或一者以上。所述图形对象群组可包含通过共同特性而彼此相关联的多个图形对象,且可表示字典或字典的精炼。在本专利技术的一些方面中,图像的背景是非文本的。在其它方面中,可使用图形说明来推断背景,其中图形说明可来自包括对象的姿势和图形表示的群组中的至少一者。还可使用传感器输入来推断图像的背景。可通过相机、麦克风、光传感器、时钟和GPS兀件中的一者或一者以上来提供所述传感器输入。还可通过估计相机与至少一个图形对象之间的距离且基于所述相机与所述至少一个图形对象之间的所述所估计的距离来推断背景,而推断背景。推断背景还可包含:检测与在其中获得图像的环境中的多个光线相关联的至少一个特性;以及基于与所述多个光线相关联的所述至少一个特性来推断背景。此外,与所述多个光线相关联的所述至少一个特性可为亮度,其中阈值以下的亮度会产生在室内获得图像的推断,且阈值以上的亮度会产生在室外获得图像的推断在其它实施方案中,推断背景可包含:使用麦克风接收音频输入;对所述视频输入执行模式辨识;以及基于所述音频输入中的所辨识的模式来推断背景。所述所辨识的模式可为来自用户的话音命令,或相机的在接收音频输入时的位置的指示。推断背景还可包含从用户接收背景相关信息,且基于来自用户的所述所接收的背景相关信息而推断背景。还可基于装置的位置来推断背景,其可包含:估计装置的位置;以及基于装置的所述所估计的位置而推断背景。可使用装置的GPS元件、相对于小区塔的信号的强度或来自麦克风的音频输入来估计装置的位置。在一些实施例中,内容语义和结构分析还可用于分析与图像相关联的背景的过程中对于结构布局分析,可将图形对象之间的关系彼此进行比较或与图形说明进行比较。图形说明可为对象的姿势或图形表示。对于内容语义分析,可分析图形对象彼此的共现或与图形说明的共现。此外,可使用例如图像中的以多种语言显示的文本等图形对象来分析内容语义。在一个实施例中,识别包括呈第一种语言的第一图形对象和呈第二种语言的第二图形对象的图像的一个或一个以上部分,其中所述第一图形对象和所述第二图形对象具有类似含义。还识别第一图形对象的第一多个候选者以及第二图形对象的第二多个候选者,且所述图形对象是选自与第二多个候选者中的至少一者具有类似含义的第一多个候选者。此外,来自第一多个候选者的图形对象可包含将第二图形对象的第二多个候选者翻译为第一语言;以及从第一多个候选者中找出与经翻译的第二多个候选者具有类似含义的至少一个图形对象。一种用于执行OCR的装置的实例包含:处理器;用于获得图像的相机;以及耦合到所述处理器的非暂时性计算机可读存储媒体,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法包含:使用耦合到装置的相机获得图像;识别包括至少一个图形对象的图像的一部分;推断与所述图像相关联的背景;基于与所述图像相关联的所述背景来选择图形对象群组;以及使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。改进OCR结果可包含使用所述图形对象群组来执行OCR。改进所述OCR结果还可包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述多个OCR候选者中选择一OCR候选者。所述装置可进一步使用所述OCR结果来改进所述推断的背景。此装置的实施可包含上文关于其它实例所论述的特征中的一者或一者以上。本专利技术的实施例的额外实例包含耦合到所述处理器的非暂时性计算机可读存储媒体,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法可包含:使用耦合到装置的相机获得图像;识别包括至少一个图形对象的图像的一部分;推断与所述图像相关联的背景;基于与所述图像相关联的所述背景来选择图形对象群组;以及使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。改进所述OCR结果包含使用所述图形对象群组来执行OCR。改进所述OCR结果还可包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:黄奎雄,太元·李,金杜勋,延奇宣,真珉豪,金泰殊,朝玄默,
申请(专利权)人:高通股份有限公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。