提供了一种基于拍摄的图像来识别字符的方法和装置。所述装置包括图像确定单元、图像效果单元、二值化单元和字符识别单元。所述图像确定单元被配置为:用于当输入图像被输入时,从输入图像中选择将用于图像分析的感兴趣的区域(ROI),并且对选定的ROI进行分析,以确定输入图像的类型。如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的,则所述图像效果单元被配置为将用于区分显示屏幕中的字符区域和背景区域的图像效果应用到输入图像上。所述二值化单元被配置为根据输入图像的确定类型对输入图像或图像效果单元的输出进行二值化。所述字符识别单元被配置为从二值化输入图像中识别字符。
【技术实现步骤摘要】
本专利技术一般地涉及用于识别字符的方法和装置,并且更具体地,涉及用于识别在由照相机拍摄的显示屏幕图像中的字符的方法和装置。
技术介绍
随着智能手机变得越来越流行,从通过智能手机的照相机拍摄文件、名片等所获得的图像中识别字符的应用的使用也得到增加。在此,在用于识别字符的功能中,光学字符识别功能具有很高的可能性被用作多模态软件输入面板,其向智能手机提供了除了触摸键盘、语音识别等之外的另一种基本输入功能。识别由移动照相机所拍摄的字符图像的方法向用户提供了经由电子邮件或文本消息来向另一个用户传送识别结果的功能、连接到因特网(Internet)的功能等。具体而言,在通过照相机来对字符进行拍摄而识别出计算机屏幕上显示的字符时,用户可以容易地从计算机将各种字符信息传送到智能手机,并且出于各种目的而使用该信息,从而提高了用户的便利性。通过使用移动相机来识别在计算机屏幕上字符的方法要求与用于识别书籍、杂志、等的常规方法不同的技术方法。当通过使用高分辨率移动相机来拍摄在计算机屏幕上显示的字符时,照相机图像的分辨率通常大于计算机屏幕的分辨率,这将导致会使得对于每个像素的位置上的字符识别性能劣化的图像噪声。因此,传统的字符识别系统的使用是受限的,并且将计算机屏幕图像锐化的操作和将具有低分辨率的屏幕图像转换为具有高分辨率的图像的操作不适用于一般的基于照相机的字符识别系统。
技术实现思路
因此,本专利技术的一个方面是为了解决在现有技术中发生的至少一个上述问题,并且本专利技术实施例的进一步的目的是提供了用于识别从通过拍摄诸如计算机屏幕、TV屏幕的显示屏幕、以及诸如报纸、书籍、杂志等的文件而获取的拍摄图像中识别字符的方法和装置。根据本专利技术的第一方面,提供了一种基于拍摄的图像的字符识别装置,所述装置包括:图像确定单元,被配置用于当输入图像被输入时,从输入图像中选择将用于图像分析的感兴趣的区域(R0I),并且对选定的ROI进行分析,以确定输入图像的类型;图像效果单元,其被配置为如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的,则将用于区分显示屏幕中的字符区域和背景区域的图像效果应用到输入图像上;二值化单元,其被配置为根据输入图像的确定的类型对输入图像或图像效果单元的输出进行二值化;以及字符识别单元,其被配置为从二值化的输入图像中识别字符。根据本专利技术的第二方面,提供了一种基于拍摄的图像的字符识别方法,所述方法包括:当输入图像被输入时,从输入图像中选择将用于图像分析的感兴趣的区域(ROI);通过分析选定的ROI来确定输入图像的类型;如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的,则向输入图像应用用于区分显示屏幕中的字符区域和背景区域的图像效果;根据输入图像的确定的类型对输入图像或具有应用的图像效果的输入图像进行二值化;以及从二值化的输入图像中识别字符。根据本专利技术的另一方面,提供了一种包括指令的计算机程序,所述指令被布置为当被执行时实现根据上述各方面的任意一个方面的方法和/或装置。进一步的方法提供存储这样的程序的机器可读存储器。附图说明结合附图,从下面的详细描述中,本专利技术的上述和其他方面、特征、和优点将变得更加明显:图1是示出了根据本专利技术的实施例的字符识别装置的视图;图2是示出在其中,根据本专利技术的实施例,基于确定结果,字符识别装置确定输入图像的类型和识别字符的处理的流程图;图3是示出在其中,根据本专利技术的实施例的图像确定单元确定输入图像的类别的处理的流程图;图4至10是示出在其中根据本专利技术的实施例的图像确定单元确定输入图像的类别的处理的视图;图11是示出了在其中根据本专利技术的实施例的图像效果单元将效果应用到输入图像的处理的视图;图12是示出了根据本专利技术的实施例的结果输出单元输出的字符识别结果的视图;以及图13是示出了根据本专利技术实施例的,当通过拍摄文件而获得图像时,通过图像确定单元来确定输入图像的示例的视图。具体实施例方式在下文中,将参照附图来详细描述本专利技术的实施例。在下面的描述中,已知功能和配置的详细描述被省略,以避免模糊本专利技术的主题。图1示出了根据本专利技术的实施例的字符识别装置。字符识别装置包括:照相机单元10、图像确定单元20、图像效果单元30、二值化单元40、字符识别单元50、以及结果输出单元60。通过将输入光信号转换成图像帧,相机单元10输出输入图像。图像确定单元20确定与输入图像相对应的所拍摄图像的类型,并且基于确定的结果,向图像效果单元30或二值化单元40输出输入图像。例如,图像确定单元20确定输入图像是对应于通过拍摄诸如计算机屏幕或TV屏幕的显示屏幕而获得的图像,或者是对应于通过拍摄诸如报纸、书籍、杂志等的文件而获得的图像。当结果显示输入图像是通过拍摄显示屏幕而获得的图像时,图像确定单元20将输入图像输出到图像效果单元30。当输入图像是通过拍摄文件而获得的图像时,图像确定单元20将输入图像输出到二值化单元40。具体而言,图像确定单元20可以使用频域分析方法和基于分类器(classifier-based)的方法来分析输入图像的类型。首先,频率域分析方法可以在输入图像中选择感兴趣的区域(R0I),并从选定的ROI中提取频率分布特性,以分析所提取的频率分布特性。在此,ROI可指在整个图像区域中的感兴趣的几个区域。随后,基于分类器的方法提取与计算机屏幕对应于的图像的特性和剩余图像的特征,通过使用分类器来学习所提取的特征而生成二进制分类器,并且将二进制分类器应用到特性识别系统。根据本专利技术的一个方面,将离散余弦变换(DCT)方法应用作为频率分析方法。如果确定的结果指示该输入图像是通过拍摄显示屏幕获得的图像,则图像效果单元30将预定的效果应用到输入的拍摄图像上,并且输出改变后的图像。具体而言,图像效果单元30将图像模糊(blurring)效果应用到所拍摄的图像,以减少在字符区域和背景区域之间的颜色的差异。二值化单元40可以将该改变后的图像(应用了该效果的输入图像)二值化,或者将从图像确定单元20输入的拍摄图像二值化,以生成二值化图像。具体而言,二值化单元40对拍摄的图像进行二值化,以将拍摄的图像转换为计算机能够识别为诸如O和I的代码。二值化单元40将输入图像或改变后的图像转换为二值化图像。例如,二值化单元40可以通过将具有超过阈值的亮度、强度和/或颜色的全部像素值替换为1,并将其他全部像素值替换为O来从一图像创建二进制图像(二值化图像)。字符识别单元50从二值化图像中识别字符。具体而言,字符识别单元50基于光学字符识别方案来识别字符。结果输出单兀60输出子符识别的结果值。根据本专利技术的实施例,确定输入图像是对应于通过拍摄显示屏幕而获得的图像或者对应于通过拍摄文件而获得的图像,并且因此,可以准确识别通过拍摄显示屏幕而获得的图像中包括的字符。图2示出了在其中,根据本专利技术的实施例,基于确定结果,字符识别装置确定输入图像的类型和识别字符的处理。在步骤200,照相机单元10可以捕获输入图像。在步骤201中,图像确定单元20可以分析在输入图像中的R0I,以确定输入图像的类型。例如,图像确定单元20确定输入图像的类型是对应于通过拍摄计算机屏幕而获得的计算机屏幕图像,或者是对应于其他的图像。在步骤202中,图像确定单元20确定输入图像是否是计算机屏本文档来自技高网...
【技术保护点】
一种基于拍摄的图像来识别字符的装置,所述装置包括:图像确定单元,所述图像确定单元被配置为用于当输入图像被输入时,从输入图像中选择将用于图像分析的感兴趣的区域(ROI),并且对选定的ROI进行分析,以确定输入图像的类型;图像效果单元,如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的,则所述图像效果单元被配置为将用于区分显示屏幕中的字符区域和背景区域的图像效果应用到输入图像上;二值化单元,所述二值化单元被配置为根据输入图像的确定类型对输入图像或图像效果单元的输出进行二值化;以及字符识别单元,所述字符识别单元被配置为从二值化输入图像中识别字符。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:金尚镐,姜宇声,权茂植,金桢林,朴正完,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。