文本识别方法技术

技术编号:8883411 阅读:159 留言:0更新日期:2013-07-04 02:13
本发明专利技术公开了一种文本识别方法,涉及计算机技术领域,该方法包括以下步骤:S1:将原始图片划分成至少一个图像片段;S2:对所述图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。本发明专利技术的文本识别方法通过图像片段和传统验证码结合,将用户识别的图像片段中频率最高的文本最为图像片段的文本,相对于传统的OCR,提高了对图片中文本的识别精度。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种。
技术介绍
验证码(CAPTCHA)是challenge-response的一种类型,用来确保产生的响应不是计算机生成的,通常的办法是让计算机询问用户一个计算机能够生成并校验的简单问题。由于其他计算机不能识别验证码,所以输入的正确答案将被推定为是人类产生的。某些时候也被描述为“反向图灵测试(Reverse Turing Test) ”,因为这里发问的是计算机,回答者是人类,而“图灵测试(Turing Test)”的发问者是人类,回答者是计算机。一个典型的验证码要求用户输入一些在屏幕上显示的已经被扭曲处理的图像中的文本信息。对于验证码的自动生成有以下要求:A)当前的软件不能够精确识别;B)大多数人能够识别;C)攻击者不依赖于特定的CAPTCHA类型;尽管设计一个checkbox勾选框并注明“如果你不是台计算机请勾选这里”也许也是能够区别出人类和计算机,但是这依赖由于一个事实:攻击者不会为特定的形式发起攻击。因此该方法不属于CAPTCHA现有的应用中通常采用光学字符识别:(Optical Character Recognition, OCR)方法来识别文本信息,OCR是属于图型识别(Pattern Recognition,PR)的一门学问。其目的就是要让计算机知道它到底看到了什么,尤其是文字资料。由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。OCR的步骤主要分为:a)影像输入;b)影像前处理;c)文字特征抽取;d)对比识别;e)字词后处理;f)人工校正;g)结果输出。OCR的缺陷是:由于OCR识别存在精度的限制,始终还是存在一些图像无法识别出其中的文本信息。现有的验证码安全性:为了加强验证码的安全性,存在一种利用加入信息噪声的解决方法。如图1所示,该方法在于通过将验证码图片中加入噪点、线段、颜色、图像变形的方法,加大机器图像识别的难度,但同时也加大了人类识别文本信息的难度,降低了人类识别效率和正确率。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何准确地从图像中识别出文本信息。(二)技术方案为解决上述技术问题,本专利技术提供了一种,包括以下步骤:S1:将原始图片划分成至少一个图像片段;S2:对所述图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。其中,所述步骤S2具体包括:S2.1:将至少一个图像片段和验证码拼接成一张图片;S2.2:将用户输入的字符中除验证码显示字符以外的字符作为所述图像片段的文本识别结果;S2.3:将最多用户识别出的文本结果作为从该图像片段识别出的文本。其中,所述步骤S2.1中,对所述图像片段和验证码进行上下左右,顺序随机地拼接。其中,所述图片中图像片段和验证码各自的字符不重叠。其中,所述步骤S2.2中还将不同用户的文本识别结果传输到服务器存储,步骤S2.3中实时统计最多用户识别出的文本结果。其中,所述原始图片为OCR无法识别出其中文本的图片。其中,所述步骤SI中还包括对划分的图像片段设置唯一标识信息,步骤S2之后还包括根据所述唯一标识信息将从图像片段识别出的文本还原成原始图片对应的文本。其中,所述步骤SI中,划分出的图像片段互不重叠。其中,若为纸件,步骤SI之前还包括扫描所述纸件以形成所述原始图片的过程。其中,所述唯一标识信息包括:片段编号及片段所在原始图片中的位置。(三)有益效果本专利技术的通过图像片段和传统验证码结合,将用户识别的图像片段中频率最高的文本结果最为图像片段的文本,相对于传统的0CR,提高了对图片中文本的识别精度。附图说明图1是现有技术中的验证码示意图;图2是本专利技术实施例的一种流程图;图3是本专利技术实施例的另一种流程4是图2或图3中步骤S202的具体流程图。具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术方法的整体思路是将目前带有文字的图像与传统验证码(CAPTCHA)生成结合起来,按照一定方式呈现给用户,用户的输入串只要能够满足传统验证码(CAPTCHA)生成的那一部分就被认为通过验证。多个不同用户通过这样的方式,可以得到多个带有文字的图像中的文本信息的解读,计算机系统将认为其中最多人输入的串就是这个图片中所具有的文本信息。从而达到提取图片中文字的目的。命名该种方法为“CAPTCHA+Translation”,生成的验证码为“C-T图”。具体流程如图2所示,包括:步骤S201,将原始图片划分成至少一个图像片段,划分的图像片段个数由有原始图片的大小决定;步骤S202,对图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。如图3所示,还包括步骤S203,将从图像片段识别出的文本还原成原始图片对应的文本。为了方便将识别出的图像片段对应的文本还原成原始图片对应文本,步骤S201中还对划分的图像片段设置唯一标识信息,唯一标识信息包括:片段编号及段所在原始图片中的位置,段所在原始图片中的位置用于确定各图像片段前后左右的位置关系,如,某图片格式的电子书,段所在原始图片中的位置包括:页码、行和列等信息。为了提高还原文本的准确性,在步骤S201中划分的图像片段应该互不重叠,即同一位置出的文本不应该划分到两个不同图像片段中。若为纸件的文件或书籍,步骤S201之前还包括S200,将纸件扫描以形成原始图片,并将原始图片存储在数据库中以待使用。本实施例中,利用与传统验证码结合的方式来实现对图像片段进行若干次识别,上述步骤S202的具体流程如图4所示。当用户在登录时,系统(通常指某应用的客户端)收到登录的请求,将生成的验证码和图像片段并接成一张图片,即C-T图。为了防止用户得知判断算法后随意输入造成识别品质下降,因此不才采用特别的算法,而是在拼接时,将验证码和图像片段按上下左右位置关系及先后顺序进行随机化排列。为了便于用户识别,并接后的图片最好不重叠。为了保证后期验证的安全性,也可以将验证码和两个或更多的图像片段按随机的位置关系进行拼接以增加机器识别的难度。用户输入后,系统获取到用户输入的字符串,判断其中是否包含验证码中的字符串A,若不包含,则验证失败;若包含,则验证成功,同时将非A的部分作为图像片段的文本识别结果通过网络发送到服务器中存储,由于图像片段本身清晰度以及用户自身等因素的影响,对于每个图像片段不同用户识别出的文本识别结果不一样,如:用户Ul识别的非A的部分为BI,用户U2识别的非A的部分为B2,Un识别的非A的部分为Bn,本实施例中采用投票算法对不同的文本识别结果BI,B2,......,Bn进行统计,出现频率最高的作为从该图像片段中识别出的文本。由于人眼识别本事比OCR的精确度高,并且随着用户不断地识别,实时进行统计,得到的结果会更精确。优选地,原始图片为事先采用OCR识别后无法识别或识别率较低的部本文档来自技高网
...

【技术保护点】
一种文本识别方法,其特征在于,包括以下步骤:S1:将原始图片划分成至少一个图像片段;S2:对所述图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:张程
申请(专利权)人:北京新媒传信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1