图像文字识别方法技术

技术编号:21572372 阅读:15 留言:0更新日期:2019-07-10 15:37
本发明专利技术公开了一种图像文字识别方法,涉及图像识别技术领域。该图像文字识别方法包括以下步骤:步骤S1、采集多张带有文字的自然场景图像信息;步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注,以得到标签数据,并将标签数据进行预处理得到图像数据;步骤S3、建立基于卷积的多层多尺度神经网络,将所述图像数据输入至所述多层多尺度神经网络进行训练;步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据,将待处理图像数据输入至训练后的所述多层多尺度神经网络中,通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。本发明专利技术可以实现自动快速的识别自然场景图像中的文字。

Image Character Recognition Method

【技术实现步骤摘要】
图像文字识别方法
本专利技术涉及图像识别
,特别是涉及一种图像文字识别方法。
技术介绍
自然场景图像文字识别的目的是获取裁切后的图像中一个词所包含的语义信息。由于自然场景图像与文档图像有很大的区别,传统的字符识别方法不能直接应用于自然场景图像中的文本识别。近年来,研究人员进行了大量的在自然场景图像中的文字识别研究。文字识别是将图像信息转换为一系列符号的过程,这些符号可以由计算机表示和处理。本质上,文字识别任务可以被认为是一种特殊的翻译过程:将图像信号转换为“自然语言”,这与语音识别和机器翻译类似:从数学的角度来看,它们将包含大量噪声的一组输入序列转换为给定标签组的一组输出序列。在现有技术中,有研究人员使用整个自然图像来识别文字:他们使用基于渐变的特征图来比较预制的单词图像,并使用动态k近邻来确定当前图像中包含的单词,它依赖于固定字典和预生成的单词图像。到2013年时,使用集成的Fisher向量和结构化支持向量机框架来建立图片与整个单词编码之间的关系。谷歌在2013年发表了一篇街景图像数字识别的文章。文中介绍了一种从街景中提取数字的系统。该系统使用端到端神经网络,作者阐述了在同一网络中如何能够以人类精确度击败谷歌自己的CAPTCHA(CompletelyAutomatedPublicTuringTesttoTellComputersandHumansApart,全自动区分计算机和人类的图灵测试)系统,并且谷歌的架构已经证明适用于CAPTCHAS。在该文章中,首先提出使用maxout(激活函数)作为非线性激活单元构造一个深度CNN(ConvolutionalNeuralNetworks,卷积神经网络)来编码整个图像,并使用多个位置敏感的字符级别用于文本识别的分类器。他们在确定街景号码方面取得了巨大成功。他们还将模型应用于8位验证码识别任务,并使用合成训练数据训练模型。该方法在谷歌街景号码识别任务中实现了超过96%的识别率。同时,它已经获得了超过99%的谷歌验证码识别任务识别率,然后在文本分类中获得了最先进的结果。但深度CNN的缺点是预先选择了可预测序列的最大长度,这更适合于门牌号码或车牌号码。在2014年时有研究人员对上述模型进行了细微的修改:取消了用于预测字符长度的分类器,并使用终止符指示文本的结尾。然后,他们证明了使用合成训练数据训练的模型可以成功地应用于实际识别问题。将单词编码成矢量是一种可行的字典单词识别方法,但在没有约束的情况下,字符可以任意组合。当字符数足够时,基于固定长度矢量编码的方法的性能明显下降。但是,仍然存在一些不足:一些研究在单个字符识别步骤中使用了深度学习技术,但是总体框架仍然遵循传统的处理流程设计,因此在介绍中描述的问题在其他步骤中仍然会遇到。谷歌的研究使用纯神经网络直接完成整个识别过程,并取得行业领先的结果。然而,由于它们需要使用固定大小的图像作为输入,并将输入图像编码为固定长度的特征向量,因此在图像中有许多字符的情况下,模型的识别精度会大大降低。另一方面,由于它们的模型没有明确地定位和分割图像,因此不可能知道每个字符在原始图像中的位置。
技术实现思路
本专利技术的主要目的在于提供一种图像文字识别方法,旨在可以高精度地识别出自然场景中的文字。为实现上述目的,本专利技术提供一种图像文字识别方法,包括以下步骤:步骤S1、采集多张带有文字的自然场景图像信息;步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注,以得到标签数据,并将所述标签数据进行预处理得到图像数据;步骤S3、建立基于卷积的多层多尺度神经网络,将所述图像数据输入至所述多层多尺度神经网络进行训练并得到训练好的神经网络模型;步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据,将所述待处理图像数据输入至训练后的所述多层多尺度神经网络模型中,通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。优选地,所述多层多尺度神经网络包括输入层、下采样模块、残差模块和全连接层模块;所述下采样模块由卷积核大小相当的三个卷积层构成;所述残差模块由卷积核各不相等的七个密集子模块构成;所述输入层用于接收图像数据,所述下采样模块提取图像数据中的语义特征,并将所述语义特征输入至残差模块中,再经由所述七个密集子模块处理后,由所属全连接层输出文字信息。优选地,所述步骤S2中,将所述标签数据进行预处理得到图像数据还包括以下步骤:步骤S21、在所述标签数据中选择包含文字的图像进行归一化处理,以达到预设分辨率;步骤S22、将归一化处理后的图像进行裁剪以得到预设尺寸的图像数据。优选地,所述步骤S21还包括:所述归一化处理后的图像的像素值在0~255之间。优选地,所述步骤S22还包括:裁剪后的所述图像数据的尺寸为多层多尺度神经网络的接收尺寸。优选地,所述步骤S3包括以下步骤:步骤S31、在所述多层多尺度神经网络的输入层中输入所述图像数据;步骤S32、采用五折交叉验证法确认使用预设数量的图像数据作为训练样本,剩余部分作为测试样本;初始化所述多层多尺度神经网络的卷积层中的神经元权重及参数;步骤S33、在所述多层多尺度神经网络的输入层中输入64张所述图像数据;步骤S34、通过前向传播算法对所述多层多尺度神经网络进行训练、并输出预测文字;通过归一化指数函数分类器输出图像中文字识别的概率分布;步骤S35、通过准确度算法计算输出的预测文字与标签数据的误差;步骤S36、基于所述误差优化并更新所述多层多尺度神经网络的权重参数;步骤S37、重复步骤S33至步骤S36,直至训练损失和测试损失不再降低。优选地,所述准确度算法的等式为:其中,T表示识别正确的图像,F表示识别有误的图像。优选地,所述步骤S36还包括:通过Adam优化函数优化所述多层多尺度神经网络的权重参数。本专利技术有益效果为:本专利技术可以实现自动识别自然场景图像中的文字,且能取得较高的识别精度;且该方法的泛化能力很强,适用于大多数自然场景下的文字识别。附图说明图1为本专利技术图像文字识别方法的流程示意图;图2为本专利技术实施例的流程示意图;图3为本专利技术图像文字识别方法中的网络结构图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术进一步说明。如图1、图2所示,本专利技术实施例提供一种图像文字识别方法,包括以下步骤:步骤S1、采集多张带有文字的自然场景图像信息。在具体实施例中,采集已公开的自然图像数据集,共9960张自然场景图像。步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注,以得到标签数据,并将所述标签数据进行预处理得到图像数据。具体地,在步骤S2中,将所述标签数据进行预处理得到图像数据还包括以下步骤:步骤S21、在所述标签数据中选择包含文字的图像进行归一化处理,以达到预设分辨率。具体地,所述归一化处理后的图像的像素值在0~255之间。步骤S22、将归一化处理后的图像进行裁剪以得到预设尺寸的图像数据。具体地,裁剪后的所述图像数据的尺寸为多层多尺度神经网络的接收尺寸。在具体实施例中,由人工将自然场景图像信息中的文字区域进行标注,作为标签数据。步骤S3本文档来自技高网
...

【技术保护点】
1.一种图像文字识别方法,其特征在于,包括以下步骤:步骤S1、采集多张带有文字的自然场景图像信息;步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注,以得到标签数据,并将所述标签数据进行预处理得到图像数据;步骤S3、建立基于卷积的多层多尺度神经网络,将所述图像数据输入至所述多层多尺度神经网络进行训练并得到训练好的神经网络模型;步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据,将所述待处理图像数据输入至训练后的所述多层多尺度神经网络模型中,通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。

【技术特征摘要】
1.一种图像文字识别方法,其特征在于,包括以下步骤:步骤S1、采集多张带有文字的自然场景图像信息;步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注,以得到标签数据,并将所述标签数据进行预处理得到图像数据;步骤S3、建立基于卷积的多层多尺度神经网络,将所述图像数据输入至所述多层多尺度神经网络进行训练并得到训练好的神经网络模型;步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据,将所述待处理图像数据输入至训练后的所述多层多尺度神经网络模型中,通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。2.根据权利要求1所述的图像文字识别方法,其特征在于,所述多层多尺度神经网络包括输入层、下采样模块、残差模块和全连接层模块;所述下采样模块由卷积核大小相当的三个卷积层构成;所述残差模块由卷积核各不相等的七个密集子模块构成;所述输入层用于接收图像数据,所述下采样模块提取图像数据中的语义特征,并将所述语义特征输入至残差模块中,再经由所述七个密集子模块处理后,由所属全连接层输出文字信息。3.根据权利要求2所述的图像文字识别方法,其特征在于,所述步骤S2中,将所述标签数据进行预处理得到图像数据还包括以下步骤:步骤S21、在所述标签数据中选择包含文字的图像进行归一化处理,以达到预设分辨率;步骤S22、将归一化处理后的图像进行裁剪以得到预设尺寸的图像数据。4.根...

【专利技术属性】
技术研发人员:李孝杰罗超史沧红吴锡周激流李俊良刘书樵张宪伍贤宇
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1