图像文字识别方法技术

技术编号：21572372 阅读：15 留言：0更新日期：2019-07-10 15:37

本发明专利技术公开了一种图像文字识别方法，涉及图像识别技术领域。该图像文字识别方法包括以下步骤：步骤S1、采集多张带有文字的自然场景图像信息；步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注，以得到标签数据，并将标签数据进行预处理得到图像数据；步骤S3、建立基于卷积的多层多尺度神经网络，将所述图像数据输入至所述多层多尺度神经网络进行训练；步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据，将待处理图像数据输入至训练后的所述多层多尺度神经网络中，通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。本发明专利技术可以实现自动快速的识别自然场景图像中的文字。

Image Character Recognition Method

全部详细技术资料下载

【技术实现步骤摘要】
图像文字识别方法
本专利技术涉及图像识别
，特别是涉及一种图像文字识别方法。
技术介绍
自然场景图像文字识别的目的是获取裁切后的图像中一个词所包含的语义信息。由于自然场景图像与文档图像有很大的区别，传统的字符识别方法不能直接应用于自然场景图像中的文本识别。近年来，研究人员进行了大量的在自然场景图像中的文字识别研究。文字识别是将图像信息转换为一系列符号的过程，这些符号可以由计算机表示和处理。本质上，文字识别任务可以被认为是一种特殊的翻译过程：将图像信号转换为“自然语言”，这与语音识别和机器翻译类似：从数学的角度来看，它们将包含大量噪声的一组输入序列转换为给定标签组的一组输出序列。在现有技术中，有研究人员使用整个自然图像来识别文字：他们使用基于渐变的特征图来比较预制的单词图像，并使用动态k近邻来确定当前图像中包含的单词，它依赖于固定字典和预生成的单词图像。到2013年时，使用集成的Fisher向量和结构化支持向量机框架来建立图片与整个单词编码之间的关系。谷歌在2013年发表了一篇街景图像数字识别的文章。文中介绍了一种从街景中提取数字的系统。该系统使用端到端神经网络，作者阐述了在同一网络中如何能够以人类精确度击败谷歌自己的CAPTCHA(CompletelyAutomatedPublicTuringTesttoTellComputersandHumansApart，全自动区分计算机和人类的图灵测试)系统，并且谷歌的架构已经证明适用于CAPTCHAS。在该文章中，首先提出使用maxout(激活函数)作为非线性激活单元构造一个深度CNN(Convolution...

【技术保护点】
1.一种图像文字识别方法，其特征在于，包括以下步骤：步骤S1、采集多张带有文字的自然场景图像信息；步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注，以得到标签数据，并将所述标签数据进行预处理得到图像数据；步骤S3、建立基于卷积的多层多尺度神经网络，将所述图像数据输入至所述多层多尺度神经网络进行训练并得到训练好的神经网络模型；步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据，将所述待处理图像数据输入至训练后的所述多层多尺度神经网络模型中，通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。

【技术特征摘要】
1.一种图像文字识别方法，其特征在于，包括以下步骤：步骤S1、采集多张带有文字的自然场景图像信息；步骤S2、将采集到的自然场景图像信息的文字区域进行人工标注，以得到标签数据，并将所述标签数据进行预处理得到图像数据；步骤S3、建立基于卷积的多层多尺度神经网络，将所述图像数据输入至所述多层多尺度神经网络进行训练并得到训练好的神经网络模型；步骤S4、采集待识别的自然场景图像信息并进行预处理得到待处理图像数据，将所述待处理图像数据输入至训练后的所述多层多尺度神经网络模型中，通过所述多层多尺度神经网络自动识别并输出所述待识别的自然场景图像信息中的文字信息。2.根据权利要求1所述的图像文字识别方法，其特征在于，所述多层多尺度神经网络包括输入层、下采样模块、残差模块和全连接层模块；所述下采样模块由卷积核大小相当的三个卷积层构成；所述残差模块由卷积核各不相等的七个密集子模块构成；所述输入层用于接收图像数据，所述下采样模块提取图像数据中的语义特征，并将所述语义特征输入至残差模块中，再经由所述七个密集子模块处理后，由所属全连接层输出文字信息。3.根据权利要求2所述的图像文字识别方法，其特征在于，所述步骤S2中，将所述标签数据进行预处理得到图像数据还包括以下步骤：步骤S21、在所述标签数据中选择包含文字的图像进行归一化处理，以达到预设分辨率；步骤S22、将归一化处理后的图像进行裁剪以得到预设尺寸的图像数据。4.根...

【专利技术属性】
技术研发人员：李孝杰，罗超，史沧红，吴锡，周激流，李俊良，刘书樵，张宪，伍贤宇，
申请(专利权)人：成都信息工程大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人