多语言场景字符识别方法及识别系统技术方案

技术编号：15197086 阅读：95 留言：0更新日期：2017-04-21 04:34

本发明专利技术涉及一种多语言场景字符识别方法及识别系统。其中，该方法可以包括：确定场景字符图像中字符的语言类型；根据字符的语言类型，确定深度卷积神经网络模型；利用深度卷积神经网络模型，来提取场景字符图像的卷积层特征；基于卷积层特征，建立空间金字塔模型；利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码；将高阶编码后的结果拼接起来，作为场景字符描述子；利用分类器对场景字符描述子进行分类，以实现多语言场景字符的识别。本发明专利技术实施例对多语言的场景字符图像具有很好的识别效果，是一种通用的字符识别方法，对多语言场景文字识别具有良好的适应性。

Multi language scene character recognition method and recognition system

The invention relates to a method and a system for recognizing characters in a multi language scene. Among them, the method can include determining the type of scene character image characters in the language; according to the type of character language, determine the depth of convolutional neural network model; using convolutional neural network model to extract the feature of character image convolution layer scene; convolution layer based on the characteristics of building spatial Pyramid model; high order encoding for each Pyramid space area in space model using the Gauss model; the high order encoding results after stitching together as the scene character descriptor; classify the scene descriptor by using character classifier, to achieve multi language character recognition scene. The embodiment of the invention has good recognition effect on the multi language scene character image, and is a universal character recognition method.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模式识别和机器视觉领域中的文本图像识别
，尤其是涉及一种多语言场景字符识别方法及识别系统。
技术介绍
文字作为一种人类设计的符号，表达了高层的信息，对理解图像中的内容有着重要的帮助。因此，文字的自动检测识别引起了人们的高度关注，它对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义，有着广泛的应用前景和商业价值。然而，由于自然场景中字符受到复杂背景、不均匀光照、低分辨率、多样字体、不同颜色等因素的影响，直接使用传统的光学字符识别(OCR)技术，识别效果不能令人满意。因此，真实场景中文字识别方法具有很强的研究必要，设计一种有效的场景字符图像的特征表示十分重要。通常对于场景字符识别采用人工设计的特征，如HoG和Sift等。这些特征依赖BoW框架，因为不满意的词典学习和编码策略，字符识别性能差强人意。另一种是基于深度学习的特征，这种特征依赖神经网络从全连接层提取特征，因此时间复杂度高而且全连接层特征忽略了字符本质的空间结构信息，而空间信息对于字符识别是十分重要的。所以，设计一种高效的场景文字识别方法具有重要的意义。因此，在本专利技术中提出一种基于深度空间金字塔的多语言场景字符识别方法。
技术实现思路
为了解决现有技术中的上述问题，即为了解决如何提高场景字符识别效果的技术问题而提供一种多语言场景字符识别方法及识别系统。为了实现上述目的，一方面，提供以下技术方案：一种多语言场景字符识别方法，所述方法包括：确定场景字符图像中字符的语言类型；根据所述字符的语言类型，确定深度卷积神经网络模型；利用所述深度卷积神经网络模型，来提取所述场景字符图像...
多语言场景字符识别方法及识别系统

【技术保护点】
一种多语言场景字符识别方法，其特征在于，所述方法包括：确定场景字符图像中字符的语言类型；根据所述字符的语言类型，确定深度卷积神经网络模型；利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征；基于所述卷积层特征，建立空间金字塔模型；利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码；将高阶编码后的结果拼接起来，作为场景字符描述子；利用分类器对所述场景字符描述子进行分类，以实现多语言场景字符的识别。

【技术特征摘要】
1.一种多语言场景字符识别方法，其特征在于，所述方法包括：确定场景字符图像中字符的语言类型；根据所述字符的语言类型，确定深度卷积神经网络模型；利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征；基于所述卷积层特征，建立空间金字塔模型；利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码；将高阶编码后的结果拼接起来，作为场景字符描述子；利用分类器对所述场景字符描述子进行分类，以实现多语言场景字符的识别。2.根据权利要求1所述的方法，其特征在于，所述根据所述字符的语言类型，确定深度卷积神经网络模型，具体包括：将字符语言类型所具有的字符类别个数确定为所述深度卷积神经网络模型的输出节点个数；利用随机梯度下降法进行训练，确定所述深度卷积神经网络模型。3.根据权利要求2所述的方法，其特征在于，在所述利用随机梯度下降法进行训练之前还包括：将所述场景字符图像的尺度进行归一化；所述利用随机梯度下降法进行训练，确定所述深度卷积神经网络模型，具体包括：基于归一化后的场景字符图像，设置初始学习率、动量、权重衰减率及迭代次数，并采用softmax函数作为输出层的激励函数，利用随机梯度下降法进行训练，从而确定所述深度卷积神经网络模型。4.根据权利要求1所述的方法，其特征在于，所述利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征，具体包括：对所述场景字符图像的尺度进行归一化；提取所述深度卷积神经网络模型中最后一层卷积层特征，并将其作为所述场景字符图像的卷积层特征。5.根据权利要求1所述的方法，其特征在于，所述基于所述卷积层特征，建立空间金字塔模型，具体包括：对所述卷积层特征建立Level0层的空间金字塔；对所述卷积层特征建立Level1层的空间金字塔；在所述卷积层特征的中部加入空间金字塔区域；结合所述Level0层的空间金字塔、所述Level1层的空间金字塔和所述空间金字塔区域，建立所述空间金字塔模型。6.根据权利要求1所述的方法，其特征在于，所述高斯模型通过以下方式来确定：根据下式对所述每一空间区域的卷积层特征进行学习，从而确定所述高斯模型：P(x|π,μ,Σ)=Σk=1Kπkgk(x;μk,Σk)]]>其中，所述x表示提取的所述卷积层特征；所述P(x|π,μ,∑)表示概率密度函数；所述gk(x；μk,∑k)表示第k个高斯模型；所述μk∈RD表示所述第k个高斯模型的特征均值；所述Σk＝diag(σk),σk∈RD表示所述第k个高斯模型的特征协方差矩阵；所述πk表示所述第k个高斯模型的权重；所述K表示所述高斯模型的总数。7.根据权利要求1所述的方法，其特征在于，所述利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码，具体包括：将所述每一空间区域的卷...

【专利技术属性】
技术研发人员：史存召，王燕娜，王春恒，肖柏华，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人