多语言场景字符识别方法及识别系统技术方案

技术编号:15197086 阅读:88 留言:0更新日期:2017-04-21 04:34
本发明专利技术涉及一种多语言场景字符识别方法及识别系统。其中,该方法可以包括:确定场景字符图像中字符的语言类型;根据字符的语言类型,确定深度卷积神经网络模型;利用深度卷积神经网络模型,来提取场景字符图像的卷积层特征;基于卷积层特征,建立空间金字塔模型;利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对场景字符描述子进行分类,以实现多语言场景字符的识别。本发明专利技术实施例对多语言的场景字符图像具有很好的识别效果,是一种通用的字符识别方法,对多语言场景文字识别具有良好的适应性。

Multi language scene character recognition method and recognition system

The invention relates to a method and a system for recognizing characters in a multi language scene. Among them, the method can include determining the type of scene character image characters in the language; according to the type of character language, determine the depth of convolutional neural network model; using convolutional neural network model to extract the feature of character image convolution layer scene; convolution layer based on the characteristics of building spatial Pyramid model; high order encoding for each Pyramid space area in space model using the Gauss model; the high order encoding results after stitching together as the scene character descriptor; classify the scene descriptor by using character classifier, to achieve multi language character recognition scene. The embodiment of the invention has good recognition effect on the multi language scene character image, and is a universal character recognition method.

【技术实现步骤摘要】

本专利技术涉及模式识别和机器视觉领域中的文本图像识别
,尤其是涉及一种多语言场景字符识别方法及识别系统。
技术介绍
文字作为一种人类设计的符号,表达了高层的信息,对理解图像中的内容有着重要的帮助。因此,文字的自动检测识别引起了人们的高度关注,它对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义,有着广泛的应用前景和商业价值。然而,由于自然场景中字符受到复杂背景、不均匀光照、低分辨率、多样字体、不同颜色等因素的影响,直接使用传统的光学字符识别(OCR)技术,识别效果不能令人满意。因此,真实场景中文字识别方法具有很强的研究必要,设计一种有效的场景字符图像的特征表示十分重要。通常对于场景字符识别采用人工设计的特征,如HoG和Sift等。这些特征依赖BoW框架,因为不满意的词典学习和编码策略,字符识别性能差强人意。另一种是基于深度学习的特征,这种特征依赖神经网络从全连接层提取特征,因此时间复杂度高而且全连接层特征忽略了字符本质的空间结构信息,而空间信息对于字符识别是十分重要的。所以,设计一种高效的场景文字识别方法具有重要的意义。因此,在本专利技术中提出一种基于深度空间金字塔的多语言场景字符识别方法。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何提高场景字符识别效果的技术问题而提供一种多语言场景字符识别方法及识别系统。为了实现上述目的,一方面,提供以下技术方案:一种多语言场景字符识别方法,所述方法包括:确定场景字符图像中字符的语言类型;根据所述字符的语言类型,确定深度卷积神经网络模型;利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征;基于所述卷积层特征,建立空间金字塔模型;利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对所述场景字符描述子进行分类,以实现多语言场景字符的识别。进一步地,所述根据所述字符的语言类型,确定深度卷积神经网络模型,具体包括:将字符语言类型所具有的字符类别个数确定为所述深度卷积神经网络模型的输出节点个数;利用随机梯度下降法进行训练,确定所述深度卷积神经网络模型。进一步地,在所述利用随机梯度下降法进行训练之前还包括:将所述场景字符图像的尺度进行归一化;所述利用随机梯度下降法进行训练,确定所述深度卷积神经网络模型,具体包括:基于归一化后的场景字符图像,设置初始学习率、动量、权重衰减率及迭代次数,并采用softmax函数作为输出层的激励函数,利用随机梯度下降法进行训练,从而确定所述深度卷积神经网络模型。进一步地,所述利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征,具体包括:对所述场景字符图像的尺度进行归一化;提取所述深度卷积神经网络模型中最后一层卷积层特征,并将其作为所述场景字符图像的卷积层特征。进一步地,所述基于所述卷积层特征,建立空间金字塔模型,具体包括:对所述卷积层特征建立Level0层的空间金字塔;对所述卷积层特征建立Level1层的空间金字塔;在所述卷积层特征的中部加入空间金字塔区域;结合所述Level0层的空间金字塔、所述Level1层的空间金字塔和所述空间金字塔区域,建立所述空间金字塔模型。进一步地,所述高斯模型通过以下方式来确定:根据下式对所述每一空间区域的卷积层特征进行学习,从而确定所述高斯模型:其中,所述x表示提取的所述卷积层特征;所述P(x|π,μ,Σ)表示概率密度函数;所述gk(x;μk,Σk)表示第k个高斯模型;所述μk∈RD表示所述第k个高斯模型的特征均值;所述Σk=diag(σk),σk∈RD,表示所述第k个高斯模型的特征协方差矩阵;所述πk表示所述第k个高斯模型的权重;所述K表示所述高斯模型的总数。进一步地,所述利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码,具体包括:将所述每一空间区域的卷积层特征的个数拼接起来作为所述每一空间区域对应点的特征;根据下式确定所述高斯模型的特征均值和特征协方差矩阵的偏导结果:其中,所述x表示提取的所述卷积层特征;所述t表示所述x的索引;所述xt表示抽取的第t个卷积层特征;所述μk∈RD表示第k个所述高斯模型的特征均值;所述σk表示所述第k个高斯模型的方差;所述γt(k)表示所述第k个高斯模型产生所述xt的概率;所述T表示所述x的个数;所述j表示所述高斯模型的索引;所述表示对所述μk求偏导的结果;所述表示对所述Σk求偏导的结果;将所有所述高斯模型的所述特征均值和所述特征协方差矩阵的偏导结果拼接起来。进一步地,在所述将高阶编码后的结果拼接起来之前,所述方法还包括:对高阶编码后的结果进行归一化。进一步地,所述对高阶编码后的结果进行归一化具体包括:根据下式对所述高阶编码后的结果进行功率归一化:其中,所述fλ(x)表示高阶编码后的结果;根据下式对功率归一化的结果进行L2向量归一化:其中,所述fλ(x)T表示所述fλ(x)的转置。为了实现上述目的,另一方面,还提供了以下技术方案:一种多语言场景字符识别系统,所述系统包括:语言确定模块,用于确定场景字符图像中字符的语言类型;网络确定模块,用于根据所述字符的语言类型,确定深度卷积神经网络模型;特征提取模块,用于利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征;建立模块,用于基于所述卷积层特征,建立空间金字塔模型;编码模块,用于利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码;拼接模块,用于将高阶编码后的结果拼接起来,作为场景字符描述子;分类模块,用于利用分类器对所述场景字符描述子进行分类,以实现多语言场景字符的识别。本专利技术实施例提供了一种多语言场景字符识别方法及识别系统。其中,该方法可以包括:确定场景字符图像中字符的语言类型;根据字符的语言类型,确定深度卷积神经网络模型;利用深度卷积神经网络模型,来提取场景字符图像的卷积层特征;基于卷积层特征,建立空间金字塔模型;利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对场景字符描述子进行分类,以实现多语言场景字符的识别。本专利技术实施例通过提取卷积层特征,使得对于输入的场景字符图像的尺寸没有严格要求,增加了本专利技术实施例的适应性。而且,卷积层特征保留了输入图像的长宽比,每一个卷积层特征上的点与输入的场景字符图像的空间位置相关联,使得卷积层特征包含字符结构信息。同时,建立的空间金字塔模型使得卷积层特征包含更多的空间结构信息。通过高阶编码后,得到的特征表达能力更强。本专利技术实施例对多语言的场景字符图像具有很好的识别效果,是一种通用的字符识别方法,对多语言场景文字识别具有良好的适应性。附图说明图1为根据本专利技术实施例的多语言场景字符识别方法的流程示意图;图2为根据本专利技术实施例的英文、中文、韩文、孟加拉文示意图;图3a为根据本专利技术实施例的基于英文的场景字符图而建立的深度卷积神经网络模型示意图;图3b为根据本专利技术实施例的基于其他语言的场景字符图而建立的深度卷积神经网络模型示意图;图4a为根据本专利技术实施例的包含英文的场景字符图像原图示意图;图4b为根据本专利技术实施例的将包含英文的场景字符图像原图归一化到32个像素尺度的结果示意图;本文档来自技高网...
多语言场景字符识别方法及识别系统

【技术保护点】
一种多语言场景字符识别方法,其特征在于,所述方法包括:确定场景字符图像中字符的语言类型;根据所述字符的语言类型,确定深度卷积神经网络模型;利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征;基于所述卷积层特征,建立空间金字塔模型;利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对所述场景字符描述子进行分类,以实现多语言场景字符的识别。

【技术特征摘要】
1.一种多语言场景字符识别方法,其特征在于,所述方法包括:确定场景字符图像中字符的语言类型;根据所述字符的语言类型,确定深度卷积神经网络模型;利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征;基于所述卷积层特征,建立空间金字塔模型;利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对所述场景字符描述子进行分类,以实现多语言场景字符的识别。2.根据权利要求1所述的方法,其特征在于,所述根据所述字符的语言类型,确定深度卷积神经网络模型,具体包括:将字符语言类型所具有的字符类别个数确定为所述深度卷积神经网络模型的输出节点个数;利用随机梯度下降法进行训练,确定所述深度卷积神经网络模型。3.根据权利要求2所述的方法,其特征在于,在所述利用随机梯度下降法进行训练之前还包括:将所述场景字符图像的尺度进行归一化;所述利用随机梯度下降法进行训练,确定所述深度卷积神经网络模型,具体包括:基于归一化后的场景字符图像,设置初始学习率、动量、权重衰减率及迭代次数,并采用softmax函数作为输出层的激励函数,利用随机梯度下降法进行训练,从而确定所述深度卷积神经网络模型。4.根据权利要求1所述的方法,其特征在于,所述利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征,具体包括:对所述场景字符图像的尺度进行归一化;提取所述深度卷积神经网络模型中最后一层卷积层特征,并将其作为所述场景字符图像的卷积层特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述卷积层特征,建立空间金字塔模型,具体包括:对所述卷积层特征建立Level0层的空间金字塔;对所述卷积层特征建立Level1层的空间金字塔;在所述卷积层特征的中部加入空间金字塔区域;结合所述Level0层的空间金字塔、所述Level1层的空间金字塔和所述空间金字塔区域,建立所述空间金字塔模型。6.根据权利要求1所述的方法,其特征在于,所述高斯模型通过以下方式来确定:根据下式对所述每一空间区域的卷积层特征进行学习,从而确定所述高斯模型:P(x|π,μ,Σ)=Σk=1Kπkgk(x;μk,Σk)]]>其中,所述x表示提取的所述卷积层特征;所述P(x|π,μ,∑)表示概率密度函数;所述gk(x;μk,∑k)表示第k个高斯模型;所述μk∈RD表示所述第k个高斯模型的特征均值;所述Σk=diag(σk),σk∈RD表示所述第k个高斯模型的特征协方差矩阵;所述πk表示所述第k个高斯模型的权重;所述K表示所述高斯模型的总数。7.根据权利要求1所述的方法,其特征在于,所述利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码,具体包括:将所述每一空间区域的卷...

【专利技术属性】
技术研发人员:史存召王燕娜王春恒肖柏华
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1