当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于尺度自适应及方向注意力网络的场景文字识别方法技术

技术编号:27098443 阅读:18 留言:0更新日期:2021-01-25 18:39
本发明专利技术涉及一种基于尺度自适应及方向注意力网络的场景文字识别方法,将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;对转换得到的高阶语义特征,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。本发明专利技术能有效识别任意语义方向的场景文字;对于不同尺度的字符能编码更加有效的特征表达,显著提升识别性能。显著提升识别性能。显著提升识别性能。

【技术实现步骤摘要】
一种基于尺度自适应及方向注意力网络的场景文字识别方法


[0001]本专利技术属于计算机视觉
,涉及一种能够识别自然场景图像中任意语义方向文字的方法。特别涉及基于尺度自适应及方向注意力网络的场景文字识别方法。

技术介绍

[0002]随着信息科技的发展,图像作为一种流行的信息载体,在我们的生活中扮演着不可或缺的作用。而图像中的文字是一种高层的视觉元素,其蕴含着丰富而精准的语义信息,十分有助于场景内容的理解。因此,识别出图像中的文字信息在许多实际应用中具有十分广阔的应用价值,主要体现在四个方面。其一,基于内容的图像检索。图像中的文字信息能有效解决图像内容的模糊性;并且与场景内容结合,能更深层次的理解图像内容,从而可以根据关键性信息检索到更加精准的图像。其二,人机交互系统。当人们在逛街或商城的时候,经常遇到诸多广告牌,海报,店铺招牌,菜单等,然而这些信息通常含有不同语言的文字信息。因此通过移动设备采集图像,并对其中的文字元素加以识别,其能给人们的生活带来诸多方便。其三,净化网络空间。许多不法分子利用图像为载体,在图像中嵌入一些低俗色情的文字在网络空间中进行传播。识别出图像中的不良文字信息,阻止此类信息的传递,有助于保护未成年的身心健康。其四,智能交通系统。在户外环境中,精准的识别车牌以及交通指示牌,对于交通的智能化管理都有着积极的作用。
[0003]相比于传统的光学字符识别(Optical Character Recognition, OCR), 自然场景文字识别(Scene Text Recognition, STR)具有诸多的挑战。主要体现在以下几方面。其一,OCR针对的是扫描文档,其画质清晰,背景单一;而STR 针对的是自然场景图像,由于拍摄时抖动,光照或者拍摄角度等因素,容易造成拍摄得到的图片模糊,分辨率低,文字遮挡等困难。其二,OCR处理的文字通常大小一致,颜色均一,排列整齐;而STR针对的文字往往字体各异,颜色多样,布局丰富,从而增加了文字识别的困难。
[0004]基于深度神经网络的场景文字识别主要分为两大类,分别是规则场景文字识别和不规则场景文字识别。规则场景文字的识别是指针对水平正面的文字的识别,其识别方法可以分为三类,分别是基于字符,基于单词和基于序列的识别方法。基于字符的识别方法首先检测位置,然后利用深度神经网络对单个字符进行分类,最后通过启发式算法及语言规则将单个字符的分类结果聚合起来形成最终的结果。基于单词的识别即利用深度神经网络直接对整个单词进行分类。基于序列的识别,首先将输入的图像编码成序列特征,然后利用基于注意力机制的序列解码器或联结主义时间分类(Connectionist Temporal Classification, CTC)来将序列特征解析成文本字符串。不规则场景文字的识别是指针对不规则场景文字的识别,如多种方向,透视畸变,弯曲排列等。其识别方法可分为三类,分别是基于矫正,基于二维空间以及基于方向特征编码的识别方法。基于矫正的识别方法首先利用一个矫正网络将不规则文字矫正成水平或近似水平的文字,然后利用规则文字识别器加以识别;矫正网络与识别网络结合在一起端到端训练,矫正网络不需要监督信息,该矫正网络的学习依靠识别网络的梯度回传得以完成。基于二维空间的识别方法是利用全卷积网
络提取输入图像特征,以保持文字的空间信息不受损失;然后基于二维空间的注意力机制或者二维空间中每个位置的类别分割来加以识别。基于方向特征编码的识别方法首先将输入图像映射成多个方向的一维特征;然后为每个方向以及每个方向中的每个位置学习一个权重,通过学到的权重将所有的方向特征融合在一起形成一个更具表达性的特征;最后利用一维的注意力解码器解析生成识别结果。
[0005]目前,场景文字的识别主要致力于几何布局不规则文字的识别,鲜有研究关注于文字语义方向的任意性;然而实际的应用中,任意语义方向的场景文字经常出现。此外,由于场景文字中每个字符的尺度多样,已有的方法均未考虑单个字符精准的特征编码。因此针对任意语义方向任意尺度的场景文字识别是一个面向实际应用的研究热点。

技术实现思路

[0006]针对任意语义方向以及单个字符不同尺度的场景文字,本专利技术提出了一种基于尺度自适应以及方向注意力网络的场景文字识别方法。由于需要同时考虑文字的尺度和方向,为此将原始图像映射到极坐标空间中。为了精确感知文字中单个字符的尺度,根据感受野理论,利用多种适度的感受野进行自适应的选择。
[0007]本专利技术的技术方案如下:一种基于尺度自适应及方向注意力网络的场景文字识别方法,包括以下步骤:(1)将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;(2)利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;(3)对步骤(2)转换得到的高阶语义特征F,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;(4)利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;(5)将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。
[0008]进一步地,在所述步骤(1)之前,还包括输入图片的转换步骤:将任意大小的彩色输入图片转换成固定大小的灰度图片,其大小表示为H
×
W。
[0009]进一步地,所述步骤(1)具体包括如下子步骤:(1.1)利用一个浅层小网络学习极坐标原点响应图;然后根据极坐标原点响应图以及相应的空间位置加权获得极坐标原点;所述浅层小网络由三个卷积层及其后跟随的整流单元、批归一化层组成;(1.2)根据笛卡尔坐标与极坐标的转换关系,将极坐标空间中的坐标位置映射到笛卡尔空间中的位置上;每个极坐标空间中的位置上的数值通过基于与之对应的笛卡尔坐标位置邻近的四个位置进行双线性插值得到,从而获得极坐标图像;(1.3)利用卷积网络获取极坐标图像的特征J;其中,在卷积填充时,对极坐标图像竖直方向进行循环填充,即最上面的行将由最下面的行进行填充,反之最下面的行由最上面的行进行填充。
[0010]进一步地,所述步骤(2)具体为:利用卷积网络对特征J进行下采样,其中竖直方向降采样成1,水平方向降采样为L获得高阶的语义特征F,特征维度表示为1
×
L
×
D,其中D表示特征通道数。
[0011]进一步地,所述步骤(3)具体包括如下子步骤:(3.1)将高阶的语义特征F输入至一个标准卷积和K-1个膨胀率不同的膨胀卷积中,获取多尺度特征 F1,F2,

,F
K
, 每个特征的特征维度均为1
×
L
×
D;(3.2)将多尺度特征 F1,F2,

,F
K
拼接起来学习每个字符区域与不同尺度特征关联权重;(3.3)将多尺度特征F1,F2,

,F
K
与学到的权重融合离散获得特征序列,其中q
j
的特征维度为D。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于尺度自适应及方向注意力网络的场景文字识别方法,其特征在于,包括以下步骤:(1)将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;(2)利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;(3)对步骤(2)转换得到的高阶语义特征F,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;(4)利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;(5)将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。2.如权利要求1所述基于尺度自适应及方向注意力网络的场景文字识别方法,其特征在于,在所述步骤(1)之前,还包括输入图片的转换步骤:将任意大小的彩色输入图片转换成固定大小的灰度图片,其大小表示为H
×
W。3.如权利要求1所述基于尺度自适应及方向注意力网络的场景文字识别方法,其特征在于,所述步骤(1)具体包括如下子步骤:(1.1)利用一个浅层小网络学习极坐标原点响应图;然后根据极坐标原点响应图以及相应的空间位置加权获得极坐标原点;所述浅层小网络由三个卷积层及其后跟随的整流单元、批归一化层组成;(1.2)根据笛卡尔坐标与极坐标的转换关系,将极坐标空间中的坐标位置映射到笛卡尔空间中的位置上;每个极坐标空间中的位置上的数值通过基于与之对应的笛卡尔坐标位置邻近的四个位置进行双线性插值得到,从而获得极坐标图像;(1.3)利用卷积网络获取极坐标图像的特征J;其中,在卷积填充时,对极坐标图像竖直方向进行循环填充,即最上面的行将由最下面的行进行填充,反之最下面的行由最上面的行进行填充。4.如权利要求1所述基于尺度自适应及方向注意力网络的场景文字识别方法,其特征在于,所述步骤(2)具体为:利用卷积网络对特征J进行下采样,其中竖直方向降采样成1,水平方向降采样为L获得高阶的语义特征F,特...

【专利技术属性】
技术研发人员:鲍虎军李特操晓春代朋纹张华
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1