当前位置: 首页 > 专利查询>福州大学专利>正文

多路并行位置关联网络的自然场景文本识别方法及系统技术方案

技术编号:33246600 阅读:26 留言:0更新日期:2022-04-27 17:59
本发明专利技术涉及一种多路并行位置关联网络的自然场景文本识别方法及系统。包括以下步骤:步骤A、裁剪自然场景图片中只包含文本信息的图像,并标注图片中对应的文本以及文本长度,构建训练数据集S;步骤B、使用训练集S训练基于多路并行位置关联的深度学习网络模型G,用于识别自然场景图片中的文本信息;步骤C、将裁剪为固定大小的文本图片输入到训练后的深度学习网络模型G中,得到图片中对应的目标字符文本信息。本发明专利技术能够有效提高文本识别的准确度。度。度。

【技术实现步骤摘要】
多路并行位置关联网络的自然场景文本识别方法及系统


[0001]本专利技术涉及计算机视觉应用领域,具体涉及一种多路并行位置关联网络的自然场景文本识别方法及系统。

技术介绍

[0002]场景文本识别(Scene Text Recognition,STR),是计算机视觉中文本识别任务的一项基本任务,其基本目标是从复杂的自然文本图像中识别字符文本。随着互联网和新媒体的快速发展,文字也出现在各类复杂场景下,包括街景、商店名称、广告标语以及商品包装等,因为这些场景中的文字说明可以帮助我们客观的认识该场景下的信息,所以人们对于识别出自然场景中的文字信息的要求越来越高。因此,研究者们提出了基于自然场景下文本图像的识别任务。现有的场景文本识别模型主要分为基于传统机器学习和基于深度学习。
[0003]在深度学习兴起之前,基于传统机器学习的场景文本识别模型依靠人为定义的规则从图像中提取单个字符特征,然后采用支持向量机(Support Vector Machine,SVM)或条件随机场(Conditional Random Field,CRF)等传统机器学习方法作为字符分类器,以确定文本字符的类别。但是,上述模型需要人工进行复杂的特征选择和特征提取工作,工作量大,并且效率较低。
[0004]近年来,深度学习方法在包括场景文本识别在内的众多领域获得了广泛的应用。深度学习方法无需人工进行繁琐的特征提取和特征选择工作,可以自动从文本中提取上下文语义信息。场景文本通常以字符序列的形式出现,因此通常将其建模为序列识别问题,并使用循环神经网络(Recurrent Neural Network,RNN)对序列特征进行建模。Shi等人将卷积神经网络(Convolutional Neural Network,CNN)与RNN相结合运用到场景文本识别中,使用CNN从输入文本图像中提取图像视觉特征,使用RNN对其进行序列重构,采用联结主义时间分类损失来识别字符数,实现字符序列预测。Sutskever等人用序列特征表示图像,采用递归神经网络将输入特征映射成固定维度的向量,再使用另一个递归神经网络从向量中解码目标字符序列。由于这类方法赋予不同位置上的序列特征相同的权重,将难以定位关键字符识别区域,并且串行计算降低了运算效率。因此,Yang等人提出了一种基于Transformer的注意力解码器,可以有效地处理长序列,而且能并行地执行训练,提升了模型的收敛速度。
[0005]随着注意力机制在自然语言处理领域的成功,越来越多的研究者将其运用到场景文本识别领域。Lee等人提出使用具有注意力建模的递归卷积神经网络来构建更加紧密的特征空间和捕获长距离的上下文依赖关系。该模型将输入文本图像水平编码为一维序列特征,然后利用上一个时间步骤的语义信息引导视觉特征隐式建模字符级语言模型,之后由解码器生成目标字符序列。Cheng等人指出现有注意力机制存在的注意力漂移问题,并提出了一个关注注意力网络FAN(Focusing Attention Network),使得偏移的注意力重新聚焦在目标区域上,从而确保解码阶段的字符与序列特征能够对齐。FAN能够自动调整注意力网
络的注意力中心,但需要额外的字符级的标注。Wang等人提出了一个解耦注意力网络DAN(Decoupled Attention Network),该网络设计了一个卷积对齐模块CAM替换传统注意力解码器中的递归对齐模块,将对齐操作与历史解码结果解耦合,避免了错误信息的积累,使得识别算法的性能进一步提升。
[0006]上述模型主要针对水平方向上的规则文本图像,难以准确识别存在透视失真或任意形状弯曲的不规则文本图像中的字符。为了准确识别复杂场景下的不规则文本图像,研究人员尝试在预处理阶段对不规则文本图像进行矫正。Shi等人提出基于空间变换网络STN(Space Transformer Network),使用薄板样条算法TPS(Thin Plate Spline)将不规则的文本矫正为线性排列的文字序列,并采用双向长短期记忆网络进行序列建模,提高了识别性能。Yang等人提出一种对称约束的矫正网络ScRN(Symmetry

constrained Rectification Network),使用每个文本实例的中心线,并通过一些几何属性(包括文本中心线方向、字符方向和比例)添加对称约束。由于对文本形状的详细描述和对称约束的显式描述,ScRN在文本矫正方面具有较强的鲁棒性。
[0007]目前大多数的模型鲁棒性较差,不规则文本的各种形状和弯曲模式对识别造成了更大的困难。一方面,由于图像背景复杂,相邻字符黏连紧密,容易产生识别误差。另一方面,主流识别网络只考虑局部序列上下文依赖关系,在预测字符序列时,缺少全局语义信息的监督,会错误识别边缘特征。

技术实现思路

[0008]本专利技术的目的在于提供一种多路并行位置关联网络的自然场景文本识别方法及系统,有效提高文本识别的准确度。
[0009]为实现上述目的,本专利技术的技术方案是:一种多路并行位置关联网络的自然场景文本识别方法,包括如下步骤:
[0010]步骤A、裁剪自然场景图片中只包含文本信息的图像,并标注图片中对应的文本以及文本长度,构建训练数据集S;
[0011]步骤B、使用训练集S训练基于多路并行位置关联的深度学习网络模型G,用于识别自然场景图片中的文本信息;
[0012]步骤C、将裁剪为固定大小的文本图片输入到训练后的深度学习网络模型G中,得到图片中对应的目标字符文本信息。
[0013]在本专利技术一实施例中,所述步骤B具体包括以下步骤:
[0014]步骤B1、对训练集S中的每个训练样本进行编码,得到图像的初始表征向量文本字符标注的初始表征向量以及文本长度l;
[0015]步骤B2、将步骤B1得到的初始表征向量输入到由空间变换网络和薄板样条插值算法组成的文本矫正模块中,得到文本图像的矫正表征向量
[0016]步骤B3、将矫正表征向量输入到由残差网络组成的特征提取模块,学习并提取文本的视觉特征,得到文本的视觉表征向量将视觉表征向量输入由双层单向LSTM和双层卷积神经网络组成的位置关联模块中,顺序关联相邻字符间的位置信息,最终得到文本的位置表征向量
[0017]步骤B4、对文本的位置表征向量与视觉表征向量进行级联相加操作,得到融合后的文本表征向量将文本表征信息输入由多头注意力机制和前馈神经网络组成的并行注意力模块中,以多路并行的传输方式获取文本图像的全局语义信息,经过正则化操作后得到文本的注意力表征向量
[0018]步骤B5、将文本的注意力表征向量输入由传统注意力机制和门控循环单元网络GRU组成的字符预测模块,并根据目标损失函数loss,利用反向传播方法计算深度学习网络模型G中的各参数的梯度,并利用随机梯度下降方法更新参数;
[0019]步骤B6、当深度学习网络模型G达到最大迭代次数,终止深度学习网络模型G的训练。
[0020]在本专利技术一实施例中,所述步骤B1具体包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多路并行位置关联网络的自然场景文本识别方法,其特征在于,包括如下步骤:步骤A、裁剪自然场景图片中只包含文本信息的图像,并标注图片中对应的文本以及文本长度,构建训练数据集S;步骤B、使用训练集S训练基于多路并行位置关联的深度学习网络模型G,用于识别自然场景图片中的文本信息;步骤C、将裁剪为固定大小的文本图片输入到训练后的深度学习网络模型G中,得到图片中对应的目标字符文本信息。2.根据权利要求1所述的多路并行位置关联网络自然场景文本识别方法,其特征在于,所述步骤B具体包括以下步骤:步骤B1、对训练集S中的每个训练样本进行编码,得到图像的初始表征向量文本字符标注的初始表征向量以及文本长度l;步骤B2、将步骤B1得到的初始表征向量输入到由空间变换网络和薄板样条插值算法组成的文本矫正模块中,得到文本图像的矫正表征向量步骤B3、将矫正表征向量输入到由残差网络组成的特征提取模块,学习并提取文本的视觉特征,得到文本的视觉表征向量将视觉表征向量输入由双层单向LSTM和双层卷积神经网络组成的位置关联模块中,顺序关联相邻字符间的位置信息,最终得到文本的位置表征向量步骤B4、对文本的位置表征向量与视觉表征向量进行级联相加操作,得到融合后的文本表征向量将文本表征信息输入由多头注意力机制和前馈神经网络组成的并行注意力模块中,以多路并行的传输方式获取文本图像的全局语义信息,经过正则化操作后得到文本的注意力表征向量步骤B5、将文本的注意力表征向量输入由传统注意力机制和门控循环单元网络GRU组成的字符预测模块,并根据目标损失函数loss,利用反向传播方法计算深度学习网络模型G中的各参数的梯度,并利用随机梯度下降方法更新参数;步骤B6、当深度学习网络模型G达到最大迭代次数,终止深度学习网络模型G的训练。3.根据权利要求2所述的多路并行位置关联网络自然场景文本识别方法,其特征在于,所述步骤B1具体包括以下步骤:步骤B11、遍历训练集S,训练集S中的每个训练样本表示为(m,a,l),对训练样本中的m进行文本图像的向量化编码表示,对训练样本中的a进行添加终止符[EOS]和[PAD]字符的填充处理;其中m为文本识别图像,a为文本图像中所对应的字符标注,l为对应标注文本的长度;步骤B12、对训练集S中每一个训练样本的文本识别图像m进行文本图像的向量化编码表示,得到文本识别图像m的初始表征向量其中,其中,为训练集S中第i个文本识别图像m所对应的初始表征向量,其中C表示初始表征向量的维度,n表示初始表征向量的行向量个数;步骤B13、对训练集S中的每一个文本图像中所对应的字符标注a添加终止符[EOS],并
填充[PAD]字符直至等于预定义的最大填充长度,得到字符标注a的初始表征向量其中,其中,其中,为训练集S中第i个字符标注所对应的初始表征向量,其中C表示初始表征向量的维度,n表示初始表征向量的行向量个数。4.根据权利要求2所述的多路并行位置关联网络的自然场景文本识别方法,其特征在于,所述步骤B2具体包括以下步骤:步骤B21、将输入到空间变换网络中,输出空间变换参数θ
i,j
,其计算公式如下:其中,f
loc
表示一系列的隐藏网络层,包括了卷积层、池化层和全连接层,i,j分别表示图像各个像素点的横纵坐标值;步骤B22、通过空间变换参数构建采样网格,由网格生成器得到二维仿射变换矩阵假设输入图像m的每一个像素点坐标为(x
s
,y
s
),矫正图像上的每一个像素点坐标为(x
t
,y
t
),则(x
s
,y
s
)与(x
t
,y
t
)的对应关系可以表示为:其中,表示仿射关系,G表示为矫正图像上的像素点位置;步骤B23、通过采样器将采样网格和输入图像的特征图同时作为输入,进过双线性插值之后得到特征向量之后得到特征向量其中,H
sampler
表示输入特征图的高,W
sampler
表示输入特征图的宽,D表示输入特征图的通道数,表示输入特征图位于通道D中坐标为(n
D
,m
D
)的值。5.根据权利要求2所述的多路并行位置关联网络的自然场景文本识别方法,其特征在于,所述步骤B3具体包括以下步骤:步骤B31、将矫正表征向量输入由五个残差模块和三层最大池化层组成的特征提取网络,残差模块包含一个3
×
3卷积和一个1
×
1卷积,残差模块间采用残差连接使得可训练更深的网络模型,输出文本信息的视觉表征向量其中H为高,W为宽,C为向量维度数;步骤B32、将视觉表征向量以宽度W为基准,按顺序划分得到顺序表征向量序列为以宽度W为基准,按顺序划分得到顺序表征向量序列为依次输入到位置关联模块的第一个长短期记忆网络中,得到隐层状态向量序列其中f为激活函数;...

【专利技术属性】
技术研发人员:陈羽中陈敏
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1