【技术实现步骤摘要】
多路并行位置关联网络的自然场景文本识别方法及系统
[0001]本专利技术涉及计算机视觉应用领域,具体涉及一种多路并行位置关联网络的自然场景文本识别方法及系统。
技术介绍
[0002]场景文本识别(Scene Text Recognition,STR),是计算机视觉中文本识别任务的一项基本任务,其基本目标是从复杂的自然文本图像中识别字符文本。随着互联网和新媒体的快速发展,文字也出现在各类复杂场景下,包括街景、商店名称、广告标语以及商品包装等,因为这些场景中的文字说明可以帮助我们客观的认识该场景下的信息,所以人们对于识别出自然场景中的文字信息的要求越来越高。因此,研究者们提出了基于自然场景下文本图像的识别任务。现有的场景文本识别模型主要分为基于传统机器学习和基于深度学习。
[0003]在深度学习兴起之前,基于传统机器学习的场景文本识别模型依靠人为定义的规则从图像中提取单个字符特征,然后采用支持向量机(Support Vector Machine,SVM)或条件随机场(Conditional Random Field,CRF)等传统机器学习方法作为字符分类器,以确定文本字符的类别。但是,上述模型需要人工进行复杂的特征选择和特征提取工作,工作量大,并且效率较低。
[0004]近年来,深度学习方法在包括场景文本识别在内的众多领域获得了广泛的应用。深度学习方法无需人工进行繁琐的特征提取和特征选择工作,可以自动从文本中提取上下文语义信息。场景文本通常以字符序列的形式出现,因此通常将其建模为序列识别问题,并使用循环神 ...
【技术保护点】
【技术特征摘要】
1.一种多路并行位置关联网络的自然场景文本识别方法,其特征在于,包括如下步骤:步骤A、裁剪自然场景图片中只包含文本信息的图像,并标注图片中对应的文本以及文本长度,构建训练数据集S;步骤B、使用训练集S训练基于多路并行位置关联的深度学习网络模型G,用于识别自然场景图片中的文本信息;步骤C、将裁剪为固定大小的文本图片输入到训练后的深度学习网络模型G中,得到图片中对应的目标字符文本信息。2.根据权利要求1所述的多路并行位置关联网络自然场景文本识别方法,其特征在于,所述步骤B具体包括以下步骤:步骤B1、对训练集S中的每个训练样本进行编码,得到图像的初始表征向量文本字符标注的初始表征向量以及文本长度l;步骤B2、将步骤B1得到的初始表征向量输入到由空间变换网络和薄板样条插值算法组成的文本矫正模块中,得到文本图像的矫正表征向量步骤B3、将矫正表征向量输入到由残差网络组成的特征提取模块,学习并提取文本的视觉特征,得到文本的视觉表征向量将视觉表征向量输入由双层单向LSTM和双层卷积神经网络组成的位置关联模块中,顺序关联相邻字符间的位置信息,最终得到文本的位置表征向量步骤B4、对文本的位置表征向量与视觉表征向量进行级联相加操作,得到融合后的文本表征向量将文本表征信息输入由多头注意力机制和前馈神经网络组成的并行注意力模块中,以多路并行的传输方式获取文本图像的全局语义信息,经过正则化操作后得到文本的注意力表征向量步骤B5、将文本的注意力表征向量输入由传统注意力机制和门控循环单元网络GRU组成的字符预测模块,并根据目标损失函数loss,利用反向传播方法计算深度学习网络模型G中的各参数的梯度,并利用随机梯度下降方法更新参数;步骤B6、当深度学习网络模型G达到最大迭代次数,终止深度学习网络模型G的训练。3.根据权利要求2所述的多路并行位置关联网络自然场景文本识别方法,其特征在于,所述步骤B1具体包括以下步骤:步骤B11、遍历训练集S,训练集S中的每个训练样本表示为(m,a,l),对训练样本中的m进行文本图像的向量化编码表示,对训练样本中的a进行添加终止符[EOS]和[PAD]字符的填充处理;其中m为文本识别图像,a为文本图像中所对应的字符标注,l为对应标注文本的长度;步骤B12、对训练集S中每一个训练样本的文本识别图像m进行文本图像的向量化编码表示,得到文本识别图像m的初始表征向量其中,其中,为训练集S中第i个文本识别图像m所对应的初始表征向量,其中C表示初始表征向量的维度,n表示初始表征向量的行向量个数;步骤B13、对训练集S中的每一个文本图像中所对应的字符标注a添加终止符[EOS],并
填充[PAD]字符直至等于预定义的最大填充长度,得到字符标注a的初始表征向量其中,其中,其中,为训练集S中第i个字符标注所对应的初始表征向量,其中C表示初始表征向量的维度,n表示初始表征向量的行向量个数。4.根据权利要求2所述的多路并行位置关联网络的自然场景文本识别方法,其特征在于,所述步骤B2具体包括以下步骤:步骤B21、将输入到空间变换网络中,输出空间变换参数θ
i,j
,其计算公式如下:其中,f
loc
表示一系列的隐藏网络层,包括了卷积层、池化层和全连接层,i,j分别表示图像各个像素点的横纵坐标值;步骤B22、通过空间变换参数构建采样网格,由网格生成器得到二维仿射变换矩阵假设输入图像m的每一个像素点坐标为(x
s
,y
s
),矫正图像上的每一个像素点坐标为(x
t
,y
t
),则(x
s
,y
s
)与(x
t
,y
t
)的对应关系可以表示为:其中,表示仿射关系,G表示为矫正图像上的像素点位置;步骤B23、通过采样器将采样网格和输入图像的特征图同时作为输入,进过双线性插值之后得到特征向量之后得到特征向量其中,H
sampler
表示输入特征图的高,W
sampler
表示输入特征图的宽,D表示输入特征图的通道数,表示输入特征图位于通道D中坐标为(n
D
,m
D
)的值。5.根据权利要求2所述的多路并行位置关联网络的自然场景文本识别方法,其特征在于,所述步骤B3具体包括以下步骤:步骤B31、将矫正表征向量输入由五个残差模块和三层最大池化层组成的特征提取网络,残差模块包含一个3
×
3卷积和一个1
×
1卷积,残差模块间采用残差连接使得可训练更深的网络模型,输出文本信息的视觉表征向量其中H为高,W为宽,C为向量维度数;步骤B32、将视觉表征向量以宽度W为基准,按顺序划分得到顺序表征向量序列为以宽度W为基准,按顺序划分得到顺序表征向量序列为依次输入到位置关联模块的第一个长短期记忆网络中,得到隐层状态向量序列其中f为激活函数;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。