基于Gabor卷积和线性稀疏注意力的文字识别系统技术方案

技术编号：29586740 阅读：155 留言：0更新日期：2021-08-06 19:46

一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别。本发明专利技术能够有效捕获场景文字图像各字符对象的方向和纹理变化特征，在提取目标的局部空间和频率域信息方面具有良好的特性。采用自注意力机制替代循环神经网络结构，由此具备了良好的并行计算的能力，加快了训练和推理速度。同时在自注意力机制中引入稀疏注意力的思想，解决了模型随着长度的增加，注意力部分所占用的内存和计算呈平方比增加的问题，同时有助于将引起注意的部分被保留下来，而忽视其他无关的信息。并且在稀疏注意力中加入线性关系约束，一定程度上可以缓解注意力偏移的问题，使得文字识别更加精准。

全部详细技术资料下载

【技术实现步骤摘要】
基于Gabor卷积和线性稀疏注意力的文字识别系统
本专利技术涉及的是一种图像处理领域的技术，具体是一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统。
技术介绍
现有基于深度学习的场景文字识别系统包括：基于单个字符的识别方法、基于单词分类的识别方法和基于文本序列的识别方法。最常用的基于文本序列的识别方法主要采用了两类技术，即连接主义时间分类(CTC)和注意力机制。基于CTC的方法首先将包含场景文本的图像输入到特征提取网络中，将2D图像降维成1D特征序列。然后将特征序列串行输入到循环神经网络，从而获取上下文信息。最终又将包括：上下文信息的特征序列，通过CTC进行“软对齐”，同时通过计算损失函数来进行网络参数的更新。这种方法的不足之处是不同位置的特征序列在预测时赋予了同样的权重，而实际情况是在预测后面的字符序列时，需要对当前位置的特征序列给予较大的注意力，而对其他位置并不应该赋予同样大小的注意力。基于注意力机制的方法首先将2D特征图降维处理成1D特征序列后，输入到特征循环注意力网络中，对每个位置都额外学习一个注意力参数，方便对提取的当前位置的特征序列加权。该类方法在规则场景文本识别问题上表现良好，然而针对不规则场景下的文本识别问题，该类方法鲁棒性和有效性有所欠缺，其根本的原因在于把2D特征图降维成1D特征序列这个过程中不可避免损失了空间信息。这种情况下，针对识别不规则场景文本的问题时，就很难通过注意力机制来给对应位置较大的权值。针对此算法的后续改进，更多集中于前面特征提取部分，通过替换成更加强有力的...

【技术保护点】
1.一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征在于，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，其中：空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别；/n所述的线性稀疏注意力模块包括：编码器、解码器和识别单元，其中：编码器对添加位置编码信息的文字图像特征向量进行自注意力运算，得到中间向量；解码器根据编码器的输出结果和当前字符的词嵌入向量进行带稀疏和线性思想的自注意力运算，得到最终的预测向量；识别单元将解码器输出的预测向量通过Linear层以及Softmax层，得到预测字符的概率分布，随即得到当前的预测字符，该预测字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器直至识别出终止符并经拼接处理得到场景文字图像的文字识别结果。/n

【技术特征摘要】
1.一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征在于，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，其中：空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别；
所述的线性稀疏注意力模块包括：编码器、解码器和识别单元，其中：编码器对添加位置编码信息的文字图像特征向量进行自注意力运算，得到中间向量；解码器根据编码器的输出结果和当前字符的词嵌入向量进行带稀疏和线性思想的自注意力运算，得到最终的预测向量；识别单元将解码器输出的预测向量通过Linear层以及Softmax层，得到预测字符的概率分布，随即得到当前的预测字符，该预测字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器直至识别出终止符并经拼接处理得到场景文字图像的文字识别结果。

2.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的空间矫正模块包括：定位网络、网格生成器和采样器，其中：定位网络根据输入图计算得到图像的仿射变换参数，网格生成器根据输出图的坐标点和定位网络所得的变换参数，计算得到输入图的坐标点，采样器根据双线性插值等填充规则来填充图像，完成图像的矫正。

3.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的Gabor特征提取模块包括：卷积自动编码网络、Gabor卷积网络和融合单元，其中：卷积自动编码网络根据文字图像进行卷积运算，得到文字图像中的非线性深度特征，即卷积特征，Gabor滤波器与文字图像进行卷积运算，融合单元将卷积特征和卷积特征相加融合并输出代表场景文字图像，即矫正后文字图像的特征向量；
所述的Gabor滤波器的方向和尺度均能够动态调整以捕获文字图像中不同走向的纹理特征和边缘信息和提取文字图像中不同尺度的最优局部特征。

4.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的位置编码其中：p是当前字符的位置，i是从1到d的...

【专利技术属性】
技术研发人员：徐源，黄征，陈凯，周异，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人