基于Gabor卷积和线性稀疏注意力的文字识别系统技术方案

技术编号:29586740 阅读:155 留言:0更新日期:2021-08-06 19:46
一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统,包括:空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块,空间矫正模块对输入的场景文字图像进行矫正,Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征,经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别。本发明专利技术能够有效捕获场景文字图像各字符对象的方向和纹理变化特征,在提取目标的局部空间和频率域信息方面具有良好的特性。采用自注意力机制替代循环神经网络结构,由此具备了良好的并行计算的能力,加快了训练和推理速度。同时在自注意力机制中引入稀疏注意力的思想,解决了模型随着长度的增加,注意力部分所占用的内存和计算呈平方比增加的问题,同时有助于将引起注意的部分被保留下来,而忽视其他无关的信息。并且在稀疏注意力中加入线性关系约束,一定程度上可以缓解注意力偏移的问题,使得文字识别更加精准。

【技术实现步骤摘要】
基于Gabor卷积和线性稀疏注意力的文字识别系统
本专利技术涉及的是一种图像处理领域的技术,具体是一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统。
技术介绍
现有基于深度学习的场景文字识别系统包括:基于单个字符的识别方法、基于单词分类的识别方法和基于文本序列的识别方法。最常用的基于文本序列的识别方法主要采用了两类技术,即连接主义时间分类(CTC)和注意力机制。基于CTC的方法首先将包含场景文本的图像输入到特征提取网络中,将2D图像降维成1D特征序列。然后将特征序列串行输入到循环神经网络,从而获取上下文信息。最终又将包括:上下文信息的特征序列,通过CTC进行“软对齐”,同时通过计算损失函数来进行网络参数的更新。这种方法的不足之处是不同位置的特征序列在预测时赋予了同样的权重,而实际情况是在预测后面的字符序列时,需要对当前位置的特征序列给予较大的注意力,而对其他位置并不应该赋予同样大小的注意力。基于注意力机制的方法首先将2D特征图降维处理成1D特征序列后,输入到特征循环注意力网络中,对每个位置都额外学习一个注意力参数,方便对提取的当前位置的特征序列加权。该类方法在规则场景文本识别问题上表现良好,然而针对不规则场景下的文本识别问题,该类方法鲁棒性和有效性有所欠缺,其根本的原因在于把2D特征图降维成1D特征序列这个过程中不可避免损失了空间信息。这种情况下,针对识别不规则场景文本的问题时,就很难通过注意力机制来给对应位置较大的权值。针对此算法的后续改进,更多集中于前面特征提取部分,通过替换成更加强有力的特征提取器来提升算法性能,而非整体算法设计上的创新。另外循环注意力机制当前时刻的计算值依赖于上一时刻的计算结果,这样的串行计算模式极其消耗运算资源,也降低了运算效率,导致硬件的更新换代对该类算法运行速度的改进并不明显。
技术实现思路
本专利技术针对现有的文字识别算法弯曲文本识别不精确、无法并行计算等问题,提出一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统,采用Gabor滤波器和卷积神经网络相融合的方式,能够有效捕获场景文字图像各字符对象的方向和纹理变化特征,在提取目标的局部空间和频率域信息方面具有良好的特性。采用自注意力机制替代循环神经网络结构,由此具备了良好的并行计算的能力,加快了训练和推理速度。同时在自注意力机制中引入稀疏注意力的思想,解决了模型随着长度的增加,注意力部分所占用的内存和计算呈平方比增加的问题,同时有助于保留局部紧密相关和远程稀疏相关的关联特性。并且在稀疏注意力中加入线性关系约束,一定程度上可以缓解注意力偏移的问题,使得文字识别更加精准。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统,包括:空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块,其中:空间矫正模块对输入的场景文字图像进行矫正,Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征,经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别。所述的空间矫正模块包括:定位网络、网格生成器和采样器,其中:定位网络根据输入图计算得到图像的仿射变换参数,网格生成器根据输出图的坐标点和定位网络所得的变换参数,计算得到输入图的坐标点,采样器根据双线性插值等填充规则来填充图像,完成图像的矫正。所述的Gabor特征提取模块包括:卷积自动编码网络、Gabor卷积网络和融合单元,其中:卷积自动编码网络根据文字图像进行卷积运算,得到文字图像中的非线性深度特征,即卷积特征,Gabor滤波器与文字图像进行卷积运算,融合单元将卷积特征和卷积特征相加融合并输出代表场景文字图像,即矫正后文字图像的特征向量,该Gabor滤波器的方向和尺度均能够动态调整以捕获文字图像中不同走向的纹理特征和边缘信息和提取文字图像中不同尺度的最优局部特征。所述的Gabor滤波器的方向和尺度均可以动态调整以获取更好的文字特征,调整Gabor滤波器方向参数有助于捕获文字图像中不同走向的纹理特征和边缘信息;调整Gabor滤波器尺度参数有助于提取文字图像中不同尺度的最优局部特征;由于二维Gabor滤波器的滤波特性与哺乳动物感受野的良好近似,以及它在空间域中良好的方向选择性和频域中良好的频率选择性,因此能够很好地提取出方向鲁棒的文字特征。所述的线性稀疏注意力模块包括:编码器、解码器和识别单元,其中:编码器对添加位置编码信息的文字图像特征向量进行自注意力运算,得到中间向量;解码器根据编码器的输出结果和当前字符的词嵌入向量进行带稀疏和线性思想的自注意力运算,得到最终的预测向量;识别单元将解码器输出的预测向量通过Linear层以及Softmax层,得到预测字符的概率分布,随即得到当前的预测字符,该预测字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器直至识别出终止符并经拼接处理得到场景文字图像的文字识别结果。所述的位置编码其中:p是当前字符的位置(即是当前字符串的第几个字符),i是从1到d的维度值,位置编码变换的维度和文字图像的特征向量的维度一致。所述的编码器包括:稀疏注意力层、位置前馈层,其中:稀疏注意力层在多头注意力的基础上引入稀疏思想,即将同一个输入分别输入到n个自注意力中,得到n个加权后的特征矩阵,将这n个输出矩阵直接拼成一个大的特征矩阵,最后再通过一层全连接层后得到输出Z。所述的稀疏思想是指:稀疏注意力机制来减少关联性的计算,综合空洞自注意力和局部自注意力的特性来只保留小区域内的注意力而强制让大部分注意力为零,其中:空洞自注意力对注意力相关性进行了约束,强行要求每个元素只跟它相对距离为k,2k,3k,…的元素关联,其中k是预先设定的超参数并且大于1。局部自注意力同样对注意力相关性进行约束,强行要求每个元素只与前后k个元素以及自身有关联,即在具体计算自注意力的时候,只关心有限特殊位置的注意力运算,从而在减少计算量节省显存的同时保留了局部紧密相关和远程稀疏相关的全局关联特性。所述的解码器包括:掩码稀注意力疏层、线性稀疏注意力层、位置前馈层,其中:掩码稀疏注意力层在稀疏注意力层的基础上引入了掩码从而在序列进行运算的时候屏蔽后面字符对当前字符推理过程的影响,线性稀疏注意力层利用文字图像的注意力的线性关系对生成注意力加以约束。所述的掩码稀疏注意力层的计算过程也类似于稀疏注意力层,只是掩码稀疏注意力层的自注意力的矩阵Q来自解码器,而矩阵K和V来自于编码器,这一层起到连接编码器和解码器的目的,并且在单个解码器块中是唯一的一层连接。所述的编码器的和解码器的位置前馈层均包括两层卷积层,其中:第一层的激活函数是ReLU,第二层是一个线性激活函数,具体为:FFL(Z)=max(0,ZW1+b1)W2+b2,其中:W1和W2为特征矩阵,b1和b2为对应的偏置。所述的线性注意力是指解码器输出得到注意力后,通过位置编码表示的位置依赖关系逆向计算得到和图像特征图对应的高×宽(H×W)的二维激活图,在每一列上取最大值的坐标位置标志此区域的注意力本文档来自技高网
...

【技术保护点】
1.一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统,其特征在于,包括:空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块,其中:空间矫正模块对输入的场景文字图像进行矫正,Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征,经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别;/n所述的线性稀疏注意力模块包括:编码器、解码器和识别单元,其中:编码器对添加位置编码信息的文字图像特征向量进行自注意力运算,得到中间向量;解码器根据编码器的输出结果和当前字符的词嵌入向量进行带稀疏和线性思想的自注意力运算,得到最终的预测向量;识别单元将解码器输出的预测向量通过Linear层以及Softmax层,得到预测字符的概率分布,随即得到当前的预测字符,该预测字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器直至识别出终止符并经拼接处理得到场景文字图像的文字识别结果。/n

【技术特征摘要】
1.一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统,其特征在于,包括:空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块,其中:空间矫正模块对输入的场景文字图像进行矫正,Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征,经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别;
所述的线性稀疏注意力模块包括:编码器、解码器和识别单元,其中:编码器对添加位置编码信息的文字图像特征向量进行自注意力运算,得到中间向量;解码器根据编码器的输出结果和当前字符的词嵌入向量进行带稀疏和线性思想的自注意力运算,得到最终的预测向量;识别单元将解码器输出的预测向量通过Linear层以及Softmax层,得到预测字符的概率分布,随即得到当前的预测字符,该预测字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器直至识别出终止符并经拼接处理得到场景文字图像的文字识别结果。


2.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统,其特征是,所述的空间矫正模块包括:定位网络、网格生成器和采样器,其中:定位网络根据输入图计算得到图像的仿射变换参数,网格生成器根据输出图的坐标点和定位网络所得的变换参数,计算得到输入图的坐标点,采样器根据双线性插值等填充规则来填充图像,完成图像的矫正。


3.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统,其特征是,所述的Gabor特征提取模块包括:卷积自动编码网络、Gabor卷积网络和融合单元,其中:卷积自动编码网络根据文字图像进行卷积运算,得到文字图像中的非线性深度特征,即卷积特征,Gabor滤波器与文字图像进行卷积运算,融合单元将卷积特征和卷积特征相加融合并输出代表场景文字图像,即矫正后文字图像的特征向量;
所述的Gabor滤波器的方向和尺度均能够动态调整以捕获文字图像中不同走向的纹理特征和边缘信息和提取文字图像中不同尺度的最优局部特征。


4.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统,其特征是,所述的位置编码其中:p是当前字符的位置,i是从1到d的...

【专利技术属性】
技术研发人员:徐源黄征陈凯周异
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1