一种手写英文行识别系统技术方案

技术编号:32978631 阅读:16 留言:0更新日期:2022-04-09 12:00
本发明专利技术提出的一种手写英文行识别系统,属于文本识别技术领域。包括:视觉模块、语义模块和融合模块;视觉模块,用于使用ResNet网络提取手写英文行的文本图像的空间特征,并使用基于CTC和基于Attention的模型进行解码,输出字符级解码和单词级解码;语义模块,用于使用视觉模块中输出的基于Attention的字符级解码的输出概率作为输入,通过使用梯度截断策略,以纠正预测序列的方式显式学习英文行中潜在的语义信息;融合模块,用于通过使用门机制将视觉模块提取到的视觉信息和语义模块提取到的语义信息进行结合,以生成预测结果。以生成预测结果。以生成预测结果。

【技术实现步骤摘要】
一种手写英文行识别系统


[0001]本专利技术涉及文本识别
,更具体的说是涉及一种手写英文行识别系统。

技术介绍

[0002]文本识别是计算机视觉和模式识别中非常活跃的一个研究领域。对于一些手写文本,扫描后若以图片的形式进行存储则需要非常大的存储空间,而将这些图片中的内容利用文本识别技术将其转录后再进行存储将会变得尤为方便;且有时需要对这些手写文本进行手动录入系统,而使用文本识别技术进行自动录入会节省很多的人力资源。
[0003]文本识别方法主要分为两大类:一种是基于分割的方法,一种是基于无分割的方法。基于分割的识别方法首先需要从文本图片中定位每个字符的位置,然后使用字符分类器来识别每个字符,最后将所有的字符组合起来以获得最终的识别结果。这种方法存在一定的局限性,即需要精确的定位每个字符的位置,也就是最终的识别结果很大程度上取决于分割字符的质量,而且该方法将各字符看做是独立的个体,无法利用字符间额外的一些信息。基于无分割的识别方法将整个文本图像看做一个整体,旨在学习文本图像到目标字符序列的一种映射关系,从而可以避免字符的分割。在该类方法中按照解码方式的不同又可以细分为基于CTC的识别方法和基于Attention的识别方法。基于CTC的识别方法寻找预测过程中所有可能的对齐方式,且可以在不事先对文本图像和输出序列进行对齐的情况下进行训练;基于Attention的识别方法可以在解码时有选择的关注特征编码的相关部分,通过目标字符的历史输出和特征编码来学习文本图像和输出序列之间的对齐,解码方式更为灵活。
[0004]目前,现有的文本识别方法主要是针对于自然场景下的,且对于英文行的识别无法充分利用行中不同粒度的信息,造成了文本中信息的浪费。同时,不同于英文单词,英文行中存在丰富的语义信息。现有的方法往往只利用了文本图像的视觉信息,在进行手写英文行识别时,识别的效果欠佳。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术的目的在于提供一种手写英文行识别系统,能够将语义信息进行显示建模后与视觉信息进行融合再做出最终的预测,有效的提高了手写英文行的识别效果。
[0006]本专利技术为实现上述目的,通过以下技术方案实现:一种手写英文行识别系统,包括:视觉模块、语义模块和融合模块;所述视觉模块,用于使用ResNet网络提取手写英文行的文本图像的空间特征,并使用基于CTC和基于Attention的模型进行解码,输出字符级解码和单词级解码,作为视觉信息;所述语义模块,用于使用视觉模块中输出的基于Attention的字符级解码的输出概率作为输入,通过使用梯度截断策略,以纠正预测序列的方式显式学习英文行中潜在的
语义信息;所述融合模块,用于通过使用门机制将视觉模块提取到的视觉信息和语义模块提取到的语义信息进行结合,并利用预设公式进行预测,以生成预测结果。
[0007]进一步,所述视觉模块包括:预处理单元,图像特征编码单元、解码单元;所述预处理单元,用于对所述文本图像和文本图像的标签进行预处理;所述图像特征编码单元,用于使用ResNet网络通过增加shortcut更新底层网络,在ResNet网络中增加通道注意力模块,并进行Squeeze操作和Excitation操作,以提取图像全局的特征表示,最后使用两层双向的LSTM网络以提取文本图像中的时序特征;所述解码单元,用于使用基于CTC和基于Attention的模型将时序特征进行解码,以获取相应的字符和单词。
[0008]进一步,所述语义模块包括一个基于双向LSTM网络的编码器和一个基于LSTM网络的解码器;使用基于Attention的字符级解码的输出概率向量作为输入,利用将梯度流进行截断的策略,在预测文本的纠正过程中建模手写英文行中潜在的语义关系。
[0009]进一步,所述融合模块,具体用于:使用门机制自动学习视觉信息和语义信息之间的对齐;采用的预设公式具体如下:其中,f
v
、f
s
分别表示视觉特征和语义特征,F为融合之后的特征;最后通过全连接以及softmax方法获得最终的预测结果。
[0010]进一步,所述预处理单元,具体用于:将文本图像的宽度和高度分别设定为宽度预设值大小和高度预设值大小,并将文本图像进行归一化处理;将文本图像转换为灰度图形式,使每个像素点只具有一个分量;对于文本图像的标签,根据英文行中不同的粒度划分为字符级别和单词级别,同时构建了一个包含所有大小写字母、数字及所有标点符号的字符词典和一个包含数据集中所有单词的单词词典;将图像的标签根据字符词典和单词词典进行映射,以得到两种标签并用作模型的监督信息。
[0011]进一步,所述文本图像的标签为固定长度,当标签长度达不到固定长度时,用End符号填充。
[0012]进一步,所述Squeeze操作包括:提取文本图像全局的特征表示,通过使用全局平均池化使特征图在通道级别得到全局的特征;对于一个H*W*C大小的特征图F,其中H、W、C分别表示特征图的高度、宽度以及通道数,在通道级别对H*W的特征图进行全局平局池化后就会得到1*1*C的特征图;采用的公式如下所示:
其中,f
c
表示特征图F在第c个通道上的H*W大小的特征,S
c
表示在经过全局平均池化后在第c个通道上一个1*1的感受野。
[0013]进一步,所述Excitation操作包括:通过使用全连接层预测各个通道的重要程度,并得到各通道之间的相关性;采用的公式如下所示:其中,σ、δ分别表示ReLU及Sigmoid激活函数,W1、W2表示全连接层, r代表降维系数,是一个超参数;最终的E的维度是1*1*C,代表了C个通道的权重值,不同的权重值代表相应通道的重要程度;最后,在得到各通道的权重值之后,通过对通道进行加权,就可以得到最终的结果,采用的公式如下所示:其中,f
c
表示第c通道的特征,S
c
表示对应于第c通道的权重,通过将两者相乘,就得到了带有通道权重的特征图F。
[0014]对比现有技术,本专利技术有益效果在于:1、本专利技术在特征提取过程中增加了通道注意力模块,可以学习特征图各通道的重要性,可以为对识别有关键作用的通道赋予更高的权重;2、本专利技术在特征解码过程中结合了不同的解码方式,可以充分发挥各解码方式的优势,使模型可以向更正确的方向优化;3、本专利技术在特征解码过程中充分利用了英文行中不同粒度的信息,包括字符级和单词级。其中单词级解码以弱监督的方式对字符级解码进行辅助对齐,可以使字符级解码更加关注细节信息;4、本专利技术不仅使用了文本图像的视觉信息,还能够显式建模英文行中存在的潜在的语义信息,且具有很强的可解释性。
[0015]5、本专利技术使用了门机制对不同模态的视觉特征及语义特征进行融合,从而可以得到更准确的识别结果。
[0016]由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
[0017]为了更清楚地说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手写英文行识别系统,其特征在于,包括:视觉模块、语义模块和融合模块;所述视觉模块,用于使用ResNet网络提取手写英文行的文本图像的空间特征,并使用基于CTC和基于Attention的模型进行解码,输出字符级解码和单词级解码,作为视觉信息;所述语义模块,用于使用视觉模块中输出的基于Attention的字符级解码的输出概率作为输入,通过使用梯度截断策略,以纠正预测序列的方式显式学习英文行中潜在的语义信息;所述融合模块,用于通过使用门机制将视觉模块提取到的视觉信息和语义模块提取到的语义信息进行结合,并利用预设公式进行预测,以生成预测结果。2.根据权利要求1所述的手写英文行识别系统,其特征在于,所述视觉模块包括:预处理单元,图像特征编码单元、解码单元;所述预处理单元,用于对所述文本图像和文本图像的标签进行预处理;所述图像特征编码单元,用于使用ResNet网络通过增加shortcut更新底层网络,在ResNet网络中增加通道注意力模块,并进行Squeeze操作和Excitation操作,以提取图像全局的特征表示,最后使用两层双向的LSTM网络以提取文本图像中的时序特征;所述解码单元,用于使用基于CTC和基于Attention的模型将时序特征进行解码,以获取相应的字符和单词。3.根据权利要求1所述的手写英文行识别系统,其特征在于,所述语义模块包括一个基于双向LSTM网络的编码器和一个基于LSTM网络的解码器;使用基于Attention的字符级解码的输出概率向量作为输入,利用将梯度流进行截断的策略,在预测文本的纠正过程中建模手写英文行中潜在的语义关系。4.根据权利要求1所述的手写英文行识别系统,其特征在于,所述融合模块,具体用于:使用门机制自动学习视觉信息和语义信息之间的对齐;采用的预设公式具体如下:其中,f
v
、f
s
分别表示视觉特征和语义特征,F为融合之后的特征;最后通过全连接以及softmax方法获得最终的预测结果。5.根据权利要求2所述的手写英文行识别系统,...

【专利技术属性】
技术研发人员:许信顺谭玉慧马磊陈义学
申请(专利权)人:山东山大鸥玛软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1