一种手写英文行识别系统技术方案

技术编号：32978631 阅读：16 留言：0更新日期：2022-04-09 12:00

本发明专利技术提出的一种手写英文行识别系统，属于文本识别技术领域。包括：视觉模块、语义模块和融合模块；视觉模块，用于使用ResNet网络提取手写英文行的文本图像的空间特征，并使用基于CTC和基于Attention的模型进行解码，输出字符级解码和单词级解码；语义模块，用于使用视觉模块中输出的基于Attention的字符级解码的输出概率作为输入，通过使用梯度截断策略，以纠正预测序列的方式显式学习英文行中潜在的语义信息；融合模块，用于通过使用门机制将视觉模块提取到的视觉信息和语义模块提取到的语义信息进行结合，以生成预测结果。以生成预测结果。以生成预测结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种手写英文行识别系统

[0001]本专利技术涉及文本识别
，更具体的说是涉及一种手写英文行识别系统。

技术介绍

[0002]文本识别是计算机视觉和模式识别中非常活跃的一个研究领域。对于一些手写文本，扫描后若以图片的形式进行存储则需要非常大的存储空间，而将这些图片中的内容利用文本识别技术将其转录后再进行存储将会变得尤为方便；且有时需要对这些手写文本进行手动录入系统，而使用文本识别技术进行自动录入会节省很多的人力资源。
[0003]文本识别方法主要分为两大类：一种是基于分割的方法，一种是基于无分割的方法。基于分割的识别方法首先需要从文本图片中定位每个字符的位置，然后使用字符分类器来识别每个字符，最后将所有的字符组合起来以获得最终的识别结果。这种方法存在一定的局限性，即需要精确的定位每个字符的位置，也就是最终的识别结果很大程度上取决于分割字符的质量，而且该方法将各字符看做是独立的个体，无法利用字符间额外的一些信息。基于无分割的识别方法将整个文本图像看做一个整体，旨在学习文本图像到目标字符序列的一种映射关系，从而可以避免字符的分割。在该类方法中按照解码方式的不同又可以细分为基于CTC的识别方法和基于Attention的识别方法。基于CTC的识别方法寻找预测过程中所有可能的对齐方式，且可以在不事先对文本图像和输出序列进行对齐的情况下进行训练；基于Attention的识别方法可以在解码时有选择的关注特征编码的相关部分，通过目标字符的历史输出和特征编码来学习文本图像和输出序列之间的对齐，解码方式更为灵活。
...

【技术保护点】

【技术特征摘要】
1.一种手写英文行识别系统，其特征在于，包括：视觉模块、语义模块和融合模块；所述视觉模块，用于使用ResNet网络提取手写英文行的文本图像的空间特征，并使用基于CTC和基于Attention的模型进行解码，输出字符级解码和单词级解码，作为视觉信息；所述语义模块，用于使用视觉模块中输出的基于Attention的字符级解码的输出概率作为输入，通过使用梯度截断策略，以纠正预测序列的方式显式学习英文行中潜在的语义信息；所述融合模块，用于通过使用门机制将视觉模块提取到的视觉信息和语义模块提取到的语义信息进行结合，并利用预设公式进行预测，以生成预测结果。2.根据权利要求1所述的手写英文行识别系统，其特征在于，所述视觉模块包括：预处理单元，图像特征编码单元、解码单元；所述预处理单元，用于对所述文本图像和文本图像的标签进行预处理；所述图像特征编码单元，用于使用ResNet网络通过增加shortcut更新底层网络，在ResNet网络中增加通道注意力模块，并进行Squeeze操作和Excitation操作，以提取图像全局的特征表示，最后使用两层双向的LSTM网络以提取文本图像中的时序特征；所述解码单元，用于使用基于CTC和基于Attention的模型将时序特征进行解码，以获取相应的字符和单词。3.根据权利要求1所述的手写英文行识别系统，其特征在于，所述语义模块包括一个基于双向LSTM网络的编码器和一个基于LSTM网络的解码器；使用基于Attention的字符级解码的输出概率向量作为输入，利用将梯度流进行截断的策略，在预测文本的纠正过程中建模手写英文行中潜在的语义关系。4.根据权利要求1所述的手写英文行识别系统，其特征在于，所述融合模块，具体用于：使用门机制自动学习视觉信息和语义信息之间的对齐；采用的预设公式具体如下：其中，f
v
、f
s
分别表示视觉特征和语义特征，F为融合之后的特征；最后通过全连接以及softmax方法获得最终的预测结果。5.根据权利要求2所述的手写英文行识别系统，...

【专利技术属性】
技术研发人员：许信顺，谭玉慧，马磊，陈义学，
申请(专利权)人：山东山大鸥玛软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人