System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像识别,具体涉及一种基于计数模块的手写数学公式多尺度识别方法。
技术介绍
1、近年来,研究人员开发了多种数学公式识别模型,其中基于编码器-解码器(encoder-decoder)结构的模型广泛应用,这些手写公式识别模型通常将卷积神经网络(convolutional neural network,cnn)用作编码器,将数学公式图像映射到高级特征表示,解码器则通常采用循环神经网络(recurrent neural network,rnn),用于将高级特征逐字转换为输出序列。在字符预测任务中,解码器内嵌的注意力机制可扫描整个输入数学公式图像,选择最相关的区域进行解码。
2、传统的hmer方法通常包括三个主要步骤:符号分割、符号识别和结构分析。在这些方法中,符号识别需要进行符号分割,这在实际应用中带来了不少挑战。此外,结构分析需要事先定义数学公式语法的先验知识,而解析算法的复杂性会随着预定义语法的复杂程度呈指数级增长。
3、编码器-解码器模型中基于cnn的编码器是使用最广泛的,现有文献1:基于端到端神经网络的手写数学表达识别方法[j]. pattern recognition, 2017, 71: 196-206.提出了一种基于编码器-解码器结构的模型来解决离线手写数学公式识别任务,并获得了良好的效果,但研究人员多数研究如何优化解码器。如现有文献2:图像到图像:准确且可解释的在线手写数学表达式识别,[c]//proceedings of the aaai conference onartifici
4、目前大部分编码器解码器模型中都用普通cnn或者rnn进行编码解码操作,但是基于手写体字符的多样性,在编码的过程中经过卷积神经网络多次池化以后会出现一些细微的特征丢失,比如说小数点等字符,而且会出现梯度消失或者爆炸等情况。此外,简单的rnn解码器不能聚焦于局部特征进行解码操作,从而不能精准地实现结构分析和符号识别。
5、基于目前识别模型存在的识别准确性低的问题,本专利技术提出一种采用残差网络(residual network,resnet)作为编码器对图像进行特征提取,结合计数模块的长短期记忆网络(long short-term memory,lstm)作为解码器的模型方法。以此来代替单一的cnn和rnn模型,在解码拉泰赫格式(latex)序列时,通过引入计数模块,针对图像的全局信息,计数模块可以引导模型准确地实现符号识别和结构分析。
技术实现思路
1、本专利技术为解决现有技术针对手写体数字识别模型存在的识别准确性低的问题,提供一种基于计数模块的手写数学公式多尺度识别方法。
2、一种基于计数模块的手写数学公式多尺度识别方法,该方法由以下步骤实现:
3、步骤一、获取手写数学公式图像数据集;
4、步骤二、对步骤一所述手写数学公式图像数据集进行多尺度缩放增广处理,获得处理后的图像数据集;
5、步骤三、构建基于计数模块的手写数学公式识别模型,采用resnet网络对所述处理后的图像数据集中手写数学公式图像提取特征图,采用符号计数模块对所述特征图添加全局信息,最后通过lstm网络输出预测的latex序列;具体过程为:
6、步骤三一、将所述resnet网络作为编码器对输入的手写数学公式图像进行特征提取,获得特征图f;
7、步骤三二、采用所述符号计数模块对所述特征图f提取符号特征,获得符号计数向量v,所述符号计数向量v中的每个值为预测的对应符号的计数值;
8、步骤三三、将所述lstm网络作为解码器对步骤三一获得的特征图f进行解码,同时对步骤三二获得的符号计数向量v作为全局信息输入解码器中,最终成生手写数学公式图像对应的latex公式序列。
9、本专利技术的有益效果为:
10、1 .本专利技术方法中,采用多尺度缩放增广方式对手写公式图像进行缩放增广,以增加训练数据的尺度多样性。通过在训练前随机对手写公式图像进行尺寸调整,提高了手写数学公式识别模型对不同尺度符号的解码识别鲁棒性;
11、2 .本专利技术方法中,提出基于编码器解码器框架的识别模型。该模型将手写数学公式识别建模为一个图像至序列的任务。在这个过程中,编码器被用于提取输入图像的特征,而解码器则逐步预测对应latex 序列。有效地将手写数学公式识别问题转化为一个端到端的序列生成问题,从而简化了问题的复杂性;
12、3 .本专利技术方法中,针对注意力不准确的问题,提出通过添加计数模块,使注意力更加准确,同时,计数结果可以表示符号的数量,可以作为额外的全局信息来提高识别的准确性。
本文档来自技高网...【技术保护点】
1.一种基于计数模块的手写数学公式多尺度识别方法,其特征是:该方法由以下步骤实现:
2.根据权利要求1所述的一种基于计数模块的手写数学公式多尺度识别方法,其特征在于:步骤二中,对手写数学公式图像数据集进行多尺度缩放增广处理,具体为:调整手写数学公式图像中的像素轨迹中二维坐标点的比例,在水平和垂直方向上实现等比例缩放增广。
3.根据权利要求1所述的一种基于计数模块的手写数学公式多尺度识别方法,其特征在于:所述编码器由多个ResNet模块构成,每个ResNet模块由卷积核为3×3步长为1的基础卷积层,中间批归一化层,ReLU激活层,5×5的卷积层和底层批归一化层组成;
4.根据权利要求1所述的一种基于计数模块的手写数学公式多尺度识别方法,其特征在于:所述符号计数模块由卷积核为5×5卷积层,通道注意力模块,1×1卷积层和Sigmoid激活函数组成;所述符号计数模块对特征图F处理的过程为:
5.根据权利要求4所述的一种基于计数模块的手写数学公式多尺度识别方法,其特征在于:所述通道注意力模块由全局平均池化层,两个线性层以及激活函数层组成;
...【技术特征摘要】
1.一种基于计数模块的手写数学公式多尺度识别方法,其特征是:该方法由以下步骤实现:
2.根据权利要求1所述的一种基于计数模块的手写数学公式多尺度识别方法,其特征在于:步骤二中,对手写数学公式图像数据集进行多尺度缩放增广处理,具体为:调整手写数学公式图像中的像素轨迹中二维坐标点的比例,在水平和垂直方向上实现等比例缩放增广。
3.根据权利要求1所述的一种基于计数模块的手写数学公式多尺度识别方法,其特征在于:所述编码器由多个resnet模块构成,每个resnet模块由卷积核为3×3步长为1的基础卷积层,中间批归一化层,relu激活层,5×5的卷积层和底层批归一化层组成;
4.根据权利要求1所...
【专利技术属性】
技术研发人员:刘名扬,梅智,李立元,吕源潮,杨轶鹏,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。