一种基于深度学习的单个汉字识别方法技术

技术编号:22468160 阅读:42 留言:0更新日期:2019-11-06 11:55
本发明专利技术公开了一种基于深度学习的单个汉字识别方法,包括如下步骤:S1,预处理待识别文字图片;S2,将预处理后的图片输入神经网络并初步提取特征;S3,将初步提取的特征进行批量归一化处理并将归一化结果进行池化操作;S4,将池化后的数据继续卷积提取特征得到对应的特征向量;S5,将特征向量分别进行空间金字塔池化并进行拼接;S6,将拼接后的向量全连接后进行归一化处理生成预测结果。

A single Chinese character recognition method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的单个汉字识别方法
本专利技术涉及图像识别分类领域,特别涉及一种基于深度学习的单个汉字识别方法。
技术介绍
文字作为人们平时信息交流的一种至关重要的工具,对整个社会的发展有着十分重要的影响。随着时代的不断进步,人们需要处理的文字与信息也越来越多,越来越多的数据与工作单单靠人工来进行识别和分析已经变得越发困难。研究一些方法对文字字符进行识别已经成为了目前的一个迫切的需求。字符识别是文字字符识别的难点和热点。字符数量多,仅中文字符的常用词汇就有3000多个。目前,主要的字符识别方法可以分为三种类型:1.基于模板匹配的字符识别;2.基于支持向量机的字符识别;3.神经网络的字符识别。神经网络是由大量神经元联结在一起的非线性数学模型。神经网络具有自组织自学习能力,可以在训练过程中直接接收数据并自适应地发现样本数据潜在的特征与规律;此外,神经网络还具有关联记忆存储、发散式推导以及高度并行性等特点。模板匹配算法适用于没有旋转角的固定大小的单字符识别。通常采用的是对二值图像进行匹配。从实时性、算法复杂性等角度考虑,模板匹配算法能够满足字符识别的任务。但是模板匹配也有其缺陷,即对同一类字符在不同图像中的尺度多变性以及光照多变性敏感,容易产生匹配偏差。基于支持向量机的字符算法主要是基于轮廓、网格、投影等统计特征,需要对数据进行降维。利用字符特征降维的方法现在逐渐利用到字符特征提取上,能够全面提取字符特征,字符识别效果更好,另外一种较多使用的降维方法是主成分分析法,但这种方法是从全局的角度对数据进行降维,并未考虑数据的局部特征,在降维过程中不可避免地损失了一些重要信息。基于神经网络的字符识别,以卷积神经网络为例。其作为深度学习的一种实现模型,具有局部感知野和权值共享的特征,极大地减少了计算复杂度,在图文识别方面也得到了快速发展。但是针对质量差和复杂的图纸,传统的基于卷积神经网络的识别算法并不能得到较高的准确率。近年来,也有一些较成熟的汉字识别工具,如Google的开源OCR系统等。然而,很少有研究涉及到在多字体情况下,如何有效地识别这些汉字。传统的单个汉字识别方法往往聚焦于某一种特定字体的汉字,研究者通过对单个汉字特征进行针对性地提取,往往可以得到识别率较高的模型。然而,在现实环境中,往往会存在多种字体文字,甚至是艺术字体同时出现的场景,这种情况下,很难对不同字体的汉字进行统一的特征提取。
技术实现思路
本专利技术的目的是提供一种基于深度学习的单个汉字识别方法,融合了多种深度神经网络技术可以在提高正确率的同时,减少网络参数提高模型训练速度,同时对于不同大小、字体的手写体文字均可进行识别,适用范围广、鲁棒性强。为了实现以上目的,本专利技术是通过以下技术方案实现的:一种基于深度学习的单个汉字识别方法,其特点是,包括如下步骤:S1,预处理待识别文字图片;S2,将预处理后的图片输入神经网络并初步提取特征;S3,将初步提取的特征进行批量归一化处理并将归一化结果进行池化操作;S4,将池化后的数据继续卷积提取特征得到对应的特征向量;S5,将特征向量分别进行空间金字塔池化并进行拼接;S6,将拼接后的向量全连接后进行归一化处理生成预测结果。所述步骤S1包括:步骤S11,对待识别文字图片提取汉字骨架特征;步骤S12,将提取的特征图与原始图片进行维度拼接。所述步骤S4包括:步骤S41,将池化后的数据送入反转残差与线性瓶颈块;步骤S42,将池化后的数据进行深度可分离卷积。步骤S5包括:步骤S51,将送入反转残差与线性瓶颈块后的数据进行金字塔池化,生成固定大小的第一特征向量;步骤S52,将进行深度可分离卷积的数据进行金字塔池化,生成固定向量的第二特征向量;步骤S53,将第一特征向量和第二特征向量进行拼接。所述的步骤S11包括:使用Zhang-Suen算法迭代地对符合特点条件的目标像素点进行腐蚀使目标变得越来越细,直到上一次迭代得到的图像目标在这一轮迭代中没有新的像素点被腐蚀为止。所述的步骤S41为:先对数据进行通道维度的扩大,并卷取提取图像特征,最后将通道维度压缩回预设通道数的纺锤形网络结构。本专利技术与现有技术相比,具有以下优点:融合了多种深度神经网络技术可以在提高正确率的同时,减少网络参数提高模型训练速度,同时对于不同大小、字体的手写体文字均可进行识别,适用范围广、鲁棒性强。附图说明图1为本专利技术一种基于深度学习的单个汉字识别方法的流程图。图2为本专利技术一种图像高维特征抽取分支结构表;图3为图像空间特征抽取分支结构表;图4为分支合并结构表。具体实施方式以下结合附图,通过详细说明一个较佳的具体实施例,对本专利技术做进一步阐述。如图1所示,一种基于深度学习的单个汉字识别方法,包括如下步骤:S1,预处理待识别文字图片作为神经网络输入;S2,将预处理后的图片输入神经网络并初步提取特征;S3,将初步提取的特征进行批量归一化并将归一化结果进行池化操作;S4,将池化后的数据继续卷积提取特征;S5,将步骤4输出的特征分别进行空间金字塔池化并进行拼接;S6,将拼接后的向量全连接后进行归一化处理生成预测结果。所述步骤S1包括:步骤S11,对待识别文字图片提取汉字骨架特征;步骤S12,将提取的特征图与原始图片进行维度拼接。所述步骤S4包括:步骤S41,将池化后的数据送入反转残差与线性瓶颈块;步骤S42,将池化后的数据进行深度可分离卷积。步骤S5包括:步骤S51,将送入反转残差与线性瓶颈块后的数据进行金字塔池化,生成固定大小的第一特征向量;步骤S52,将进行深度可分离卷积的数据进行金字塔池化,生成固定向量的第二特征向量;步骤S53,将第一特征向量和第二特征向量进行拼接。所述的步骤S11包括:使用Zhang-Suen算法迭代地对符合特点条件的目标像素点进行腐蚀使目标变得越来越细,直到上一次迭代得到的图像目标在这一轮迭代中没有新的像素点被腐蚀为止,Zhang-Suen算法是基于当前像素点的八邻域像素来判断该像素点是否应该被腐蚀,即邻接着当前像素点的周围8个像素点。算法定义当前像素点为P,该点的8临域像素点表示为Pi,(1≤i≤8)。N(P)表示与点P相邻8个像素点中,前景像素点的个数;S(P)表示点P的8邻域像素点按顺时针方向遍历一圈后,出现相邻像素点的值从0变为1的次数。所述的步骤S41为:先对数据进行通道维度的扩大,并卷取提取图像特征,最后将通道维度压缩回预设通道数的纺锤形网络结构,翻转块的第一个卷积层是PW卷积层,用于将输入数据的通道数进行扩张,第二层是一个DW卷积层,用于抽取空间维度的图像特征,第三层又是一个PW卷积层,用于将通道维度压缩回网络需要的通道数。其中,只有DW卷积层后使用了ReLU函数,另外两层卷积层后都没有使用非线性函数作为激活函数。由于ReLU函数对负数据无反馈,因此小于零的数据都会被丢失,所以翻转块只在DW卷积层后使用ReLU函数,这也是结构名中线性瓶颈的由来。上述的深度可分离卷积方法为:深度可分离卷积可以看成是将一个传统卷积拆解成两个卷积分别作用于空间维度和通道维度。其中作用于空间维度的卷积我们称之为Depthwise卷积(简称DW卷积),作用于通道维度的卷积我们称之为Pointwise卷积(简称PW卷积)。由于DW卷积用于对空间维度进行映射本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的单个汉字识别方法,其特征在于,包括如下步骤:S1,预处理待识别文字图片;S2,将预处理后的图片输入神经网络并初步提取特征;S3,将初步提取的特征进行批量归一化处理并将归一化结果进行池化操作;S4,将池化后的数据继续卷积提取特征得到对应的特征向量;S5,将特征向量分别进行空间金字塔池化并进行拼接;S6,将拼接后的向量全连接后进行归一化处理生成预测结果。

【技术特征摘要】
1.一种基于深度学习的单个汉字识别方法,其特征在于,包括如下步骤:S1,预处理待识别文字图片;S2,将预处理后的图片输入神经网络并初步提取特征;S3,将初步提取的特征进行批量归一化处理并将归一化结果进行池化操作;S4,将池化后的数据继续卷积提取特征得到对应的特征向量;S5,将特征向量分别进行空间金字塔池化并进行拼接;S6,将拼接后的向量全连接后进行归一化处理生成预测结果。2.如权利要求1所述的基于深度学习的单个汉字识别方法,其特征在于,所述步骤S1包括:步骤S11,对待识别文字图片提取汉字骨架特征;步骤S12,将提取的特征图与原始图片进行维度拼接。3.如权利要求1所述的基于深度学习的单个汉字识别方法,其特征在于,所述步骤S4包括:步骤S41,将池化后的数据送入反转残差与线性瓶颈块;步骤S42,将池化后的数据进行深度可分离卷...

【专利技术属性】
技术研发人员:刘晋常思维
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1