当前位置: 首页 > 专利查询>吴晓军专利>正文

一种基于卷积神经网络的工业字符识别方法技术

技术编号:15330459 阅读:195 留言:0更新日期:2017-05-16 13:55
本发明专利技术提出了一种基于卷积神经网络的工业字符识别方法,包括建立字符数据集,对字符数据集进行数据增强及预处理,建立CNN集成模型,所述模型包含3个不同的个体分类器,然后,利用模型进行训练,训练分为两步完成,第一步为离线训练,获取离线训练模型,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型;以及对目标图形进行预处理、字符定位和单个字符图像分割;将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值;采用投票的方式进行最终决策,得到测试数据的类别结果。本发明专利技术能够对不同生产线上的字符进行快速、高效的识别。

An industrial character recognition method based on convolutional neural network

The invention provides an industrial character recognition method based on convolutional neural network, including the establishment of character data set, data enhancement and preprocessing of character data set, a CNN integrated model, the model contains 3 different individual classifiers, then trained using model, training is divided into two steps, first step for off-line training, get offline training model, the second step for the online training, the off-line training model is used for initialization, specific production line character data set for training, online training and target model; graph preprocessing, character location and single character image segmentation; character image will divide into online training the model has been trained in three CNN classifiers integrated model for single target image classification probability for each category by investment value; Tickets are used to make final decisions and get the category results of the test data. The invention can quickly and efficiently recognize characters on different production lines.

【技术实现步骤摘要】
一种基于卷积神经网络的工业字符识别方法
本专利技术涉及图像识别
,尤其涉及一种工业字符识别方法。
技术介绍
现有的字符识别技术一般采用基于模版匹配或基于结构统计的算法。以字符图像灰度作为匹配信息,通过计算字符模板图像与目标图像子区域的灰度相关系数来度量匹配度;或利用字符本身的形态结构,如边缘、拐点、连通域等特征进行识别。还有一类是在建立字符图像的特征后,通过有监督的方式学习特征与目标类别之间的关系,建立从输入到预测输出的函数关系。专利文献1(中国专利公开号CN101436249A)公开了一种获得字符粗分类及细分类匹配模版的方法,用于手写字符识别系统。专利文献2(中国专利公开号CN103049750A)公开了一种采用边缘特征建立字符匹配模版的方法。专利文献3(中国专利公开号CN104820827A)公开了一种通过二值化、预处理、区域粗提取和分割等各个操作获取字符的单独图像与设定的模版进行相似性度量的匹配算法,用于电线电缆表面的点状字符识别。专利文献4(中国专利公开号CN105761351A)公开了一种基于结构特征的字符识别方法。专利文献5(中国专利公开号CN104871180A)公开了一种使用相同文本的多个图像改善文本辨识的方法用于改善文字识别效果。专利文献6(中国专利公开号CN105608453A)公开了一种能够对包括不同种类字符的复式记录的票据进行高精度识别的字符识别系统及字符识别方法。专利文献7(中国专利公开号CN103902956A)公开了一种基于神经网络的车牌照字符识别方法,以字符图像在X轴和Y轴上的投影为基本,对其做Fourier变换得到的K个变换系数中选出有代表性的M个特征作为神经网络的输入,采用有监督的方式训练得到特征和输出类别间的关系。专利文献8(中国专利公开号CN101408933A)公开了一种基于粗网格特征提取和BP神经网络的车牌字符识别方法。专利文献9(中国专利公开号CN103927534A)公开了针对易拉罐底喷码字符的在线视觉检测方法,包括离线状态下对图像中的字符进行分割,并归类构建字符库,采用卷积神经网络算法进行训练,形成字符分类器,在在线检测时用同样的过程对输入图像进行识别。专利文献10(中国专利公开号CN104463209A)公开了一种识别PCB板上数字代码的方法,采用频域法得到增强了特征值的图像,归一化特征值输入BP神经网络完成训练和预测。专利文献11(中国专利公开号CN104331688A)公开了一种雷管外壳点阵字符的识别方法,利用连通域对单个字符区域进行切分,将字符边界到区域边界的距离作为待识别的特征值,利用最小距离分类器和多级识别法获得最终的识别结果。专利文献12(中国专利公开号CN105678293A)、专利文献13(中国专利公开号CN105678292A)公开了一种基于卷积及递归神经网络的文字序列识别系统,采用CNN提取图像文字序列特征并输出到RNN中,依次实现汉字前、后部分、数字、字母、标点符号或者空白的识别。王有旺等提出了基于深度学习的字符识别算法,分别应用于手写体汉字识别和自然场景英文文字识别(王有旺,深度学习及其在手写汉字识别中的应用研究,华南理工大学,硕士学位论文,2014;廖威敏,面向自然场景的端对端英文文字识别研究,厦门大学,硕士学位论文,2014)。周凤香提出了一种基于字符混合特征的工业生产线标签识别系统,通过提取字符的孔洞特征、统计特征、结构特征和基于Gabor变换的纹理特征等构建字符的混合特征,设计三层分类器进行递进的识别分类(周凤香,工业生产线标签字符识别系统的设计与实现,电子科技大学,硕士学位论文,2013)。刘萌萌提出了一种基于神经网络的压印字符识别系统,其中研究了模版匹配定位算法和基于Ostu法的字符分割方法,然后结合BP神经网络和字符的结构特征构建了完整的字符识别方案(刘萌萌,基于神经网络的压印字符识别系统研究,天津大学,硕士学位论文,2013)。国外的机器视觉软件例如美国康耐视的VisionPro、日本Keyence、德国MVtec的Halcon等都具有字符识别算法,一方面这些方法都是基于传统的技术实现,另一方面我们需要开发具有自主知识产权的核心技术,随着“中国制造2025”计划的实施,亟需掌握高性能的机器视觉核心算法。基于灰度相关的模板匹配算法以字符图像灰度信息直接进行相似度计算,如专利文献1和专利文献3中的方法,实现比较简单,整体计算量相对较小,识别速度较快,但对字符图像的预处理效果依赖较高,如光照不均匀划痕等影响造成的字符粘连、断裂等问题会使得到的字符图像噪声较大,影响到最终的识别效果;部分基于边缘或孔洞特征的方法处理速度慢,需要根据字符本身结构不同特点设计适用性不强,精度也不够高。专利文献7、专利文献8、专利文献10等利用字符图像中的结构或统计信息,采用人工设计特征并提取特征的方式对神经网络的输入进行构建,同样面临建立和筛选合适的特征的问题,技术的通用性较差,且专利文献8按照自主划分的粗网格提取字符点阵的像素级特征坑干扰能力较差,在训练神经网络时还需要划分汉字网络、字母网络、数字网络等不同的网络进行单独训练,计算量大幅增加。专利文献11公开的方法将字符边界到区域边界的距离作为识别特征值,识别精度较差,算法仅适用于其设定的雷管外壳点阵这种特定类型的字符。专利文献5公开的方法重点在于改善文本辨识质量,通过同一文本区域多个版本的图像按照属性限制值提供给OCR装置提升识别效果。专利文献12、专利文献13等方法研究重点在于解决文字序列的识别问题,滑动采样模块对待识别文本进行滑动采样,CNN模块进行特征提取,RNN模块进行序列识别,该方法主要针对序列采样可能产生的问题进行了分析,解决了序列识别问题,但没有对字符识别的准确性进行考虑。王有旺等提出的采用深度学习进行手写字符识别的方法虽然适用性较强,但其处理的手写字符问题都在干净的背景下进行,对于具有复杂背景的工业字符精度不高,且训练不够高效。本专利技术提出了采用卷积神经网络算法进行通用的工业字符识别,以及多种改善算法性能的方法和策略,使本专利技术的技术能够达到实际工业应用的要求。
技术实现思路
本专利技术的目的在于克服现有技术中的缺陷,提出了一种基于卷积神经网络的工业字符识别方法。为达上述目的,本专利技术通过以下技术方案实现:一种基于卷积神经网络的工业字符识别方法,包括以下步骤:建立字符数据集,所述字符数据集包括混合场景字符数据集和单一场景字符数据集;对所述字符数据集进行数据增强及预处理,其中,所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集;建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器,其中,个体学习器采用卷积神经网络,所述CNN集成模型共包含三个CNN结构:Net-1、Net-2、Net-3,Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层,采用Softmax层作为特征分类器,采用了多级特征融合的方式,将每一个特征提取层或特定某几个特征提取层的输出进行融合,共同输入全连接层,这样得到的集成特征向量传入分类器作为最终的特征提取结果;Net-2也同样包含3个特征提取阶段,同样采用了多级特征融合,在Net-2中所有的卷积层都本文档来自技高网
...

【技术保护点】
一种基于卷积神经网络的工业字符识别方法,其特征在于:所述方法包括:建立字符数据集,所述字符数据集包括混合场景字符数据集和单一场景字符数据集;对所述字符数据集进行数据增强及预处理,其中,所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集;建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器,其中,个体学习器采用卷积神经网络,所述CNN集成模型共包含三个CNN结构:Net‑1、Net‑2、Net‑3,Net‑1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层,采用Softmax层作为特征分类器,采用了多级特征融合的方式,将每一个特征提取层或特定某几个特征提取层的输出进行融合,共同输入全连接层,这样得到的集成特征向量传入分类器作为最终的特征提取结果;Net‑2也同样包含3个特征提取阶段,同样采用了多级特征融合,在Net‑2中所有的卷积层都采用3×3的卷积核;Net‑3的结构与Net‑2较为相似,但没有将多级特征共同输入全链接层;在建立了三个网络结构作为个体学习器后,对CNN集成模型进行训练,训练步骤如下:(1)从原始数据集中随机采样,产生三个随机样本空间,确保这些采样空间与所涉及的原始数据集有微小差异;(2)轮流训练三个网络模型。采用上一步得到的三个样本空间分别训练Net‑1,Net‑2,Net‑3,这样就得到了三个有差异的分类器;(3)一轮训练结束,返回步骤(1)继续执行随机采样操作及训练操作,直到达到预设的迭代次数或三个结构的误差分别收敛到一定值。然后保存权重,得到三个个体分类器;其中,训练分为两步完成,第一步为离线训练,获取离线训练模型,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型;以及对目标图形进行预处理、字符定位和单个字符图像分割;将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值;采用投票的方式进行最终决策,得到测试数据的类别结果。...

【技术特征摘要】
1.一种基于卷积神经网络的工业字符识别方法,其特征在于:所述方法包括:建立字符数据集,所述字符数据集包括混合场景字符数据集和单一场景字符数据集;对所述字符数据集进行数据增强及预处理,其中,所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集;建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器,其中,个体学习器采用卷积神经网络,所述CNN集成模型共包含三个CNN结构:Net-1、Net-2、Net-3,Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层,采用Softmax层作为特征分类器,采用了多级特征融合的方式,将每一个特征提取层或特定某几个特征提取层的输出进行融合,共同输入全连接层,这样得到的集成特征向量传入分类器作为最终的特征提取结果;Net-2也同样包含3个特征提取阶段,同样采用了多级特征融合,在Net-2中所有的卷积层都采用3×3的卷积核;Net-3的结构与Net-2较为相似,但没有将多级特征共同输入全链接层;在建立了三个网络结构作为个体学习器后,对CNN集成模型进行训练,训练步骤如下:(1)从原始数据集中随机采样,产生三个随机样本空间,确保这些采样空间与所涉及的原始数据集有微小差异;(2)轮流训练三个网络模型。采用上一步得到的三个样本空间分别训练Net-1,Net-2,Net-3,这样就得到了三个有差异的分类器;(3)一轮训练结束,返回步骤(1)继续执行随机采样操作及训练操作,直到达到预设的迭代次数或三个结构的误差分别收敛到一定值。然后保存权重,得到三个个体分类器;其中,训练分为两步完成,第一步为离线训练,获取离线训练模型,第二步为在线训练,将离线训练模型用作初始化,进行特定生产线字符数据集的训练,获取在线训练模型;以及对目标图形进行预处理、字符定位和单个字符图像分割;将分割好的字符图像送入已训练好的在线训练模型中,得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概...

【专利技术属性】
技术研发人员:吴晓军张瑞
申请(专利权)人:吴晓军
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1