基于机器视觉的工业场景字符端侧推理训练装置及方法制造方法及图纸

技术编号:33391123 阅读:19 留言:0更新日期:2022-05-11 23:08
本发明专利技术公开了基于机器视觉的工业场景字符端侧推理训练装置及方法,包括以下步骤:A1:图像阈值分割,将原始灰度图像通过基于积分图运算的快速自适应阈值分割转换为二值化图像;A2:提取文本字段图像,对经过阈值分割后的图像进行闭操作,得到旋转矩形区域图像;A3:文本字段图像校正,通过仿射变换算法对得到的旋转矩形图像进行方向校正;A4:图像字符识别,将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组,然后输出字符识别结果。本发明专利技术提出的图像阈值分割方法,积分图的快速运算,与现有的采用高斯局部阈值分割的方法相比,可大大提高图像二值化的效能,减少分割所用时间,与OTSU法相比,本申请的分割效果更好,识别精度更高。识别精度更高。识别精度更高。

【技术实现步骤摘要】
基于机器视觉的工业场景字符端侧推理训练装置及方法


[0001]本专利技术涉及图像处理
,尤其涉及到基于机器视觉的工业场景字符端侧推理训练装置及方法。

技术介绍

[0002]光学字符识别是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。工业场景下的光学字符识别多用于提取产品表面的型号、序列号、日期等关键信息,对于产品物料的管理与追溯具有重大意义。目前该领域下的字符识别技术多以传统的图像处理及模板匹配算法为主,通过事先制作各个字符的图像模板,在处理新采集的图像时首先利用投影法、连通域分析等算法定位到单个字符。再将其截取出为单字符子图像,并与所有模板图像进行匹配比较,即计算实际字符图像与模板图像的重合度,将重合度最高的模板图像对应的字符类别作为该字符图像所属的字符;此外,一些机器学习算法也逐渐被应用于该
,如采用支持向量机算法或BP神经网络作为单字符的分类器,即通过在远端计算设备平台训练模型,再将模型部署到工业现场,实现字符的识别。
[0003]目前,基于传统图像处理、模板匹配算法进行字符识别,同一个字符图像需要对每一个模板图像进行遍历,这种方式效率低下,算法冗余度高。同时在面对产品线更新、出现多字体的字符图像时,需要重新制作模板和修改算法。此外这种方法鲁棒性差,如果产品表面出现脏污或印字不均,极容易导致单个字符分割失败,进而导致识别准确率低;对于机器学习或基本神经网络的方法,模型的训练与推理通常是割裂开来的,即在模型训练完成、投入现场部署应用之后,很难再对其进行更新与维护。
[0004]本申请的申请人通过建设现有技术发现了如下相关专利文献:专利文献1(CN202110053548.2)公开了一种字符识别提取方法,与之相比本专利技术无需事先制作字符库,而是通过更加智能的深度学习方法实现字符内容的识别,同时支持识别模型的自主更新,可用性更加,效果更好;专利文献2(CN202011457524.5)与之相比本专利的是以文本字段为基本单位,而不是将单个字符作为目标检测的对象,本专利提出使用的CRNN网络中的循环神经网络具有一定程度地上下文语义结合能力,具有更好的识别效果,如果以YOLO这种目标检测算法很难去分辨如0和O这种相似的字符,同时召回率也会比较低,容易漏字;可见现有技术中虽然已经存在一些字符识别方法,但任存在诸多缺陷。

技术实现思路

[0005]本专利技术的目的是提供基于机器视觉的工业场景字符端侧推理训练装置及方法,通过以文本字段为基本单位而不是单个字符,利用图像处理算法实现文本字段区域图像的提取,相比传统方法的单字符提取方案更加高效,能够解决现有技术的文本区域提取失误或
遗漏的问题。通过CRNN深度学习神经网络实现文本字段图像的字符识别,比传统的模板匹配方法更加简单高效,同时鲁棒性和准确性也更高,能够克服现有技术的字符易识别出错的缺点。同时支持在现场的工业计算平台实现端侧的模型学习和训练,能够使得系统可以应对不同字体的识别需求,能够解决现有技术可用性差、难扩展的问题。
[0006]本专利技术的上述技术目的是用过以下技术方案实现的:
[0007]一种基于机器视觉的工业场景字符端侧推理训练方法,包括以下步骤:
[0008]A1:图像阈值分割,将原始灰度图像通过基于积分图运算的快速自适应阈值分割转换为二值化图像;
[0009]A2:提取文本字段图像,对经过阈值分割后的图像进行闭操作,得到旋转矩形区域图像;
[0010]A3:文本字段图像校正,通过仿射变换算法对得到的旋转矩形图像进行方向校正;
[0011]A4:图像字符识别,将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组,然后输出字符识别结果。
[0012]本专利技术的进一步设置为:所述卷积循环神经网络模型的训练方法包括以下步骤:
[0013]B1:制作训练卷积循环神经网络模型所需要的数据集;
[0014]B2:基于深度学习框架搭建卷积循环神经网络模型,调取数据集对模型进行参数调整与优化;
[0015]B3:如果训练完成后得到的卷积循环神经网络模型的准确率小于预定值P,则将重新执行上述B2步骤,如果得到的卷积循环神经网络模型的准确率大于或等于预定值P,则将卷积循环神经网络模型用于步骤A4的图像字符识别中。
[0016]本专利技术的进一步设置为:所述积分图局部像素的求和公式为:
[0017]公式中图像积分图内每个点的值I(x,y)对应着原始图像中该点f(x,y)左上角的所有像素灰度值之和;
[0018]基于积分图的自适应阈值分割法表示公式为:
[0019][0020]公式中的f(x,y)为原灰度图中某像素的灰度值,公式中的c表示所选取邻域的像素个数总和,公式中的t为用于调节分割效果的常数参数;当该式成立时,积分图阈值分割将二值化图像对应的像素值置为255,否则置为0。
[0021]本专利技术的进一步设置为:所述图像操作的公式为:
[0022]公式中的A表示原图像,公式中的B表示一定大小的结构元素,公式中符号
·
表示闭操作,表示形态学膨胀操作,表示形态学腐蚀操作,,即通过结构元素B先对原图像A进行膨胀,再用结构元素B对结果图像进行腐蚀。
[0023]本专利技术的进一步设置为:所述仿射变换算法的公式为:
[0024]公式中的u、v对应着经过仿射变换后的像素点坐标,a2、a1、a0、b2、b1、b0为仿射矩阵的各子元素,x、y对应着仿射变换前的像素坐标。
[0025]本专利技术的进一步设置为:所述数据集包括裁切至文本字段最小外界边缘的图像集和对应的标注信息文本,标注信息文本中每一行保存每张训练图像的文件路径和对应的字符串内容。
[0026]本专利技术的进一步设置为:所述将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组,卷积循环神经网络模型组中包含多个不同的子卷积循环神经网络模型,每个卷积循环神经网络模型的输出结果经过投票器进行投票,根据各子结果的重复数量及置信度情况选出最佳的预测结果,将最佳预测结果作为最后的字符识别结果输出。
[0027]一种基于机器视觉的工业场景字符端侧推理训练装置,包括:
[0028]传送机构,所述传送机构用于输送待测工件;
[0029]支撑机构,所述支撑机构设置在传送机构上;
[0030]机器视觉机构,所述机器视觉机构用于获取待测工件的图像信息;
[0031]控制组件,所述控制组件与传送机构以及机器视觉机构连接,用于控制传送机构的工作状态并接收处理机器视觉机构获取的图像信息。
[0032]本专利技术的进一步设置为:所述机器视觉机构包括:设置在支撑机构上的工业相机,工业相机上安装有工业相机镜头,所述工业相机的下方设置有红外同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的工业场景字符端侧推理训练方法,其特征在于,包括以下步骤:A1:图像阈值分割,将原始灰度图像通过基于积分图运算的快速自适应阈值分割转换为二值化图像;A2:提取文本字段图像,对经过阈值分割后的图像进行闭操作,得到旋转矩形区域图像;A3:文本字段图像校正,通过仿射变换算法对得到的旋转矩形图像进行方向校正;A4:图像字符识别,将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组,然后输出字符识别结果。2.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法,其特征在于,所述卷积循环神经网络模型的训练方法包括以下步骤:B1:制作训练卷积循环神经网络模型所需要的数据集;B2:基于深度学习框架搭建卷积循环神经网络模型,调取数据集对模型进行参数调整与优化;B3:如果训练完成后得到的卷积循环神经网络模型的准确率小于预定值P,则将重新执行上述B2步骤,如果得到的卷积循环神经网络模型的准确率大于或等于预定值P,则将卷积循环神经网络模型用于步骤A4的图像字符识别中。3.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法,其特征在于,所述积分图局部像素的求和公式为:公式中图像积分图内每个点的值I(x,y)对应着原始图像中该点f(x,y)左上角的所有像素灰度值之和;基于积分图的自适应阈值分割法表示公式为:公式中的f(x,y)为原灰度图中某像素的灰度值,公式中的c表示所选取邻域的像素个数总和,公式中的t为用于调节分割效果的常数参数;当该式成立时,积分图阈值分割将二值化图像对应的像素值置为255,否则置为0。4.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法,其特征在于,所述图像操作的公式为:公式中的A表示原图像,公式中的B表示一定大小的结构元素,公式中符号
·
表示闭操作,表示形态学膨胀操作,表示形态学腐蚀操作,即通过结构元素B先对原图像A进行膨胀,再用结构元素B对结果图像进行腐蚀。5.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法,其特
征在...

【专利技术属性】
技术研发人员:熊帆陈田
申请(专利权)人:上海电机学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1