一种复杂背景下字符定位和识别方法技术

技术编号:33210037 阅读:43 留言:0更新日期:2022-04-24 01:03
本发明专利技术是一种复杂背景下字符定位和识别方法,基本流程由字符定位,字符识别组成。字符定位负责将图像背景去除,并精准定位字符区域,然后使用自创的特殊编码方式,将无用信息剔除,接着使用仿射变换自适应地矫正图片,找到目标字符并提取出来。字符识别部分使用由BLSTM+CNN+CTC组合的深度学习网络架构进行训练,将现场采集的数据制作成多种类数据集,通过由CNN卷积层+BLSTM循环层+Softmax转录层组成的神经网络准确将字符识别出来。与其他普通OCR方法相比,这是一种轻量化、无需大数据的字符信息定位算法,解决计算成本高、训练数据难以获得的问题,在降低成本和减短开发周期的同时,提高了定位的准确度和效率。提高了定位的准确度和效率。提高了定位的准确度和效率。

【技术实现步骤摘要】
一种复杂背景下字符定位和识别方法


[0001]本专利技术涉及人工智能和计算机视觉识别
,特别是涉及一种复杂背景下字符定位和识别方法。

技术介绍

[0002]随着人工智能技术的迅猛发展,以人工智能为核心的计算机视觉技术已经运用到制造业、家庭安防和移动支付等行业。
[0003]在工业生产的流程中,为了集中管理产品或者设备的信息,需要将产品或设备上的字符标识信息输入管理软件。传统的操作方式为人工输入系统,不仅效率低,在字符信息污染较严重或者人员精神状态差等情况下可能导致输入错误。目前,在制造业领域,智能精准的字符识别的需求日益增长,厂家为了将设备、货物的管理方法智能化,开始引入了OCR技术(Optical Character Recognition,光学字符识别)。通过工业相机对设备、货物上的印刷或喷涂文字拍照,然后对图片做预处理,定位感兴趣区域并获取感兴趣区域的形状,通过字符识别算法,通过获取形状的特征将其翻译成计算机文字,由计算机进行管理。但是,在工业生产的过程中,工况环境比较复杂,设备和货物的印刷信息随时因为剐蹭、污染等多因素叠加,使得印刷字符不清晰,导致无法精准定位和识别。因此,包含了设备和货物字符信息的图像中的文字定位准确度直接决定了图像识别精度,从而影响所录入的设备和货物信息的准确度,并影响整个物流管理的准确度和效率。
[0004]现有技术较好实现了规则字符的识别。目前不规则字符的定位以及编码算法开始是采用深度学习目标检测模型这种人工智能方法得以较好识别,如yolov4等,然而这类算法不仅运算成本高,而且在没有大量、优质数据的情况下,算法的定位错误率非常高,而且优质而大量的数据难以获得。行业
内急需开发出一种不需要大量数据且轻量化的方法,这种方法既能绕过数据制作和搜集这一步,又能节约成本、减短开发周期。

技术实现思路

[0005]本专利技术目的是:针对上述问题,本专利技术申请提出一种复杂背景下字符定位和识别技术,以克服背景复杂、字符不规则且受污染等不良状况所造成的字符无法精准定位和准确识别问题。
[0006]本专利技术基本流程是:由字符定位,字符识别两部分组成。字符定位负责将图像背景去除,并精准定位字符区域,然后使用自创的特殊编码方式,将无用信息剔除,接着使用仿射变换自适应地矫正图像,找到目标字符并提取出来。字符识别部分使用BLSTM结合DenseNet作为字符识别的核心算法,设计由BLSTM+CNN+CTC组合的深度学习网络架构;将现场采集的数据制作成多种类数据集,训练BLSTM和CNN网络,使其能通过由卷积层、循环层、转录层组成的神经网络准确将字符识别出来。该方法对于带有复杂背景下字符具有识别准确、稳定、抗干扰性强等优点。
[0007]这是一种轻量化、无需大数据的字符信息定位算法,解决计算成本高、训练数据难
以获得的问题,在降低成本和减短开发周期的同时,提高了定位的准确度和效率。
[0008]本专利技术采用的技术方案如下:一种复杂背景下字符定位方法,其特征在于,所述方法包括:步骤S1:对图像进行粗略定位,找出所有包含字符存在的感兴趣区域的定位,对感兴趣区域画最小外接矩形;步骤S2:对所有最小外接矩形左上角坐标点的横坐标集合求众数和编码轴,将所有已找出的感兴趣区域进行编码、排序,获取每个感兴趣区域索引,记为步骤S21;通过计算最小外接矩形左上角横坐标点与左编码轴之间偏移量,设定判定阈值并进行二次筛选,找出所需的感兴趣区域,记为步骤S22;步骤S4:采用K

means聚类算法对所需的感兴趣区域进行内容分割,将字符类保留、滤除背景和噪声2个类,提取出单个字符定位,达到字符分割目的;步骤S5:在步骤S4分割提取所留下的字符中,将所需的单个字符轮廓进行合并,提取出最终的字符感兴趣区域精确定位。
[0009]优选的,所述步骤S1还包括以下步骤:步骤S11:对图像做resize、通道转换、二值化处理;步骤S12:对图像做开运算,去除图像上细小干扰连接;步骤S13:填充感兴趣区域内的图像信息小空洞,连接邻近的物体并连接断开的轮廓线,平滑边界,使各感兴趣区域更好的分离;步骤S14:对感兴趣区域画最小外接矩形。
[0010]优选的,所述步骤S2还包括以下步骤:在步骤S21中:找出所有左和右感兴趣区域最小外接矩形左上角横坐标点的集合,求众数并作为横坐标,再随意取两点作为纵坐标得出编码轴,完成对感兴趣区域进行编码、排序;在步骤S22中,找出所需的感兴趣区域方法为:设定感兴趣区域左上角横坐标点与左编码轴之间的偏移量阈值H和感兴趣区域高h,把h小于H的感兴趣区域作为有效检测区域;根据编码轴、各感兴趣区域之间的相对位置和感兴趣区域高h,将保留下来的有效检测区域沿着编码轴生成目标所需的感兴趣区域。
[0011]优选的,所述步骤S3,还包括以下步骤:步骤S31:将标签上logo和公司名称的辅助信息通过腐蚀、膨胀操作合并成一个整体感兴趣区域,作为参照感兴趣区域,求出最小其外接矩形。
[0012]优选的,所述步骤S4还包括以下步骤:步骤S41:计算所有样本点之间的距离,选择距离最大的一个点对作为2个初始中心点,从样本点集中去掉这两个点,所述点对为两个样本C1,C2。如果初始中心点个数达到k个,则终止;如果没有,在剩余的样本点中,选一个点C3,见如下公式(1):(1)步骤S42:使用误差平方和SSE评估聚类结果好坏;步骤S43:对已经过图像矫正的有效检测区域图像,考虑到由于之前的K

means聚
类分割处理能导致感兴趣区域无法完全包含字符信息,对感兴趣区域做加大处理;步骤S44:选取不同聚类分割k值并比较结果,找出最佳k值,所述最佳k值为聚类分割模型计算得出的类别分割最优数量值;根据最佳k值,确认感兴趣区域的最终分类种类,将待识别的字符类别留下,并将其余干扰类别滤除,达到字符分割的目的。
[0013]优选的,所述步骤S5中,还包括以下步骤:步骤S51:使用轮廓寻找函数找到所有字符的轮廓,找到轮廓的最小外接矩形,进行二值化处理;步骤S52:将包含中文字符的感兴趣区域和噪声去除,保留数字,使数字字符连成一块新的感兴趣区域,实现数字字符精确定位。
[0014]本专利技术技术方案还包括:一种复杂背景下字符识别方法,包括上述一种复杂背景下字符定位方法中步骤S1至步骤S5任一步骤及子步骤所述内容,其特征在于,包括以下执行步骤:步骤D1:将字符定位方法找出的字符,设计混合数据集,包括无污染图像、带有多种不同污染种类的图像;步骤D2:进行构建可结合当前信息和未来信息预测下一个输出的改进型神经网络进行训练,所述改进型神经网络为包括SCA

CNN+BLSTM+CTC的字符识别算法,为提升模型对目标的关注,CNN网络融合多层空间和通道注意力机制构建SCA

CNN,将图像编码成特征向量,提高图像的特征提取精度与速度;然后利用递归神经网络BLSTM对图像特征解码成预测字符,利用BLSTM网络进行序列预测,BLSTM生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种复杂背景下字符定位方法,其特征在于,所述方法包括:步骤S1:对图像进行粗略定位,找出所有包含字符存在的感兴趣区域的定位,对感兴趣区域画最小外接矩形;步骤S2: 对所有最小外接矩形左上角坐标点的横坐标集合求众数和编码轴,将所有已找出的感兴趣区域进行编码、排序,获取每个感兴趣区域索引,记为步骤S21;通过计算最小外接矩形左上角横坐标点与左编码轴之间偏移量,设定判定阈值并进行二次筛选,找出所需的感兴趣区域,记为步骤S22;步骤S3:采用自适应仿射变换算法,将所需的感兴趣区域进行位置矫正;步骤S4:采用K

means聚类算法对所需的感兴趣区域进行内容分割,将字符类保留、滤除背景和噪声2个类,提取出单个字符定位,达到字符分割目的;步骤S5:在步骤S4分割提取所留下的字符中,将所需的单个字符轮廓进行合并,提取出最终的字符感兴趣区域精确定位。2.根据权利要求1所述的一种复杂背景下字符定位方法,其特征在于所述步骤S1还包括以下步骤:步骤S11:对图像做resize、通道转换、二值化处理;步骤S12:对图像做开运算,去除图片上细小干扰连接;步骤S13:对图像做闭运算,填充感兴趣区域内的图像信息小空洞,连接邻近的物体并连接断开的轮廓线,平滑边界,使各感兴趣区域更好的分离;步骤S14:对感兴趣区域画最小外接矩形。3.根据权利要求1所述的一种复杂背景下字符定位方法,其特征在于所述步骤S2还包括以下步骤:在步骤S21中:找出所有左和右感兴趣区域最小外接矩形左上角横坐标点的集合,求众数并作为横坐标,再随意取两点作为纵坐标得出编码轴,完成对感兴趣区域进行编码、排序;在步骤S22中,找出所需的感兴趣区域方法为:设定感兴趣区域左上角横坐标点与左编码轴之间的偏移量阈值H和感兴趣区域高h,把h小于H的感兴趣区域作为有效检测区域;根据编码轴、各感兴趣区域之间的相对位置和感兴趣区域高h,将保留下来的有效检测区域沿着编码轴生成目标所需的感兴趣区域。4.根据权利要求1所述的一种复杂背景下字符定位方法,其特征在于所述步骤S3,还包括以下步骤:步骤S31:将标签上logo和公司名称的辅助信息通过腐蚀、膨胀操作合并成一个整体感兴趣区域,作为参照感兴趣区域,求出最小其外接矩形。5.根据权利要求1所述的一种复杂背景下字符定位方法,其特征在于所述步骤S4还包括以下步骤:步骤S41:计算所有样本点之间的距离,选择距离最大的一个点对作为2个初始中心点,从样本点集中去掉这两个点,所述点对为两个样本C1,C2;如果初始中心点个数达到k个,则终止;如果没有,在剩余的样本点中,选一个点C3,见如下公式(1):
(1)步骤S42:使用误差平方和SSE评估聚类结果好坏;步骤S43:对已经过矫正的有...

【专利技术属性】
技术研发人员:王桂棠陈永彬王国桢吴佳毅吴黎明
申请(专利权)人:佛山沧科智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1