一种复杂背景下字符定位和识别方法技术

技术编号：33210037 阅读：43 留言：0更新日期：2022-04-24 01:03

本发明专利技术是一种复杂背景下字符定位和识别方法，基本流程由字符定位，字符识别组成。字符定位负责将图像背景去除，并精准定位字符区域，然后使用自创的特殊编码方式，将无用信息剔除，接着使用仿射变换自适应地矫正图片，找到目标字符并提取出来。字符识别部分使用由BLSTM+CNN+CTC组合的深度学习网络架构进行训练，将现场采集的数据制作成多种类数据集，通过由CNN卷积层+BLSTM循环层+Softmax转录层组成的神经网络准确将字符识别出来。与其他普通OCR方法相比，这是一种轻量化、无需大数据的字符信息定位算法，解决计算成本高、训练数据难以获得的问题，在降低成本和减短开发周期的同时，提高了定位的准确度和效率。提高了定位的准确度和效率。提高了定位的准确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种复杂背景下字符定位和识别方法

[0001]本专利技术涉及人工智能和计算机视觉识别
，特别是涉及一种复杂背景下字符定位和识别方法。

技术介绍

[0002]随着人工智能技术的迅猛发展，以人工智能为核心的计算机视觉技术已经运用到制造业、家庭安防和移动支付等行业。
[0003]在工业生产的流程中，为了集中管理产品或者设备的信息，需要将产品或设备上的字符标识信息输入管理软件。传统的操作方式为人工输入系统，不仅效率低，在字符信息污染较严重或者人员精神状态差等情况下可能导致输入错误。目前，在制造业领域，智能精准的字符识别的需求日益增长，厂家为了将设备、货物的管理方法智能化，开始引入了OCR技术（Optical Character Recognition，光学字符识别）。通过工业相机对设备、货物上的印刷或喷涂文字拍照，然后对图片做预处理，定位感兴趣区域并获取感兴趣区域的形状，通过字符识别算法，通过获取形状的特征将其翻译成计算机文字，由计算机进行管理。但是，在工业生产的过程中，工况环境比较复杂，设备和货物的印刷信息随时因为剐蹭、污染等多因素叠加，使得印刷字符不清晰，导致无法精准定位和识别。因此，包含了设备和货物字符信息的图像中的文字定位准确度直接决定了图像识别精度，从而影响所录入的设备和货物信息的准确度，并影响整个物流管理的准确度和效率。
[0004]现有技术较好实现了规则字符的识别。目前不规则字符的定位以及编码算法开始是采用深度学习目标检测模型这种人工智能方法得以较好识别，如yolov4等，然而这类算法不仅...

【技术保护点】

【技术特征摘要】
1.一种复杂背景下字符定位方法，其特征在于，所述方法包括：步骤S1:对图像进行粗略定位，找出所有包含字符存在的感兴趣区域的定位，对感兴趣区域画最小外接矩形；步骤S2: 对所有最小外接矩形左上角坐标点的横坐标集合求众数和编码轴，将所有已找出的感兴趣区域进行编码、排序，获取每个感兴趣区域索引，记为步骤S21；通过计算最小外接矩形左上角横坐标点与左编码轴之间偏移量，设定判定阈值并进行二次筛选，找出所需的感兴趣区域，记为步骤S22；步骤S3:采用自适应仿射变换算法，将所需的感兴趣区域进行位置矫正；步骤S4:采用K
‑
means聚类算法对所需的感兴趣区域进行内容分割，将字符类保留、滤除背景和噪声2个类，提取出单个字符定位，达到字符分割目的；步骤S5:在步骤S4分割提取所留下的字符中，将所需的单个字符轮廓进行合并，提取出最终的字符感兴趣区域精确定位。2.根据权利要求1所述的一种复杂背景下字符定位方法，其特征在于所述步骤S1还包括以下步骤：步骤S11:对图像做resize、通道转换、二值化处理；步骤S12:对图像做开运算,去除图片上细小干扰连接；步骤S13:对图像做闭运算，填充感兴趣区域内的图像信息小空洞，连接邻近的物体并连接断开的轮廓线，平滑边界，使各感兴趣区域更好的分离；步骤S14：对感兴趣区域画最小外接矩形。3.根据权利要求1所述的一种复杂背景下字符定位方法，其特征在于所述步骤S2还包括以下步骤：在步骤S21中：找出所有左和右感兴趣区域最小外接矩形左上角横坐标点的集合，求众数并作为横坐标，再随意取两点作为纵坐标得出编码轴，完成对感兴趣区域进行编码、排序；在步骤S22中，找出所需的感兴趣区域方法为：设定感兴趣区域左上角横坐标点与左编码轴之间的偏移量阈值H和感兴趣区域高h，把h小于H的感兴趣区域作为有效检测区域；根据编码轴、各感兴趣区域之间的相对位置和感兴趣区域高h，将保留下来的有效检测区域沿着编码轴生成目标所需的感兴趣区域。4.根据权利要求1所述的一种复杂背景下字符定位方法，其特征在于所述步骤S3，还包括以下步骤：步骤S31：将标签上logo和公司名称的辅助信息通过腐蚀、膨胀操作合并成一个整体感兴趣区域，作为参照感兴趣区域，求出最小其外接矩形。5.根据权利要求1所述的一种复杂背景下字符定位方法，其特征在于所述步骤S4还包括以下步骤：步骤S41：计算所有样本点之间的距离，选择距离最大的一个点对作为2个初始中心点，从样本点集中去掉这两个点，所述点对为两个样本C1,C2；如果初始中心点个数达到k个，则终止；如果没有，在剩余的样本点中，选一个点C3，见如下公式（1）：
（1）步骤S42：使用误差平方和SSE评估聚类结果好坏；步骤S43：对已经过矫正的有...

【专利技术属性】
技术研发人员：王桂棠，陈永彬，王国桢，吴佳毅，吴黎明，
申请(专利权)人：佛山沧科智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人