一种字符验证码识别的深度学习方法及装置制造方法及图纸

技术编号：16064411 阅读：64 留言：0更新日期：2017-08-22 16:50

本发明专利技术涉及一种字符验证码识别的深度学习方法，该方法包括：步骤1，利用有标注标签的数据训练集来训练模型；步骤2，用训练好的模型来预测新的验证码图片中的文字。本发明专利技术实现了一个通用的验证码识别系统方法，在遇到一个新的网站验证码之后，可以通过训练该模型，或者对已经训练好的模型精细调参，得到一个高准确率的识别器，从而破解网站的验证码阻碍，本发明专利技术的模型构建简单，且提高了验证码识别的准确率。

Depth learning method and device for character verification code recognition

The invention relates to a method for deep learning character verification code recognition, the method comprises the following steps: 1, by labeling the training data set to train a model; step 2, using the trained model to predict the new captcha image in the text. The invention implements a general verification code recognition system, in the face of a new site verification code, can train the model, or to have training model for fine tuned parameters, a high accuracy of recognition, so as to solve the site verification code block, the model of the invention simple construction, and improve the accuracy of the verification code identification.

全部详细技术资料下载

【技术实现步骤摘要】
一种字符验证码识别的深度学习方法及装置
本专利技术涉及一种字符识别方法，更具体的，涉及一种字符验证码识别的深度学习方法及装置。
技术介绍
验证码（CAPTCHA）是一种反向图灵测试技术，常在网站中用于区分人类用户和计算机程序，防止破解密码，刷票，或者是论坛灌水等恶意行为，可以有效保障网站的安全和正常运行。验证码的设计，是利用了人类对于物体、字符的识别极其容易但是对计算机却非常困难的特点。验证码的识别，是人工智能领域一个重要的研究课题。研究验证码的破解方法，可以用来检测验证码安全性，也可以对网站验证码设计者有很大的借鉴作用。验证码有很多形式，但是最常见的是字符型验证码，即一些随机产生的中英文字符，在旋转和扭曲后，加上一些随机线和噪声点背景的扰动，生成验证码图片。因为验证码的图片和正常的文字图片相比，已经发生了严重的扭曲，所以一般的光学字符识别软件很难正常识别出来其中的文字。一般的验证码识别流程，如文献[ShujunLi,RolandSchmitz.Breakinge-bankingCAPTCHAs.Proceedingsof26thAnnualComputerSecurityApplicationsConferenceACSAC2010]中提到的方法，可以大致分为预处理，定位，切分和识别四个步骤。用二值化，背景去噪，去干扰线算法等一系列预处理工作，是为了得到更清晰的图片，便于后续的流程。定位操作是把字符从图片中找出来，切分则是把连续的序列字符，切分成单一的字符，识别则是针对每个单一的字符识别，可以转换成机器学习中的分类任务。如果是传统的分类器，如支持向量机，...
一种字符验证码识别的深度学习方法及装置

【技术保护点】
一种字符验证码识别的深度学习方法，其特征在于，该方法包括如下步骤：步骤1），利用有标注标签的数据训练集来训练模型；步骤2），用训练好的模型来预测新的验证码图片中的文字；其中，步骤1）还包括训练集的收集、模型训练的粒度和交叉验证过程。

【技术特征摘要】
1.一种字符验证码识别的深度学习方法，其特征在于，该方法包括如下步骤：步骤1），利用有标注标签的数据训练集来训练模型；步骤2），用训练好的模型来预测新的验证码图片中的文字；其中，步骤1）还包括训练集的收集、模型训练的粒度和交叉验证过程。2.根据权利要求1所述的一种字符验证码识别的深度学习方法，其特征在于，所述步骤1）中所述训练集的收集具体包括：若深度学习需要大量的有标注数据，则利用爬虫程序，在网站获取若干验证码样本，用打码平台的众包服务标注数据；若需要的样本数不多，则手动标注数据。3.根据权利要求1所述的一种字符验证码识别的深度学习方法，其特征在于，所述模型训练的粒度具体包括：粗粒度式地从头训练模型或者在训练好的模型基础上进行精细调参。4.根据权利要求1所述的一种字符验证码识别的深度学习方法，其特征在于，所述交叉验证具体包括：通过交叉验证的方法选出最优的一个超参组合，所述超参是指深度学习的超参，包括学习率，权重衰减指数，Dropout概率等。5.根据权利要求1所述的一种字符验证码识别的深度学习方法，其特征在于，所述步骤1）中利用有标注的数据来训练模型具体包括：将所述有标注标签的数据训练集图片输入到卷积神经网络（CNN）中；对所述图片进行特征提取；将提取出的所述特征输入到输出变量模型中进行训练，得出最优的超参组合。6.一种...

【专利技术属性】
技术研发人员：张小彬，潘嵘，费行健，
申请(专利权)人：深圳爱拼信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人