基于级联卷积神经网络的自然场景图像文本检测方法技术

技术编号：17407790 阅读：64 留言：0更新日期：2018-03-07 05:22

本发明专利技术公开了一种基于级联卷积神经网络的自然场景图像文本检测方法，首先利用最大稳定极值区域方法对输入图像进行候选字符提取；其次，将预训练好的16‑net卷积神经网络与32‑net卷积神经网络进行串联，组成一个级联卷积神经网络，并利用该级联卷积神经网络对候选字符进行分类，剔除候选字符中的非真实字符，得到最终的真实字符检测结果；然后，将字符检测结果中的相邻字符进行两两组对，并将存在共有字符的字符进行合并，直到所有字符对均被合并为止，得到文本行；最后根据字符间距将文本行分割为多个单词或词组，得到最终的文本检测结果。本发明专利技术有效解决了训练样本类别不平衡的问题，有效地提升了文本检测效率和性能。

A text detection method for natural scene image based on cascaded convolution neural network

全部详细技术资料下载

【技术实现步骤摘要】
基于级联卷积神经网络的自然场景图像文本检测方法
本专利技术属于自然场景文本检测
，具体涉及一种基于级联卷积神经网络的自然场景图像文本检测方法。
技术介绍
自然场景文本检测一般包括候选字符提取，字符与非字符分类，文本行构造及文本行分割四个步骤。候选字符提取是指通过研究字符的结构和颜色特征，从自然场景图像中提取出具有此类特征的区域作为候选字符；然后利用机器学习算法或深度学习算法训练出一个二分类器，并利用此分类器对候选字符进行分类，将其分为字符与非字符两类；再利用相邻字符之间的位置关系，将字符群组为文本行，即文本行构造；最后根据字符间距将文本行分割为多个单词或词组，从而得到最终的文本检测结果。在此过程中，由于自然场景中的文本结构与颜色等特征较为复杂，提取出来的候选字符不可避免地会包含非真实字符，且非真实字符数远远大于真实字符数，因此分类器的训练将面临样本类别不均衡问题。目前，业界解决此类问题主要从两方面进行处理。一种是从数据出发，通过对正负样本以不同的采样比率进行采样，从而得到均衡的样本。另一种方法是从算法出发，将正样本误分的惩罚因子设置为较大值，将负样本误分的惩罚因子设置较小值。但是从数据层面上对原始数据进行采样时，会存在一些问题。若对少数类样本进行过采样，会使得少数类样本多次重复，有可能造成模型过拟合。若对多数类样本进行欠采样，随机抽取多数类样本，则会丢失部分信息。算法层面惩罚因子存在的问题是如何设置惩罚因子以及如何确定惩罚因子的大小，并且当样本类别极度不平衡时，此方法将失效。
技术实现思路
有鉴于现有技术的缺陷，本专利技术的目的在于提供一种基于级联卷积神...
基于级联卷积神经网络的自然场景图像文本检测方法

【技术保护点】
一种基于级联卷积神经网络的自然场景图像文本检测方法，包括如下步骤：步骤1，利用最大稳定极值区域方法提取输入图像中的候选字符；步骤2，将预训练的16‑net卷积神经网络与32‑net卷积神经网络串联，组成一个级联卷积神经网络，并利用该级联卷积神经网络对候选字符进行分类，剔除候选字符中的非真实字符，得到最终的真实字符检测结果；其中，16‑net卷积神经网络的输入图像分辨率为16*16，通过该网络可以快速剔除候选字符中的大部分的非真实字符；32‑net卷积神经网络的输入图像分辨率为32*32，该网络对经过16‑net网络处理后的候选字符进行分类，得到最终的分类结果，是最终的真实字符检测结果；步骤3，将字符检测结果中的相邻字符进行两两组对；然后将存在共有字符的字符进行合并，直到所有字符对均被合并为止，此时得到文本行；最后再根据字符间距将文本行分割为多个单词或词组，从而得到最终的文本检测结果。

【技术特征摘要】
1.一种基于级联卷积神经网络的自然场景图像文本检测方法，包括如下步骤：步骤1，利用最大稳定极值区域方法提取输入图像中的候选字符；步骤2，将预训练的16-net卷积神经网络与32-net卷积神经网络串联，组成一个级联卷积神经网络，并利用该级联卷积神经网络对候选字符进行分类，剔除候选字符中的非真实字符，得到最终的真实字符检测结果；其中，16-net卷积神经网络的输入图像分辨率为16*16，通过该网络可以快速剔除候选字符中的大部分的非真实字符；32-net卷积神经网络的输入图像分辨率为32*32，该网络对经过16-net网络处理后的候选字符进行分类，得到最终的分类结果，是最终的真实字符检测结果；步骤3，将字符检测结果中的相邻字符进行两两组对；然后将存在共有字符的字符进行合并，直到所有字符对均被合并为止，此时得到文本行；最后再根据字符间距将文本行分割为多个单词或词组，从而得到最终的文本检测结果。2.如权利要求1所述基于级联卷积神经网络的自然场景图像文本检测方法，其特征在于：所述步骤1中在输入图像中提取候选字符的实现方式如下，1)输入图像，利用灰度化方法对图像进行灰度化处理；2)依次选择位于[0,255]之间的值作为阈值，不断进行二值化；3)选择随着阈值变化而区域面积没有变化或者变化不大的区域，作为MSERs区域，得到候选区域。3.如权利要求1或2所述的一种基于级联卷积神经网络的自然场景图像文本检测方法，其特征在于：所述步骤2中训练16-net与32-net卷积神经网络的实现方式如下，1)利用MSERs方法对预先准备的样本集中的每幅图像依次进行最大稳定极值区域提取，并将这些区域保存为样本图像，得到训练样本集；然后将样本集分为正样本集P与负样本集N，其中正样本集P中的样本对应样本集中的真实字符样本，负样本集N中的样本对应样本集中的非真实字符样本，此时正样本数|P|远远小于负样本数|N|；2)对负样本集N进行随机采样得到负样本子集N’，|N’|为负样本子集N’的样本数，且满足|N’|＝|P|；以负样本子集N’与正样本集P组成训练样本集X1，并利用该训练样本集训练得到16-net卷积神经网络模型model16-net，设T16-net为模型model16-net的分类置信度阈值，f16-net(x)为模型model16-net对输入样本x的预测值，predict16-net(x)为模型model16-net对输入样本x的最终分类结果，则针对任意样本x满足下式，

【专利技术属性】
技术研发人员：刘菊华，吴伟，顾龙，
申请(专利权)人：武汉大学，武汉大学苏州研究院，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人