当前位置: 首页 > 专利查询>武汉大学专利>正文

基于级联卷积神经网络的自然场景图像文本检测方法技术

技术编号:17407790 阅读:64 留言:0更新日期:2018-03-07 05:22
本发明专利技术公开了一种基于级联卷积神经网络的自然场景图像文本检测方法,首先利用最大稳定极值区域方法对输入图像进行候选字符提取;其次,将预训练好的16‑net卷积神经网络与32‑net卷积神经网络进行串联,组成一个级联卷积神经网络,并利用该级联卷积神经网络对候选字符进行分类,剔除候选字符中的非真实字符,得到最终的真实字符检测结果;然后,将字符检测结果中的相邻字符进行两两组对,并将存在共有字符的字符进行合并,直到所有字符对均被合并为止,得到文本行;最后根据字符间距将文本行分割为多个单词或词组,得到最终的文本检测结果。本发明专利技术有效解决了训练样本类别不平衡的问题,有效地提升了文本检测效率和性能。

A text detection method for natural scene image based on cascaded convolution neural network

【技术实现步骤摘要】
基于级联卷积神经网络的自然场景图像文本检测方法
本专利技术属于自然场景文本检测
,具体涉及一种基于级联卷积神经网络的自然场景图像文本检测方法。
技术介绍
自然场景文本检测一般包括候选字符提取,字符与非字符分类,文本行构造及文本行分割四个步骤。候选字符提取是指通过研究字符的结构和颜色特征,从自然场景图像中提取出具有此类特征的区域作为候选字符;然后利用机器学习算法或深度学习算法训练出一个二分类器,并利用此分类器对候选字符进行分类,将其分为字符与非字符两类;再利用相邻字符之间的位置关系,将字符群组为文本行,即文本行构造;最后根据字符间距将文本行分割为多个单词或词组,从而得到最终的文本检测结果。在此过程中,由于自然场景中的文本结构与颜色等特征较为复杂,提取出来的候选字符不可避免地会包含非真实字符,且非真实字符数远远大于真实字符数,因此分类器的训练将面临样本类别不均衡问题。目前,业界解决此类问题主要从两方面进行处理。一种是从数据出发,通过对正负样本以不同的采样比率进行采样,从而得到均衡的样本。另一种方法是从算法出发,将正样本误分的惩罚因子设置为较大值,将负样本误分的惩罚因子设置较小值。但是从数据层面上对原始数据进行采样时,会存在一些问题。若对少数类样本进行过采样,会使得少数类样本多次重复,有可能造成模型过拟合。若对多数类样本进行欠采样,随机抽取多数类样本,则会丢失部分信息。算法层面惩罚因子存在的问题是如何设置惩罚因子以及如何确定惩罚因子的大小,并且当样本类别极度不平衡时,此方法将失效。
技术实现思路
有鉴于现有技术的缺陷,本专利技术的目的在于提供一种基于级联卷积神经网络的自然场景图像文本检测方法。为了实现上述专利技术目的,本专利技术所采用的技术方案是一种基于级联卷积神经网络的自然场景图像文本检测方法,包括如下步骤:步骤1,利用最大稳定极值区域方法提取输入图像中的候选字符;步骤2,将预训练的16-net卷积神经网络与32-net卷积神经网络串联,组成一个级联卷积神经网络,并利用该级联卷积神经网络对候选字符进行分类,剔除候选字符中的非真实字符,得到最终的真实字符检测结果;其中,16-net卷积神经网络的输入图像分辨率为16*16,通过该网络可以快速剔除候选字符中的大部分的非真实字符;32-net卷积神经网络的输入图像分辨率为32*32,该网络对经过16-net网络处理后的候选字符进行分类,得到最终的分类结果,是最终的真实字符检测结果;步骤3,将字符检测结果中的相邻字符进行两两组对;然后将存在共有字符的字符进行合并,直到所有字符对均被合并为止,此时得到文本行;最后再根据字符间距将文本行分割为多个单词或词组,从而得到最终的文本检测结果。而且,所述步骤1中在输入图像中提取候选字符的实现方式如下,1)输入图像,利用灰度化方法对图像进行灰度化处理;2)依次选择位于[0,255]之间的值作为阈值,不断进行二值化;3)选择随着阈值变化而区域面积没有变化或者变化不大的区域,作为MSERs区域,得到候选区域。而且,所述步骤2中训练16-net与32-net卷积神经网络的实现方式如下,1)利用MSERs方法对预先准备的样本集中的每幅图像依次进行最大稳定极值区域提取,并将这些区域保存为样本图像,得到训练样本集;然后将样本集分为正样本集P与负样本集N,其中正样本集P中的样本对应样本集中的真实字符样本,负样本集N中的样本对应样本集中的非真实字符样本,此时正样本数|P|远远小于负样本数|N|;2)对负样本集N进行随机采样得到负样本子集N’,|N’|为负样本子集N’的样本数,且满足|N’|=|P|;以负样本子集N’与正样本集P组成训练样本集X1,并利用该训练样本集训练得到16-net卷积神经网络模型model16-net,设T16-net为模型model16-net的分类置信度阈值,f16-net(x)为模型model16-net对输入样本x的预测值,predict16-net(x)为模型model16-net对输入样本x的最终分类结果,则针对任意样本x满足下式,设model16-net的最终分类置信度阈值记为T16-net,模型model16-net的预测值f16-net(x)大于等于T16-net时,分类为正样本,否则分类为负样本;3)利用模型model16-net对负样本集N中的样本进行分类,删除其中分类结果为负样本的样本,将剩余样本组成新的负样本集N”,以新的负样本集N”与正样本集P组成训练样本集X2,并利用该训练样本集训练得到32-net卷积神经网络模型model32-net,设T32-net为模型model32-net的分类置信度阈值,f32-net(x)为模型model32-net对输入样本x的预测值,predict32-net(x)为模型model32-net对输入样本x的最终分类结果,则针对任意样本x满足下式,设字符检测准确率precision为,被分类为字符且为真实字符的样本数与被分类为字符的样本数之比;字符检测召回率recall为,被分类为字符且为真实字符的样本数与样本中的真实字符数之比;综合指标记为fscore,如下式,设model32-net的最终分类置信度阈值记其为T32-net,模型model32-net的预测值f32-net(x)大于等于T32-net时,分类为正样本,否则分类为负样本。而且,取使99%的正样本被正确分类时的阈值作为model16-net的最终分类置信度阈值,记为T16-net。而且,所述最终分类置信度阈值T16-net的值为0.2。而且,取使得模型model32-net对样本集进行分类的综合指标fscore值最大时的分类阈值作为model32-net的最终分类置信度阈值,记其为T32-net。而且,所述最终分类置信度阈值T32-net的值为0.55。该方法的创新之处在于,针对自然场景中的文本结构与颜色等特征较为复杂的情况,将级联神经网络引入自然场景文本检测领域,能够快速有效地剔除候选字符中的非真实字符,可以有效解决正负样本类别不平衡的问题,加快检测速度,有效提升检测性能,具有重要的市场应用价值。附图说明图1为本专利技术实施例的流程图示。图2为本专利技术实施例16-net网络图示。图3为本专利技术实施例32-net网络图示。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。如图1,本专利技术实施例所采用的技术方案是一种基于级联卷积神经网络的自然场景图像文本检测方法,包括以下步骤:(1)利用最大稳定极值区域(MaximallyStableExtremalRegions,MSERs)方法在输入图像中提取候选字符,其提取结果中存在非真实字符,并且非真实字符数远大于真实字符数。所述步骤(1)中在自然场景文本检测中MSER特征提取的具体实施方式如下,1)将图像输入,利用灰度化方法对图像进行灰度化处理;2)依次选择位于[0,255]之间的值,使其作为阈值,不断进行二值化;3)选择随着阈值变化而区域面积没有变化或者变化甚小的区域,作为MSERs区域,即候选区域。实施例中,输入需要进行检测的图像,利用最本文档来自技高网...
基于级联卷积神经网络的自然场景图像文本检测方法

【技术保护点】
一种基于级联卷积神经网络的自然场景图像文本检测方法,包括如下步骤:步骤1,利用最大稳定极值区域方法提取输入图像中的候选字符;步骤2,将预训练的16‑net卷积神经网络与32‑net卷积神经网络串联,组成一个级联卷积神经网络,并利用该级联卷积神经网络对候选字符进行分类,剔除候选字符中的非真实字符,得到最终的真实字符检测结果;其中,16‑net卷积神经网络的输入图像分辨率为16*16,通过该网络可以快速剔除候选字符中的大部分的非真实字符;32‑net卷积神经网络的输入图像分辨率为32*32,该网络对经过16‑net网络处理后的候选字符进行分类,得到最终的分类结果,是最终的真实字符检测结果;步骤3,将字符检测结果中的相邻字符进行两两组对;然后将存在共有字符的字符进行合并,直到所有字符对均被合并为止,此时得到文本行;最后再根据字符间距将文本行分割为多个单词或词组,从而得到最终的文本检测结果。

【技术特征摘要】
1.一种基于级联卷积神经网络的自然场景图像文本检测方法,包括如下步骤:步骤1,利用最大稳定极值区域方法提取输入图像中的候选字符;步骤2,将预训练的16-net卷积神经网络与32-net卷积神经网络串联,组成一个级联卷积神经网络,并利用该级联卷积神经网络对候选字符进行分类,剔除候选字符中的非真实字符,得到最终的真实字符检测结果;其中,16-net卷积神经网络的输入图像分辨率为16*16,通过该网络可以快速剔除候选字符中的大部分的非真实字符;32-net卷积神经网络的输入图像分辨率为32*32,该网络对经过16-net网络处理后的候选字符进行分类,得到最终的分类结果,是最终的真实字符检测结果;步骤3,将字符检测结果中的相邻字符进行两两组对;然后将存在共有字符的字符进行合并,直到所有字符对均被合并为止,此时得到文本行;最后再根据字符间距将文本行分割为多个单词或词组,从而得到最终的文本检测结果。2.如权利要求1所述基于级联卷积神经网络的自然场景图像文本检测方法,其特征在于:所述步骤1中在输入图像中提取候选字符的实现方式如下,1)输入图像,利用灰度化方法对图像进行灰度化处理;2)依次选择位于[0,255]之间的值作为阈值,不断进行二值化;3)选择随着阈值变化而区域面积没有变化或者变化不大的区域,作为MSERs区域,得到候选区域。3.如权利要求1或2所述的一种基于级联卷积神经网络的自然场景图像文本检测方法,其特征在于:所述步骤2中训练16-net与32-net卷积神经网络的实现方式如下,1)利用MSERs方法对预先准备的样本集中的每幅图像依次进行最大稳定极值区域提取,并将这些区域保存为样本图像,得到训练样本集;然后将样本集分为正样本集P与负样本集N,其中正样本集P中的样本对应样本集中的真实字符样本,负样本集N中的样本对应样本集中的非真实字符样本,此时正样本数|P|远远小于负样本数|N|;2)对负样本集N进行随机采样得到负样本子集N’,|N’|为负样本子集N’的样本数,且满足|N’|=|P|;以负样本子集N’与正样本集P组成训练样本集X1,并利用该训练样本集训练得到16-net卷积神经网络模型model16-net,设T16-net为模型model16-net的分类置信度阈值,f16-net(x)为模型model16-net对输入样本x的预测值,predict16-net(x)为模型model16-net对输入样本x的最终分类结果,则针对任意样本x满足下式,

【专利技术属性】
技术研发人员:刘菊华吴伟顾龙
申请(专利权)人:武汉大学武汉大学苏州研究院
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1